Руководство пользователя для GNU Awk

16. Практические awk-программы

16.2 Разные awk-программы

16.2.6 удаление дубликатов из несортированного текста

Программа uniq (см. раздел 16.1.6 [Печать неповторяющихся строк текста ], стр. 220), удаляет повторяющиеся строки из отсортированного текста. Предположим, что нужно удалить повторяющиеся строки из файла с данными, но с сохранением существующего порядка строк? Хорошим примером этого может быть файл истории оболочки. Он содержит копии всех выданных команд и случается, что та же команда повторяется несколько раз. Возможно, вы захотите ужать историю удалением повторяющихся команд. Но желательно сохранить порядок оригинальных команд.

Следующая простая программа решает задачу. Она использует два массива. Массив data индексируется текстами каждой строки. Для каждой строки data[$0] увеличивается. Если некоторая строка не появлялась раньше, то data[$0] будет нулем . И в этом случае текст строки запоминается в lines[count]. Каждый элемент в lines есть уникальная команда, а индексы в lines указывают порядок, в котором эти строки были обнаружены. Правило END просто распечатывает массив lines в порядке count

# histsort.awk --- сжатая история оболочки
# Arnold Robbins, arnold@gnu.org, Public Domain # May 1993
# Благодарю  Byron Rakitzis за общую идею -
if (data[$0]++ == 0)
lines[++count] = $0 ""
END -
for (i = 1; i != count; i++)
print lines[i] ""

Эта программа также представляет фундамент для генерации другой полезной информации. Например, используя следующий оператор печати в правиле END, можно указывать, как часто некоторая команда была использована:

print data[lines[i]], lines[i]

Это работает, так как data[$0] увеличивалась каждый раз, когда появлялась строка.

Назад | Вперед

Содержание (общее) | Содержание раздела | Содержание подраздела

Если Вы не нашли что искали, то рекомендую воспользоваться поиском по сайту: