Приложение C. Маленький учебник по Sed и Awk. Advanced Bash-Scripting Guide

В этом приложении содержится очень краткое описание приемов работы с утилитами обработки текста sed и awk. Здесь будут рассмотрены лишь несколько базовых команд, которых, в принципе, будет достаточно, чтобы научиться понимать простейшие конструкции sed и awk внутри сценариев на языке командной оболочки.

sed: неинтерактивный редактор текстовых файлов

awk: язык обработки шаблонов с C-подобным синтаксисом

При всех своих различиях, эти две утилиты обладают похожим синтаксисом, они обе умеют работать с регулярными выражениями, обе, по-умолчанию, читают данные с устройства stdin и обе выводят результат обработки на устройство stdout. Обе являются утилитами Unix-систем, и прекрасно могут взаимодействовать между собой. Вывод от одной может быть перенаправлен, по конвейеру, на вход другой. Их комбинирование придает сценариям, на языке командной оболочки, мощь и гибкость языка Perl.

C.1. Sed

Sed -- это неинтерактивный строчный редактор. Он принимает текст либо с устройства stdin, либо из текстового файла, выполняет некоторые операции над строками и затем выводит результат на устройство stdout или в файл. Как правило, в сценариях, sed используется в конвейерной обработке данных, совместно с другими командами и утилитами.

Sed определяет, по заданному адресному пространству, над какими строками следует выполнить операции. [66] Адресное пространство строк задается либо их порядковыми номерами, либо шаблоном. Например, команда 3d заставит sed удалить третью строку, а команда /windows/d означает, что все строки, содержащие "windows", должны быть удалены.

Из всего разнообразия операций, мы остановимся на трех, используемых наиболее часто. Это p -- печать (на stdout), d -- удаление и s -- замена.

Таблица C-1. Основные операции sed

Операция	Название	Описание
`[диапазон строк]/p`	print	Печать [указанного диапазона строк]
`[диапазон строк]/d`	delete	Удалить [указанный диапазон строк]
`s/pattern1/pattern2/`	substitute	Заменить первое встреченное соответствие шаблону pattern1, в строке, на pattern2
`[диапазон строк]/s/pattern1/pattern2/`	substitute	Заменить первое встреченное соответствие шаблону pattern1, на pattern2, в указанном `диапазоне строк`
`[диапазон строк]/y/pattern1/pattern2/`	transform	заменить любые символы из шаблона pattern1 на соответствующие символы из pattern2, в указанном `диапазоне строк` (эквивалент команды tr)
`g`	global	Операция выполняется над всеми найдеными соответствиями внутри каждой из заданных строк

Без оператора g (global), операция замены будет производиться только для первого найденого совпадения, с заданным шаблоном, в каждой строке.

В отдельных случаях, операции sed необходимо заключать в кавычки.

sed -e '/^$/d' $filename
#  Ключ -e говорит о том, что далее следует строка, которая должна интерпретироваться
#+ как набор инструкций редактирования.
# (При передаче одной инструкции, ключ "-e" является необязательным.)
#  "Строгие" кавычки ('') предотвращают интерпретацию символов регулярного выражения,
#+ как специальных символов, командным интерпретатором.
#
# Действия производятся над строками, содержащимися в файле $filename.

В отдельных случаях, команды редактирования не работают в одиночных кавычках.

filename=file1.txt
pattern=BEGIN

  sed "/^$pattern/d" "$filename"  # Результат вполне предсказуем.
# sed '/^$pattern/d' "$filename"    дает иной результат.
#        В данном случае, в "строгих" кавычках (' ... '),
#+      не происходит подстановки значения переменной "$pattern".

Sed использует ключ -e для того, чтобы определить, что следующая строка является инструкцией, или набором инструкций, редактирования. Если инструкция является единственной, то использование этого ключа не является обязательным.

sed -n '/xzy/p' $filename
# Ключ -n заставляет sed вывести только те строки, которые совпадают с указанным шаблоном.
# В противном случае (без ключа -n), будут выведены все строки.
# Здесь, ключ -e не является обязательным, поскольку здесь стоит единственная команда.

Таблица C-2. Примеры операций в sed

Операция	Описание
`8d`	Удалить 8-ю строку.
`/^$/d`	Удалить все пустые строки.
`1,/^$/d`	Удалить все строки до первой пустой строки, включительно.
`/Jones/p`	Вывести строки, содержащие "Jones" (с ключом -n).
`s/Windows/Linux/`	В каждой строке, заменить первое встретившееся слово "Windows" на слово "Linux".
`s/BSOD/stability/g`	В каждой строке, заменить все встретившиеся слова "BSOD" на "stability".
`s/ *$//`	Удалить все пробелы в конце каждой строки.
`s/00*/0/g`	Заменить все последовательности ведущих нулей одним символом "0".
`/GUI/d`	Удалить все строки, содержащие "GUI".
`s/GUI//g`	Удалить все найденые "GUI", оставляя остальную часть строки без изменений.

Замена строки пустой строкой, эквивалентна удалению части строки, совпадающей с шаблоном. Остальная часть строки остается без изменений. Например, s/GUI//, изменит следующую строку

The most important parts of any application are its GUI and sound effects

на

The most important parts of any application are its  and sound effects

Символ обратного слэша представляет символ перевода строки, как символ замены. В этом случае, замещающее выражение продолжается на следующей строке.

s/^  */\
/g

Эта инструкция заменит начальные пробелы в строке на символ перевода строки. Ожидаемый результат -- замена отступов в начале параграфа пустыми строками.

Указание диапазона строк, предшествующее одной, или более, инструкции может потребовать заключения инструкций в фигурные скобки, с соответствующими символами перевода строки.

/[0-9A-Za-z]/,/^$/{
/^$/d
}

В этом случае будут удалены только первые из нескольких, идущих подряд, пустых строк. Это может использоваться для установки однострочных интервалов в файле, оставляя, при этом, пустые строки между параграфами.

Быстрый способ установки двойных межстрочных интервалов в текстовых файлах -- sed G filename.

Примеры использования sed в сценариях командной оболочки, вы найдете в:

Ссылки на дополнительные сведения о sed, вы найдете в разделе Библиография.

C.2. Awk

Awk -- это полноценный язык обработки текстовой информации с синтаксисом, напоминающим синтаксис языка C. Он обладает довольно широким набором возможностей, однако, мы рассмотрим лишь некоторые из них -- наиболее употребимые в сценариях командной оболочки.

Awk "разбивает" каждую строку на отдельные поля. По-умолчанию, поля -- это последовательности символов, отделенные друг от друга пробелами, однако имеется возможность назначения других символов, в качестве разделителя полей. Awk анализирует и обрабатывает каждое поле в отдельности. Это делает его идеальным инструментом для работы со структурированными текстовыми файлами -- осбенно с таблицами.

Внутри сценариев командной оболочки, код awk, заключается в "строгие" (одиночные) кавычки и фигурные скобки.

awk '{print $3}' $filename
# Выводит содержимое 3-го поля из файла $filename на устройство stdout.

awk '{print $1 $5 $6}' $filename
# Выводит содержимое 1-го, 5-го и 6-го полей из файла $filename.

Только что, мы рассмотрели действие команды print. Еще, на чем мы остановимся -- это переменные. Awk работает с переменными подобно сценариям командной оболочки, но более гибко.

{ total += ${column_number} }

Эта команда добавит содержимое переменной column_number к переменной "total". Чтобы, в завершение вывести "total", можно использовать команду END, которая открывает блок кода, отрабатывающий после того, как будут обработаны все входные данные.

END { print total }

Команде END, соответствует команда BEGIN, которая открывает блок кода, отрабатывающий перед началом обработки входных данных.

Следующий пример демонстрирует применение awk для разбора текста в сценариях командной оболочки.

Пример C-1. Подсчет количества символов

#! /bin/sh
# letter-count.sh: Counting letter occurrences in a text file.
#
# Автор: nyal (nyal@voila.fr).
# Используется с разрешения автора сценария.
# Комментарии добавлены автором документа.


INIT_TAB_AWK=""

count_case=0
FILE_PARSE=$1

E_PARAMERR=65

usage()
{
    echo "Порядок использования: letter-count.sh имя_файла символы" 2>&1
    # Например:   ./letter-count.sh filename.txt a b c
    exit $E_PARAMERR  # Вызов сценария без аргументов.
}

if [ ! -f "$1" ] ; then
    echo "Файл $1 не найден." 2>&1
    usage                 # Вывод сообщения и выход.
fi 

if [ -z "$2" ] ; then
    echo "$2: Не заданы символы для поиска." 2>&1
    usage
fi 

shift                      # Символы заданы.
for letter in `echo $@`    # Для каждого из них . . .
  do
  INIT_TAB_AWK="$INIT_TAB_AWK tab_search[${count_case}] = \"$letter\"; final_tab[${count_case}] = 0; " 
  # Передается как параметр в сценарий awk ниже.
  count_case=`expr $count_case + 1`
done

# DEBUG:
# echo $INIT_TAB_AWK;

cat $FILE_PARSE |
# Передать заданый файл по конвейеру в сценарий awk.

# --------------------------------------------------------------------------------
# От переводчика:
#    В оригинальном тексте сценария стоит следующая строка:
#awk -v tab_search=0 -v final_tab=0 -v tab=0 -v nb_letter=0 -v chara=0 -v chara2=0 \
# 
#    с моим gawk 3.1.3 сценарий делается неработоспособным
#    поэтому я взял на себя смелость несколько подправить эту строку,
#    в результате она получилась такой:
awk -v nb_letter=0 -v chara=0 -v chara2=0 \
"BEGIN { $INIT_TAB_AWK } \
{ split(\$0, tab, \"\"); \
for (chara in tab) \
{ for (chara2 in tab_search) \
{ if (tab_search[chara2] == tab[chara]) { final_tab[chara2]++ } } } } \
END { for (chara in final_tab) \
{ print tab_search[chara] \" => \" final_tab[chara] } }"
# --------------------------------------------------------------------------------
#  Ничего сложного. . .
#+ Циклы for, проверка условия if, и пара специфических функций.

exit $?

Более простые примеры использования awk в сценариях командной оболочки, вы найдете в:

Это все, что я хотел рассказать об awk. Дополнительные ссылки на информацию об awk, вы найдете в разделе Библиография.