Текст книги "Linux и UNIX: программирование в shell. Руководство разработчика"
Автор книги: Дэвид Тейнсли
сообщить о нарушении
Текущая страница: 10 (всего у книги 25 страниц)
$ ls | paste -
init. d
rc
rc.local
rc.sysinit
rc0.d
rc1.d
11.6. Разделение файла на части с помощью команды split
Команда split позволяет разделять крупные текстовые файлы на более мелкие, Это может оказаться удобным, например, при передаче файлов по сети. Общий формат команды split таков:
split [-размер_выходного_файла] входной_файл [префикс]
Первый параметр определяет количество строк, на которое нужно разбить файл. По умолчанию файл разбивается на фрагменты по 1000 строк. Если размер файла не кратен 1000, последний фрагмент будет содержать менее 1000 строк. Например, из файла, содержащего 2800 строк, в результате выполнения данной команды образуются три файла, включающих соответственно 1000, 1000 и 800 строк.
Имя каждого созданного файла представляется в формате от префикс[аа] до префикс[zz]. По умолчанию префиксом является буква 'x'. Таким образом, команда split создает такую последовательность файлов:
хаа, xab, … xzy, xzz
Если расположить файлы в алфавитном порядке и выполнить их последовательную конкатенацию, получим исходный файл.
Следующий пример поможет разъяснить сказанное. Допустим, имеется файл bigone.txt, содержащий 2800 строк. В результате выполнения команды split будут сформированы три выходных файла:
Имя файла Размер
xaa 1000
xab 1000
xac 800
Теперь рассмотрим, как изменить размер создаваемых файлов. Ниже показан файл split1, содержащий шесть строк:
$ cat split1
this ls line1
this ls line2
this ls line3
this ls line4
this ls line5
this ls line6
Для разделения его на фрагменты по две строки в каждом воспользуемся такой командой:
$ split -2 split1
Давайте проверим, что было создано (команда ls -lt сортирует список файлов по дате создания, а команда head отбирает из этого списка первые десять элементов):
$ ls -lt | head
total 205
–rw‑r–r– 1 dave admin 28 Apr 30 13:12 xaa
–rw‑r–r– 1 dave admin 28 Apr 30 13:12 xab
–rw‑r–r– 1 dave admin 28 Apr 30 13:12 xac
Исходный файл состоит из шести строк. В результате применения к нему команды split были сформированы три файла, содержащих по две строки каждый. Чтобы убедиться в правильности работы команды, рассмотрим содержимое файла хаc, который должен включать последние две строки:
$ cat xac
this ls line5
this ls line6
11.7. Заключение
В настоящей главе были рассмотрены различные стандартные утилиты (sort, unique, join, cut, paste и split, а также head и tail), имеющие отношение, главным образом, к сортировке, разделению и объединению текстовых файлов. Применение каждой из них иллюстрировалось многочисленными примерами, которые позволят вам сформировать четкое представление о возможностях этих утилит. Я надеюсь, что благодаря изложенным сведениям вы смогли пополнить свой багаж знаний об инструментах работы с текстом, имеющихся в UNIX и Linux.
ГЛАВА 12 Утилита tr
12.1. Применение утилиты tr
Утилита tr выполняет символьное преобразование путем подстановки или удаления символов из стандартного входного потока. Она часто применяется для удаления управляющих символов из файла или преобразования регистра символов. Как правило, утилите tr передаются две строки: первая строка содержит искомые символы, а вторая – те, на которые их следует заменить. При запуске команды устанавливается соответствие между символами обеих строк, а затем начинается преобразование.
В этой главе рассматриваются следующие темы:
• преобразование строчных символов в прописные;
• очистка содержимого файлов от управляющих символов;
• удаление пустых строк.
Формат утилиты tr с наиболее часто применяемыми параметрами таков:
tr -c -d -s ["строка1"] ["строка2"] входной_файл
где
–c Задает замену набора символов, указанных в строке1 их собственным дополнением при условии, что значение этих символов находится в диапазоне значений кодов ASCII -d Задает удаление во входном файле всех символов, указанных в строке1
–s Задает удаление в последовательности повторяющихся символов всех символов, кроме первого, благодаря чему удаляются повторяющиеся символы
Параметр входной_файл определяет имя файла, содержимое которого необходимо преобразовать. Несмотря на то, что входные данные могут иметь и другие формы, широко используется именно указанный выше способ их задания.
12.1.1. Диапазоны символов
При использовании утилиты tr можно указать диапазоны или списки символов в виде шаблонов, которые образованы строками. Эти шаблоны подобны регулярным выражениям, однако на самом деле они таковыми не являются. При указании в утилите tr содержимого строк строка1 или строка2 используются только диапазоны и последовательности символов либо отдельные символы.
[a‑z]
Строка символов, находящихся в диапазоне a‑z
[A‑Z]
Строка символов, находящихся в диапазоне A‑Z
[0-9]
Строка чисел
/octal
Восьмеричное число, состоящее из трех чисел и представляющее любой действительный символ в коде ASCII
[0*n]
Означает символ '0', встречающийся столько раз, сколько указывает значение 'n'. Таким образом, [0*2] означает 00, причем в любой строке, включая и 00
В большинстве вариантов утилиты tr поддерживаются классы символов и сокращенная запись управляющих символов. В формат класса символов [:class:] среди прочего входят следующие обозначения: alnum (буквенно–цифровые символы), alpha (буквы), blank (пропуски), upper (прописные буквы), lower (строчные буквы), cntrl (управляющие символы), space (пробелы), digit (цифры), graph (графические символы) и т. д. В табл. 12.1 представлен способ сокращенного представления некоторых наиболее распространенных управляющих символов, используемый вместо восьмеричного их представления в виде трех чисел, которое также приведено в данной таблице.
Таблица 12.1. Различные способы указания управляющих символов в утилите tr
Сокращение
Значение
Восмеричное значение
а
Control‑G – звонок