Текст книги "Язык программирования Perl"
Автор книги: Михаил Шохирев
сообщить о нарушении
Текущая страница: 9 (всего у книги 19 страниц)
Лекция 9. Средства ввода-вывода
В этой лекции разбирается организация ввода-вывода данных в Perl. Рассмотрены средства работы с каталогами, файлами и содержимым файлов. Материалы этой лекции позволят вам писать полноценные программы, «общающиеся с внешним миром».
Цель лекции: познакомиться с возможностями подсистемы ввода-вывода в Perl и освоить основные приемы чтения и записи внешних данных, а также научиться работать со средствами манипулирования файлами и каталогами.
Система ввода-вывода Perl основана на принципах, заложенных в системе Unix и распространившихся на все современные операционные системы. Одним из основных понятий работы в программе с внешними данными являются потоки ввода-вывода. В программе обращение к потоку ввода-вывода производится через файловый манипулятор (file handle), иногда неправильно называемый дескриптором файла. При запуске любой программы автоматически открывается три потока: стандартный ввод (stdin), стандартный вывод (stdout) и стандартный протокол (stderr). Поток стандартного ввода в диалоговой операционной среде связывается с клавиатурной, а потоки стандартного вывода и стандартного протокола – с дисплейной частью консоли операционной системы. Со стандартными потоками в Perl связываются три предопределенных файловых манипулятора: соответственно STDIN, STDOUT и STDERR. Связывание имени файла с пользовательским файловым манипулятором в программе выполняется с помощью операции open(), открывающей поток обмена данными с указанным файлом. Требования надежности рекомендуют обязательно проверять все операции ввода-вывода на успешное завершение. Поэтому в случае возникновения ошибки при открытии файла программа обычно аварийно завершается с помощью функции die(), которая может выводить диагностическое сообщение в стандартный поток протокола. Например, так открывается файл и создается файловый манипулятор FILE_HANDLE:
# открыть для чтения файл по имени, взятом из $file_name
open(FILE_HANDLE, $file_name)
# или аварийно завершить программу с выдачей сообщения
or die(«Ошибка открытия файла $file_name: $!n»); #
В случае успешного открытия файла функция open() помещает в свой первый аргумент готовый к использованию файловый манипулятор. Имя файлового манипулятора записывается без разыменовывающего префикса и по традиции выделяется заглавными буквами. Рекомендуется при открытии файла сохранять файловый манипулятор в скалярной переменной, что позволяет локализовать файловый манипулятор для использования только в текущем блоке или подпрограмме. Кроме того, скалярную переменную с файловым манипулятором можно удобно передавать в подпрограммы для выполнения в них операций ввода-вывода. Итак, вот предпочтительный способ открытия файла:
open my $file_handle, $file_name
or die «Ошибка открытия файла $file_name: $!n»;
(Как и при вызове других функций в Perl, если не возникает неоднозначности, программист решает, заключать аргументы функций в круглые скобки или нет. Среди пишущих на Perl широко распространен стиль программирования без использования круглых скобок.)
При открытии файла функции, помимо файлового манипулятора и имени файла в файловой системе (абсолютного или относительного), указывается режим открытия файла. Он обозначается такими же символами, как переназначение потоков ввода-вывода в командном интерпретаторе операционной системы. Основные режимы открытия потоков ввода-вывода приведены в таблице 9.1.
Таблица 9.1. Основные режимы открытия потоков ввода-вывода
< | Чтение (существующего файла с начала) | open($fh, ' |
> | Перезапись (с начала файла) | open($fh, '>/temp/buffer.txt') |
>> | Дозапись (в конец файла) | open($fh, '>>/temp/buffer.txt') |
+< | Чтение и запись (файл должен существовать) | open($fh, '+ |
+> | Запись и чтение (файл усекается) | open($fh, '+>/temp/buffer.txt') |
+>> | Дозапись и чтение | open($fh, '+>>/temp/buffer.txt') |
Применяются две формы записи функции open(): старая с двумя аргументами, когда режим открытия указывается перед именем файла, и новая – с тремя аргументами, в которой режим открытия указывается отдельно вторым параметром. Сравните:
open $fh, '
open $fh, '<', '/temp/buffer.txt';
Программисты, знающие язык C, могут воспользоваться для открытия потоков функцией sysopen(), которая аналогична функции открытия потоков в C, и к тому же позволяет более тонко настраивать режимы открытия файлов. А вообще в комплекте с Perl идет целый учебник по функции open(), который можно прочитать утилитой чтения документации:
perldoc perlopentut
Связь файлового манипулятора в программе с обрабатываемым файлом разрывается функцией закрытия потока close(), закрывающей поток ввода-вывода. Ей передается файловый манипулятор открытого файла:
close(FILE) or die(«Ошибка при закрытии файла: $!n»);
close $handle or die «Ошибка закрытия файла: $!n»;
В новой многоуровневой подсистеме ввода-вывода Perl предусматривает при открытии потока вместе с режимом открытия указывать кодировку читаемых и записываемых данных, что позволяет автоматически преобразовывать информацию из одной кодировки в другую, например, так:
open my $in, «<:encoding(UTF-8)», 'utf8.txt' or die;
open my $out, «>:encoding(cp1251)», 'cp1251 .txt' or die;
while(<$in>){ print $out $_; }
close $in or die;
close $out or die;
В некоторых операционных системах (например, в MS-DOS), после открытия файла, но перед чтением двоичных данных требуется установить для файлового манипулятора режим работы с двоичными данными с помощью функции binmode($file_handle). При работе в операционных системах, не требующих установки этого режима, вызов функции binmode() не оказывает никакого действия.
В огромном числе случаев ввод данных в Perl-программу и вывод из нее результатов производится построчно, а для разделения строк файла используется разделитель входных записей, хранящийся в специальной переменной $/ ($INPUT_RECORD_SEPARATOR). Для чтения одной строки из входного потока используется операция «кристалл» (diamond), которой в качестве аргумента передается файловый манипулятор или переменная, содержащая манипулятор. Если аргумент не указан, данные читаются из стандартного входного потока.
$input = <>; # чтение строки в $input из STDIN
$line =
$in = <$handle>; # чтение строки в $in из потока $handle
Операция чтения «кристалл» в скалярном контексте возвращает одну строку вместе с разделителем записей, а когда достигается конец файла, она возвращает неопределенное значение undef, которое воспринимается как ложное. Поэтому типичный цикл построчного чтения данных проверяет прочитанное значение и заканчивается, когда оно становится неопределенным:
open my $fh, «< $file» or die «Ошибка открытия: $!»;
while (my $line = <$fh>) { # чтение строки в переменную $line
chomp $line; # удаление разделителя строк
print length $line, « $linen»; # обработка строки
}
close $fh or die «Ошибка закрытия: $!»;
Операция чтения «кристалл» в списочном контексте возвращает список всех строк с разделителями записей. Так, например, можно считать файл в массив, попутно отсортировав его:
@lines= sort(<$fh>); # в @lines отсортированные строки из $fh
Построчный вывод данных выполняет функция print(), которая по умолчанию выводит список значений в текущий поток вывода, по умолчанию – в STDOUT. Если требуется направить информацию в другой поток, то перед списком выводимых данных указывается файловый дескриптор. Обратите внимание, что между файловым дескриптором и списком выводимых значений запятая не ставится. Вот примеры вывода данных:
print($list, $of, $output, $values); # вывод в STDOUT
print STDOUT $list, $of, $output, $values; # вывод в STDOUT
print(STDERR $list, $of, $output, $values); # вывод в STDERR
print FILE $list, $of, $output, $values; # вывод в FILE
print($file $list, $of, $output, $values); # вывод в $file
Для форматирования выводимой информации применяется функция printf(), которая преобразует выходные данные при помощи форматов преобразования, подробно объясненных в лекции 7 при описании функции sprintf(). Например, так можно вывести отформатированное текущее время в разные выходные потоки:
my ($hh, $mm, $ss) = (localtime)[2, 1, 0];
# выбрать из списка нужные значения: часы, минуты, секунды
my $format = «%02d:%02d:%02dn»; # формат вывода
printf $format, $hh, $mm, $ss; # вывод в STDOUT
printf(STDERR $format, $hh, $mm, $ss); # вывод в STDERR
printf $file $format, $hh, $mm, $ss; # вывод в $file
Задавая различные форматы преобразования, можно выводить данные в требуемом представлении или в виде колонок указанной ширины. Более тонкое управление выводимыми данными организуется средствами форматирования отчетов, которые будут изучены в следующей лекции.
В файле с исходным текстом программы на Perl может располагаться встроенный файл с данными, которые помещаются в конце программного файла после специальной лексемы __END__ (в основной программе) или __DATA__ (в программном модуле). При выполнении программы данные из этого встроенного файла доступны для чтения при помощи специального файлового манипулятора DATA. Во встроенном файле удобно хранить тестовые данные для проверки работы программы после ее модификации. Вот пример чтения данных из встроенного файла:
while (my $line = ) { # читаем построчно данные
print $line; # обрабатываем данные
}
__END__
Это данные из встроенного файла
Двоичные данные обычно хранятся в файлах без разделителей записей в блоках фиксированной длины. После открытия двоичного файла функцией open() нужно установить режим обработки двоичных данных с помощью функции binmode().
open(my $fh, «>$file») or die(«Ошибка открытия: $!»);
binmode($fh);
Запись двоичных данных или данных фиксированной длины может выполняться с помощью функции print($fh $record). Также имеется функция небуферизованного вывода syswrite(), которой при вызове указываются три аргумента: файловый манипулятор, скалярная переменная с выводимыми данными и размер записываемого блока данных. Эта функция возвращает число фактически записанных байт (в случае ошибки syswrite возвращает undef), что можно использовать для проверки успешности записи. Это делается так:
syswrite($fh, $record, length($record)) == length($record)
or die(«Ошибка записи: $!»);
Преобразование данных к двоичному виду производит функция pack(), которая упаковывает в скалярную переменную список значений в соответствии с указанным шаблоном. В шаблоне каждое преобразуемое поле обозначается с помощью латинской буквы. Полный перечень шаблонов преобразования для функций pack() и unpack() приводится в таблице 9.2. За каждым символом в шаблоне может следовать десятичное число, которое рассматривается как ширина преобразуемого поля. Поля в шаблоне могут разделяться пробелами для удобства чтения.
Таблица 9.2. Шаблоны упаковки и распаковки данных
a | Arbitrary | произвольная последовательность байтов, дополненная нулевым байтом |
A | ASCII | строка символов ASCII, дополненная пробелами |
b / B | Bit string | строка битов с возрастающим / убывающим порядком битов |
c / C | Character | однобайтовые символы со знаком / без знака |
f / d | Float / Double | число с плавающей точкой одинарной / двойной точности |
F | Float | число с плавающей точкой одинарной точности во внутреннем представлении (NV) |
D | long Double | длинное число с плавающей точкой двойной точности |
h / H | Hex string | шестнадцатеричная строка с младшим / старшим полубайтом (nybble) в начале |
i / I | Integer | целое (>=32 бита) число со знаком / без знака |
j / J | целое во внутреннем представлении со знаком (IV) / без знака (UV) | |
l / L | Long | длинное (32 бита) целое со знаком / без знака |
n / N | Network | беззнаковое короткое (16 битов) / длинное (32 бита) целое с сетевым порядком байтов (big endian) |
p / P | Pointer | указатель на строку, оканчивающуюся / фиксированной длины |
q / Q | Quad | сверхдлинное (64 бита) целое число со знаком / без знака |
s / S | Short | короткое (16 битов) целое со знаком / без знака |
u | uuencoded | строка, кодированная по алгоритму uuencode |
U | Unicode | строка символов Unicode |
v / V | VAX | беззнаковое короткое (16 битов) / длинное (32 бита) целое с VAX-порядком байтов (little endian) |
w | целое, сжатое в соответствии с кодировкой BER | |
x | вставка (pack) / пропуск байта по направлению вперед (unpack) | |
X | пропуск байта по направлению назад | |
Z | ASCIIZ | строка ASCIIZ (оканчивающаяся ), дополненная |
@ | заполнение до указанной позиции |
Например, целочисленное значение, возвращаемое функцией time(), и дробное значение, возвращаемое функцией rand(), можно упаковать в переменную $record с помощью шаблона 'l1 d1', который означает: «одно длинное целое число (long) и одно число с плавающей точкой двойной точности (double)».
$record = pack 'l1 d1', time(), rand(); #
Вот еще несколько несложных примеров использования разных шаблонов для функции pack():
$bin = pack('a5', 'Yes'); # в $bin будет: 'Yes '
$bin = pack('A5', 'Yes'); # в $bin будет: 'Yes '
$bin = pack('a4', 'abcd','x','y','z'); # в $bin: 'abcd'
$bin = pack('aaaa', 'abcd','x','y','z'); # в $bin: 'axyz'
$bin = pack('C2', 65,66,67); # в $bin будет: 'AB'
$bin = pack('U2', 0x263A, 0x263B); # в $bin будет: '??'
$bin = pack ('cxxc', 65,66); # в $bin будет: 'A B'
Для преобразования данных из двоичного вида применяется функция unpack(), которая распаковывает из скалярной переменной в список или массив значения двоичных данных в соответствии с указанным шаблоном.
@list_of_values = unpack($template, $binary_record);
Кроме того, с помощью функции unpack() можно из строки извлекать подстроки фиксированной длины. Например, так можно извлечь из записи файла поля определенной длины в переменные:
# Поля данных в записи файла:
# c 1 по 7 байт – номер телефона
# с 8 длиной 30 – фамилия, имя, отчество абонента
# с 38 длиной 25 – адрес
# 1234567Бендер Остап Ибрагимович РСФСР, Черноморск
($phone, $name, $address)= unpack('A7A30A25', $record);
Чтобы пропустить ненужные поля, достаточно указать в шаблоне пропуск определенного количества байтов. Например, так можно не извлекать поле с телефонным номером:
($name, $address)= unpack('x7A30A25', $record);
Подробное описание шаблонов и работы функций pack() и unpack() можно найти в стандартной документации с помощью все той же утилиты чтения документации:
perldoc perlpacktut
Для чтения двоичных данных или текстовых данных фиксированной длины применяется функция read(), которой в качестве аргументов передаются файловый манипулятор, скалярная переменная для вводимых данных и размер считываемого блока данных. Вот так, например, выглядит типичный цикл чтения двоичных данных:
until(eof($fh)) { # читать до достижения конца файла
# считать очередной блок данных и проверить его длину
read($fh, $record, $record_size) == $record_size
or die('Неправильная длина данных');
# распаковать данные по шаблону из $record в @data
@data = unpack($template, $record);
# обработать введенные данные...
}
При работе с данными фиксированной длины обычной практикой является считывание или запись данных в произвольном месте файла, например, при изменении только что считанного блока данных. Для этого нужно позиционировать позицию чтения или записи. Это делается с помощью функции seek(), которой передается три аргумента: файловый манипулятор, смещение в байтах и указатель позиции отсчета. Позиция отсчета задается числами: 0 – от начала файла, 1 – от текущей позиции, 2 – от конца файла. Например:
seek($handle, 64, 0); # переместиться на 64 байта от начала
seek($handle, 25, 1); # сместиться на 25 байт вперед
seek($handle, -10, 2); # установиться на 10 байт до конца
seek($handle, 0, 0); # установить позицию в начало файла
С помощью функции tell(), которая возвращает смещение относительно начала файла, можно узнать текущую позицию чтения-записи и использовать ее для дальнейших перемещений по файлу.
$pos = tell($handle); # запомнить текущую позицию в $pos
seek($handle, $pos-5, 1); # сместиться на 5 байт назад
В следующем примере увеличивается поле счетчика длиной 2 байта, расположенное в файле с позиции $new_pos:
seek($file, $new_pos, 0); # установить позицию чтения
$pos = tell($file); # и запомнить ее в переменной
read($file, $number, 2); # прочитать 2-байтовое поле
seek($file, $pos, 0); # установить в исходную позицию
syswrite($file, ++$number, 2); # записать новое значение
Операции ввода-вывода с произвольным доступом часто используются для работы с базами данных, основанных на записях фиксированной длины, например, с файлами в формате DBF. Они позволяют организовать быструю выборку данных и запись измененных данных на прежнее место.
Перед выполнением операций ввода-вывода часто требуется узнать информацию об объектах файловой системы. В Perl есть набор унарных операций для удобной проверки различных характеристик файлов и каталогов. Они имеют вид флагов из одной латинской буквы с предшествующим знаком минус, после которого указывается имя проверяемого файла. Полный перечень операций проверки файлов приведен в таблице 9.3.
Таблица 9.3. Операции проверки файлов
-r -w -x | Файл доступен для чтения / записи / исполнения (по effective UID+GID) |
-R -W -X | Файл доступен для чтения / записи / исполнения (по real UID+GID) |
-o -O | Файл принадлежит текущему пользователю по effective / real UID |
-e -z | Файл существует (exists) / имеет нулевую длину (zero) |
-s | Файл имеет ненулевой размер: возвращает размер в байтах (size) |
-f -d | Файл является обычным файлом (file) / каталогом (directory) |
-l -S -p | Файл является ссылкой / сокетом / именованным FIFO-каналом (pipe) |
-b -c | Файл является блочным / символьным специальным файлом |
-u -g -k | Для файла установлен бит setuid / setgid / sticky |
-t | Файловый манипулятор связан с терминалом (tty) |
-T -B | Файл является текстовым (text) / двоичным (binary) |
-M -A -C | Время изменения (modification) / доступа (access) / изменения (change) индексного узла (inode) файла в днях относительно времени начала выполнения программы ($^T) |
Вот несколько типичных примеров использования операций проверки файлов для контроля доступности данных:
open($f1, «<$file1») # открыть файл на чтение,
if (-e $file1) && # если он существует и
(-r $file1); # он доступен на чтение
open $f2, «>$file2» # открыть файл на запись,
if -w $file2; # если в него можно писать
$file_size = -s $file; # узнать размер файла
print «$file – является каталогом!» if -d $file;
В Perl есть целый набор встроенных функций для работы с файлами, с помощью которых можно манипулировать с самими файлами, а не с данными, хранящимися в них.
Функция rename() переименовывает файл, возвращая логическое значение: 1 при успешном изменении имени и 0 – в противном случае. Ей передаются старое и новое имя файла с абсолютным или относительным путем.
$ok = rename(«$path/$old_name», «$path/$new_name»);
Функция unlink() удаляет файл или список файлов, возвращая число 1 при успешном удалении и 0 – при ошибке.
unlink($list, $of, $files); # удалить список файлов
unlink $file if -e $file; # удалить файл, если он существует
Функция truncate() усекает файл до указанного размера и возвращает число 1 в случае успешного выполнения усечения и неопределенное значение undef – при возникновении ошибки. Файл может задаваться именем или файловым манипулятором. Например:
$ok = truncate($file, $size);
Функция stat() возвращает информацию о файле в виде списка или пустой список при неудаче. Файл может задаваться манипулятором файла или выражением со значением имени файла:
@info = stat($file); # получить всю информацию о файле
$size = $info[7]; # размер файла в байтах
$modified = localtime($info[9]); # время изменения файла
Подробное описание всех элементов информационного списка можно найти в документации, указав утилите чтения документов имя функции следующим образом:
perldoc -f stat
Функция utime() изменяет у файла (или нескольких файлов из заданного списка) время доступа и время модификации, задаваемые числовыми значениями.
utime($access_time, $modified_time, @list_of_files);
Кроме упомянутых, есть еще встроенные функции для изменения прав доступа и владельца файла, для чтения и создания символических и жестких ссылок. Немало разных функций для работы с файлами имеются в стандартной библиотеке модулей Perl, еще больше можно найти в хранилище модулей CPAN.
Помимо работы с файлами, в Perl есть необходимый набор встроенных функций для работы с каталогами. Нужно иметь в виду, что успешность выполнения операций с каталогами зависит от набора прав пользователя, от лица которого выполняется Perl-программа.
Функция mkdir() создает каталог с указанным именем. Вторым аргументом функции можно задавать права доступа для создаваемого каталога (в соответствии со стандартом POSIX). Возвращает число 1 при успешном создании или 0 при ошибке. Причину неудачи при создании каталога можно узнать из специальной переменной $!, которая содержит сообщение об ошибке.
$ok = mkdir $directory_name; # создать каталог
mkdir $dir, $access_rights; # создать каталог, задав права
Функция rmdir() удаляет каталог по его имени, если он пуст, возвращает число 1 при успешном удалении каталога или 0 в случае ошибки. Тогда из переменной $! можно выяснить подробности неудачи:
$ok = rmdir $directory_name; # удалить каталог
Функция chdir() изменяет текущий каталог на значение строкового выражения, содержащего имя нового текущего каталога. Если имя каталога не задано, она переходит в домашний каталог пользователя, используя значение элемента $ENV{"HOME"} или $ENV{"LOGNAME"} из специального хэша %ENV, который содержит значения переменных окружения операционной системы. Возвращает число 1 при успешном переходе в другой каталог или 0 в случае возникновения ошибки.
$ok = chdir $new_dir; # перейти в каталог $new_dir
chdir; # перейти в домашний каталог
Много других возможностей по работе с каталогами предоставляют функции из стандартной библиотеки модулей Perl. Например, функция cwd() из стандартного модуля Cwd возвращает имя текущего (рабочего) каталога во время выполнения программы:
use Cwd; # подключить библиотечный модуль Cwd
my $current_work_directory = cwd; # запросить текущий каталог
Иногда при выполнении программы нужно определить каталог, откуда она была запущена, чтобы организовать доступ к его подкаталогам. Переменная Bin, устанавливаемая в модуле FindBin из стандартной библиотеки, содержит имя каталога, из которого программа была запущена, например:
use FindBin; # подключить библиотечный модуль FindBin
my $program_start_dir = $FindBin::Bin; # стартовый каталог
Perl также предоставляет набор функций, организующий чтение содержимого каталога, подобно чтению записей файла. Элементами каталога могут быть обыкновенные файлы и другие каталоги, включая вложенные подкаталоги, текущий каталог (обозначаемый одной точкой) и родительский каталог (обозначаемый двумя точками).
Перед чтением содержимого каталога его необходимо открыть. Функция opendir() открывает каталог по его имени и ассоциирует его с указанным манипулятором каталога. Функция возвращает число 1 при успешном открытии, undef – при неудаче. Вот так, например, открывается каталог и создается манипулятор каталога DIR_HANDLE:
$ok = opendir DIR_HANDLE, $directory_name;
Современный стиль программирования рекомендует при открытии каталога сохранять манипулятор каталога в скалярной переменной. Это ограничивает область его видимости текущим блоком или подпрограммой и предотвратит случайное изменение манипулятора в других частях программы. Например, так:
$ok = opendir my $dir_handle, $directory_name;
Функция closedir() закрывает каталог, открытый функцией opendir(), используя манипулятор каталога. Возвращает число 1 при успешном закрытии или undef – при неудаче. Хотя открытые каталоги автоматически закрываются по окончании программы, рекомендуется все же делать это явно:
$ok = closedir $dir_handle; # закрыть каталог
Функция readdir() в скалярном контексте читает очередной элемент каталога, возвращая неопределенное значение undef, когда будет прочитан последний элемент. Например:
my $file_name = readdir $dir_handle;
Таким образом можно организовать обработку всех элементов каталога в цикле, исключая текущий и родительский каталоги:
while (my $file_name = readdir $dir_handle) {
if ($file_name ne '.' && $file_name ne '..') {
print «каталог $file_namen» if -d $file_name;
print «файл $file_namen» if -f $file_name;
}
}
В списочном контексте функция readdir() возвращает список всех элементов каталога, что часто бывает весьма удобно:
@file_names = readdir $dir_handle; # считать весь каталог
Иногда требуется, не закрывая каталога, начать его обработку сначала. Функция rewinddir() устанавливает позицию чтения в начало открытого каталога, после чего чтение начнется с первого элемента:
rewinddir $dir_handle; # 'перемотать' на начало каталога
Функция telldir() возвращает текущую позицию в каталоге, которую можно использовать для перемещения в эту позицию с помощью функции seekdir():
$dir_position = telldir $dir_handle; # позиция чтения
Используя возвращенное функцией telldir() значение, встроенная функция seekdir() устанавливает новую позицию для чтения каталога с помощью функции readdir():
seekdir $dir_handle, $dir_position; # вернуться к позиции
После изучения представленных в этой лекции средств ввода-вывода вполне можно писать законченные и полезные программы на Perl. Но пройдена только половина пути: в следующих лекциях курса будет рассказано о важных конструкциях и механизмах системы программирования Perl, без которых невозможно разрабатывать современные программы на профессиональном уровне.