Текст книги "Основы программирования в Linux"
Автор книги: Нейл Мэтью
Соавторы: Ричард Стоунс
Жанры:
Программирование
,сообщить о нарушении
Текущая страница: 11 (всего у книги 67 страниц)
Системный вызов read
считывает до nbytes
байтов данных из файла, ассоциированного с дескриптором файла fildes
, и помещает их в область данных buf
. Он возвращает количество действительно прочитанных байтов, которое может быть меньше требуемого количества. Если вызов read
возвращает 0, ему нечего считывать; он достиг конца файла. Ошибка при вызове заставляет его вернуть -1.
#include
size_t read(int fildes, void *buf, size_t nbytes);
Программа simple_read.c копирует первые 128 байтов стандартного ввода в стандартный вывод. Она копирует все вводимые данные, если их меньше 128 байтов.
#include
#include
int main() {
char buffer[128];
int nread;
nread = read(0, buffer, 128);
if (nread == -1)
write(2, «A read error has occurredn», 26);
if ((write(1, buffer, nread)) != nread)
write(2, "A write error has occurredn", 27);
exit(0);
}
Если вы выполните программу, то получите следующий результат:
$ echo hello there | ./simple_read
hello there
$ ./simple_read < draft1.txt
Files
In this chapter we will be looking at files and directories and how to
manipulate them. We will learn how to create files, $
Первое выполнение программы с помощью команды echo
формирует некоторый ввод программы, который по каналу передается в вашу программу. Во втором выполнении вы перенаправляете ввод из файла draft1.txt. В этом случае вы видите первую часть указанного файла, появляющуюся в стандартном выводе.
openПримечание
Обратите внимание на то, что знак подсказки или приглашения командной оболочки появляется в конце последней строки вывода, поскольку в этом примере 128 байтов не формируют целое число строк.
Для создания дескриптора нового файла вы должны применить системный вызов open
.
#include
#include
#include
int open(const char *path, int oflags);
int open(const char *path, int oflags, mode_t mode);
Примечание
Строго говоря, для использования вызова
open
вы не должны включать файлы sys/types.h и sys/stat.h в системах, удовлетворяющих стандартам POSIX, но они могут понадобиться в некоторых системах UNIX.
Не вдаваясь в подробности, скажем, что вызов open
устанавливает путь к файлу или устройству. Если установка прошла успешно, он возвращает дескриптор файла, который может применяться в системных вызовах read
, write
и др. Дескриптор файла уникален и не используется совместно другими процессами, которые могут в данный момент выполняться. Если файл открыт одновременно в двух программах, они поддерживают отдельные дескрипторы файла. Если они обе пишут в файл, то продолжат запись с того места, где остановились. Их данные не чередуются, но данные одной программы могут быть записаны поверх данных другой. У каждой программы свое представление о том, какая порция файла (каково смещение текущей позиции в файле) прочитана или записана. Вы можете помешать нежелательным накладкам такого сорта с помощью блокировки файла, которая будет обсуждаться в главе 7.
Имя открываемого файла или устройства передается как параметр path
; параметр oflags
применяется для указания действий, предпринимаемых при открытии файла.
Параметр oflags
задается как комбинация обязательного режима доступа к файлу и других необязательных режимов. Системный вызов open
должен задавать один из режимов доступа к файлу, указанных в табл. 3.1.
Таблица 3.1
О_RDONLY | Открытие только для чтения |
О_WRONLY | Открытие только для записи |
O_RDWR | Открытие для чтения и записи |
Вызов может также включать в параметр oflags
комбинацию (с помощью побитовой операции OR
) следующих необязательных режимов:
□ O_APPEND
– помещает записываемые данные в конец файла;
□ O_TRUNC
– задает нулевую длину файла, отбрасывая существующее содержимое;
□ O_CREAT
– при необходимости создает файл с правами доступа, заданными в параметре mode
;
□ O_EXCL
– применяется с режимом O_CREAT
, который гарантирует, что вызывающая программа создаст файл. Вызов open
атомарный, т.е. он выполняется только одним вызовом функции. Это предотвращает одновременное создание файла двумя программами. Если файл уже существует, open
завершится неудачно.
Другие возможные значения параметра oflags
описаны на странице интерактивного справочного руководства, посвященной open; ее можно найти в разделе 2 руководства (примените команду man 2 open
).
Вызов open
возвращает новый дескриптор файла (всегда неотрицательное целое) в случае успешного завершения или -1 в случае неудачи, в последнем случае open также задает глобальную переменную errno
,чтобы показать причину неудачи. Мы рассмотрим errno
более подробно в одном из последующих разделов. У нового дескриптора файла всегда наименьший неиспользованный номер дескриптора, свойство, которое может оказаться очень полезным в некоторых обстоятельствах. Например, если программа закрывает свой стандартный вывод, а затем снова вызывает open, будет повторно использован дескриптор файла с номером 1 и стандартный вывод будет успешно перенаправлен в другой файл или на другое устройство.
Существует также системный вызов creat
, стандартизованный POSIX, но он применяется не часто. Он не только создает файл, как можно ожидать; но также и открывает его. Такой вызов эквивалентен вызову open
с параметром oflags
, равным O_CREAT|О_WRONLY|O_TRUNC
.
Количество файлов, одновременно открытых в любой выполняющейся программе, ограничено. Предельное значение обычно определяется константой OPEN_MAX
в файле limits.h и меняется от системы к системе, но стандарт POSIX требует, чтобы оно было не меньше 16. Это значение само по себе может быть ограничено в соответствии с предельными значениями локальной системы, поскольку программа не сможет всегда иметь возможность держать открытыми такое количество файлов. В ОС Linux это предельное значение можно изменять во время выполнения и поэтому OPEN_MAX
уже не константа. Как правило, ее начальное значение равно 256.
Когда вы создаете файл, применяя флаг O_CREAT
в системном вызове open, вы должны использовать форму с тремя параметрами. Третий параметр mode
формируется из флагов, определенных в заголовочном файле sys/stat.h и соединенных поразрядной операцией OR
. К ним относятся:
□ S_IRUSR
– право на чтение, владелец;
□ S_IWUSR
– право на запись, владелец;
□ S_IXUSR
– право на выполнение, владелец;
□ S_IRGRP
– право на чтение, группа;
□ S_IWGRP
– право на запись, группа;
□ S_IXGRP
– право на выполнение, группа;
□ S_IROTH
– право на чтение, остальные;
□ S_IWOTH
– право на запись, остальные;
□ S_IXOTH
– право на выполнение, остальные.
Например, вызов
open(«myfile», O_CREAT, S_IRUSR|S_IXOTH);
в результате приведет к созданию файла с именем myfile с правом на чтение для владельца и правом на выполнение для остальных и только с этими правами доступа.
$ ls -ls myfile
0 -r–х 1 neil software 0 Sep 22 08:11 myfile*
Есть пара факторов, способных повлиять на права доступа к файлу. Во-первых, заданные права применяются, только если файл создается. Во-вторых, на права доступа к созданному файлу оказывает воздействие маска пользователя (заданная командой командной оболочки, umask
). Значение параметра mode
, заданное в вызове open
, на этапе выполнения объединяется с помощью операции AND
с инвертированной маской пользователя. Например, если заданы маска пользователя 001 и в параметре mode
флаг S_IXOTH
, у созданного файла не будет права на выполнение для «остальных», т.к. маска пользователя указывает на то, что это право не должно предоставляться. Флаги в вызовах open
и creat
являются на самом деле запросами на установку прав доступа. Будут ли предоставлены запрошенные права, зависит от значения umask
во время выполнения.
umask
umask
– это системная переменная, содержащая маску для прав доступа к файлу, которые будут применяться при создании файла. Вы можете изменить значение переменной, выполнив команду umask
, предоставляющую новое значение. Значение этой переменной представляет собой трёхзнаковое восьмеричное число. Каждая цифра – результат объединения с помощью операций OR
значений 1, 2 или 4 (табл. 3.2). Отдельные цифры указывают на права доступа «пользователя», «группы» и «остальных» соответственно.
Таблица 3.2
1 | 0 | Никакие права пользователя не отвергнуты |
4 | Право пользователя на чтение отвергается | |
2 | Право пользователя на запись отвергается | |
1 | Право пользователя на выполнение отвергается | |
2 | 0 | Никакие права группы не отвергнуты |
4 | Право группы на чтение отвергается | |
2 | Право группы на запись отвергается | |
1 | Право группы на выполнение отвергается | |
3 | 0 | Никакие права остальных не отвергнуты |
4 | Право остальных на чтение отвергается | |
2 | Право остальных на запись отвергается | |
1 | Право остальных на выполнение отвергается |
Например, для блокирования права «группы» на запись и выполнение и права «остальных» на запись переменная umask должна была бы быть следующей (табл. 3.3).
Таблица 3.3
1 | 0 |
2 | 2 |
1 | |
3 | 2 |
Значения каждой цифры объединяются операциями OR
, поэтому для получения значения второй цифры нужна операция 2 | 1
, дающая в результате 3
. Результирующее значение umask
– 032.
Когда вы создаете файл с помощью системного вызова open или creat, параметр mode сравнивается с текущим значением переменной umask
. Любой бит, установленный в параметре mode
и одновременно в переменной umask
, удаляется. В результате пользователи могут настроить свое окружение, например, потребовав не создавать никаких файлов с правом на запись для остальных, даже если программа, создающая файл, требует предоставить такое право. Это не мешает программе или пользователю впоследствии применить команду chmod
(или системный вызов chmod
в программе), чтобы добавить право на запись для остальных, но поможет защитить пользователей, избавив их от необходимости проверять и задавать права доступа для всех новых файлов.
close
Системный вызов close
применяется для разрыва связи файлового дескриптора fildes
с его файлом. Дескриптор файла после этого может использоваться повторно. Вызов возвращает 0 в случае успешного завершения и -1 при возникновении ошибки.
#include
int close (int fildes);
Примечание
В некоторых случаях проверка возвращаемого значения вызова
close
бывает очень важна. Некоторые файловые системы, особенно с сетевой структурой, могут не сообщать об ошибке записи в файл до тех пор, пока файл не будет закрыт, потому что при выполнении записи могло отсутствовать подтверждение действительной записи данных.
ioctl
Системный вызов ioctl
напоминает набор всякой всячины. Он предоставляет интерфейс для управления поведением устройств и их дескрипторов и настройки базовых сервисов. У терминалов, дескрипторов файлов, сокетов и даже ленточных накопителей могут быть определенные для них вызовы ioctl
и вам необходимо обращаться за подробной информацией к страницам справочного руководства, относящимся к конкретным устройствам. В стандарте POSIX определены только вызовы ioctl
для потоков, которые не обсуждаются в этой книге. Далее приведена синтаксическая запись вызова.
#include
int ioctl(int fildes, int cmd, ...)
Вызов ioctl
выполняет операцию, указанную в аргументе cmd
, над объектом, заданным в дескрипторе fildes
. У вызова может быть необязательный третий аргумент, зависящий от функций, поддерживаемых конкретным устройством.
Например, следующий вызов ioctl
в ОС Linux включает световые индикаторы клавиатуры (LEDs).
ioctl(tty_fd, KDSETLED, LED_NUM|LED_CAP|LED_SCR);
Выполните упражнения 3.1 и 3.2.
Упражнение 3.1. Программа копирования файла
Теперь вы знаете достаточно о системных вызовах open
, read
и write
, чтобы написать простенькую программу copy_system.c для посимвольного копирования одного файла в другой.
В данной главе мы проделаем это несколькими способами для того, чтобы сравнить эффективность разных методов. Для краткости предположим, что входной файл существует, а выходной – нет, и что все операции чтения и записи завершаются успешно. Конечно, в реальных программах вам придется убедиться в том, что эти предположения верны!
1. Сначала вам нужно создать тестовый входной файл размером, скажем, 1 Мбайт и именем file.in.
2. Далее откомпилируйте программу copy_system.c.
#include
#include
#include
#include
int main() {
char c;
int in, out;
in = open(«file.in», O_RDONLY);
put = open(«file.out», O_WRONLY|O_CREAT, S_IRUSR|S_IWUSR);
while(read(in, &c, 1) == 1) write(out, &c, 1);
exit(0);
}
Примечание
Имейте в виду, что строка
#include
должна быть первой, поскольку она определяет флаги, касающиеся соответствия стандарту POSIX и способные повлиять на другие включенные в#include
файлы.
3. Выполнение программы даст результат, похожий на следующий:
$ TIMEPORMAT="" time ./copy_system
4.67user 146.90system 2:32.57elapsed 99%CPU
...
$ ls -ls file.in file.out
1029 -rw-r–r– 1 neil users 1048576 Sep 17 10:46 file.in
1029 -rw– 1 neil users 1048576 Sep 17 10:51 file.out
Как это работает
Вы используете команду time
для определения времени выполнения программы. В ОС Linux переменная TIMEFORMAT
применяется для переопределения принятого по умолчанию в стандарте POSIX формата вывода времени, в который не включено время использования ЦПУ. Как видите, что в этой очень старой системе входной файл file.in размером 1 Мбайт был успешно скопирован в файл file.out, созданный с правами на чтение/запись только для владельца. Копирование заняло две с половиной минуты и затратило фактически все доступное время ЦПУ. Программа так медлительна потому, что вынуждена была выполнить более двух миллионов системных вызовов.
В последние годы ОС Linux продемонстрировала огромные успехи в повышении производительности системных вызовов и файловой системы. Для сравнения аналогичный тест с применением ядра 2.6 занял чуть менее 14 секунд:
$ TIMEFORMAT="" time ./copy_system
2.08user 10.59system 0:13.74elapsed 92%CPU
...
Упражнение 3.2. Вторая версия программы кодирования файла
Вы можете добиться лучших результатов, копируя блоки большего размера. Взгляните на модифицированную программу copy_block.c, которая копирует файл блоками в 1 Кбайт и снова использует системные вызовы.
#include
#include
#include
#include
int main() {
char block[1024];
int in, out;
int nread;
in = open(«file.in», O_RDONLY);
out = open(«file.out», O_WRONLY|O_CREAT, S_IRUSR|S_IWUSR);
while((nread = read(in, block, sizeof(block))) > 0)
write(out, block, nread);
exit(0);
}
Теперь испытайте программу, но сначала удалите старый выходной файл.
$ rm file.out
$ TIMEFORMAT="" time ./copy_block
0.00user 0.02system 0:00.04elapsed 78%CPU
...
Как это работает
Теперь программа выполняется только сотые доли секунды, поскольку ей требуется около 2000 системных вызовов. Конечно, это время очень зависит от системы, но оно показывает, что системные вызовы сопряжены с поддающимися измерению издержками, поэтому их применение стоит оптимизировать.
Другие системные вызовы для управления файламиСуществует ряд других системных вызовов, оперирующих низкоуровневыми дескрипторами файлов. Они позволяют программе контролировать использование файла, возвращая информацию о его состоянии,
lseek
Системный вызов lseek
задает указатель текущей позиции чтения/записи дескриптора файла, т.е. вы можете применять его для установки в файле места, с которого будет происходить следующее считывание или на которое будет производиться следующая запись. Вы можете задать указатель на абсолютную позицию файла или позицию, относительно текущего положения указателя или конца файла.
#include
#include
off_t lseek(int fildes, off_t offset, int whence);
Параметр offset
применяется для указания позиции, а параметр whence
определяет способ применения offset
и может принимать следующие значения:
□SEEK_SET
– offset
задает абсолютную позицию;
□ SEEK_CUR
– offset
задается относительно текущей позиции;
□ SEEK_END
– offset
задается относительно конца файла.
Вызов lseek
возвращает величину параметра offset
в байтах, измеряемую от начала файла, для которого установлен указатель, или -1 в случае неудачного завершения. Тип данных off_t
, применяемый для параметра offset
в операциях поиска, – зависящий от реализации тип integer
(целое), определенный в файле sys/types.h.
fstat, stat и lstat
Системный вызов fstat
возвращает информацию о состоянии файла, ассоциированного с открытым дескриптором файла. Эта информация записывается в структуру buf
, адрес которой передается как параметр.
Далее приведена синтаксическая запись вызовов.
#include
#include
#include
int fstat(int fildes, struct stat *buf);
int stat(const char *path, struct stat *buf);
int lstat(const char *path, struct stat *buf);
Примечание
Учтите, что включение файла sys/types.h не обязательное, но мы рекомендуем включать его при использовании системных вызовов, поскольку некоторые из их определений применяют для стандартных типов псевдонимы, которые могут измениться когда-нибудь.
Родственные функции
stat
иlstat
возвращают информацию о состоянии названного файла. Они возвращают те же результаты за исключением того, что файл является символической ссылкой. Вызовlstat
возвращает данные о самой ссылке, а вызовstat
– о файле, на который ссылка указывает.
Элементы вызываемой структуры stat могут меняться в разных UNIX-подобных системах, но обязательно включают перечисленные в табл. 3.4 элементы.
Таблица 3.4
stat | |
---|---|
st_mode | Права доступа к файлу и сведения о типе файла |
st_ino | Индекс, ассоциированный с файлом |
st_dev | Устройство, на котором размещен файл |
st_uid | Идентификатор (user identity) владельца файла |
st_gid | Идентификатор группы (group identity) владельца файла |
st_atime | Время последнего обращения |
st_ctime | Время последнего изменения прав доступа, владельца, группы или объема |
st_mtime | Время последней модификации содержимого |
st_nlink | Количество жестких ссылок на файл |
У флагов st_mode
, возвращаемых в структуре stat
, также есть ряд ассоциированных макросов в заголовочном файле sys/stat.h. В эти макросы включены имена флагов для прав доступа и типов файлов и некоторые маски, помогающие проверять специфические типы и права.
Флаги прав доступа такие же, как в системном вызове open
, описанном ранее. Для флагов типов файла включены следующие имена:
□ S_IFBLK
– блочное устройство;
□ S_IFDIR
– каталог;
□ S_IFCHR
– символьное устройство;
□ S_IFIFO
– FIFO (именованный канал);
□ S_IFREG
– обычный файл;
□ S_IFLNK
– символическая ссылка.
Для других флагов режима файла включены следующие имена:
□ S_ISUID
– элемент получает setUID при выполнении;
□ S_ISGUID
– элемент получает setGID при выполнении.
Для масок, интерпретирующих флаги st_mode
, включены следующие имена:
□S_IFMT
– тип файла;
□S_IRWXU
– права пользователя на чтение/запись/выполнение;
□ S_IRWXG
– права группы на чтение/запись/выполнение;
□ S_IRWXO
– права остальных на чтение/запись/выполнение.
Существует ряд макросов, помогающих определить типы файлов. Они просто сравнивают надлежащим образом установленные флаги режима файла с подходящим флагом, типа устройства. К ним относятся следующие:
□ S_ISBLK
– проверка для блочного файла;
□ S_ISCHR
– проверка для символьного файла;
□ S_ISDIR
– проверка для каталога;
□ S_ISFIFO
– проверка для FIFO;
□ S_ISREG
– проверка для обычного файла;
□ S_ISLNK
– проверка для символической ссылки.
Например, для проверки того, что файл не является каталогом и у него есть права на выполнение только для владельца и больше никаких других прав, вы можете воспользоваться следующим тестом;
struct stat statbuf;
mode_t modes;
stat(«filename», &statbuf);
modes = statbuf.st_mode;
if (!S_ISDIR(modes) && (modes & S_IRWXU) = S_IXUSR)
...
dup и dup2
Системные вызовы dup
позволяют дублировать дескриптор файла, предоставляя два или несколько разных дескрипторов, обращающихся к одному и тому же файлу. Эта возможность может применяться для чтения и записи в разные части файла. Системный вызов dup
дублирует файловый дескриптор fildes
и возвращает новый дескриптор. Системный вызов dup2
умело копирует один дескриптор файла в другой, задавая дескриптор, применяемый для копии.
Далее приведена синтаксическая запись для вызовов.
#include
int dup(int fildes);
int dup2(int fildes, int fildes2);
Эти вызовы могут оказаться полезными в случае нескольких процессов, взаимодействующих через именованные каналы. Более глубоко мы рассмотрим системные вызовы dup
в главе 13.