Текст книги "Программирование на языке Ruby"
Автор книги: Хэл Фултон
Жанр:
Программирование
сообщить о нарушении
Текущая страница: 9 (всего у книги 56 страниц) [доступный отрывок для чтения: 20 страниц]
2.14. Поиск в строке
Помимо различных способов доступа к подстрокам, есть и другие методы поиска в строке. Метод index
возвращает начальную позицию заданной подстроки, символа или регулярного выражения. Если подстрока не найдена, возвращается nil
:
str = "Albert Einstein"
pos1 = str.index(?E) # 7
pos2 = str.index("bert") # 2
pos3 = str.index(/in/) # 8
pos4 = str.index(?W) # nil
pos5 = str.index("bart") # nil
pos6 = str.index(/Wein/) # nil
Метод rindex
начинает поиск с конца строки. Но номера позиций отсчитываются тем не менее от начала:
str = "Albert Einstein"
pos1 = str.rindex(?E) # 7
pos2 = str.rindex("bert") # 2
pos3 = str.rindex(/in/) # 13 (найдено самое правое соответствие)
pos4 = str.rindex(?W) # nil
pos5 = str.rindex("bart") # nil
pos6 = str.rindex(/wein/) # nil
Метод include?
сообщает, встречается ли в данной строке указанная подстрока или один символ:
str1 = "mathematics"
flag1 = str1.include? ?e # true
flag2 = str1.include? "math" # true
str2 = "Daylight Saving Time"
flag3 = str2.include? ?s # false
flag4 = str2.include? "Savings" # false
Метод scan
многократно просматривает строку в поисках указанного образца. Будучи вызван внутри блока, он возвращает массив. Если образец содержит несколько (заключенных в скобки) групп, то массив окажется вложенным:
str1 = "abracadabra"
sub1 = str1.scan(/а./)
# sub1 теперь равно ["ab","ас","ad","ab"]
str2 = "Acapulco, Mexico"
sub2 = str2.scan(/(.)(c.)/)
# sub2 теперь равно [ ["A","ca"], ["l","со"], ["i","со"] ]
Если при вызове задан блок, то метод поочередно передает этому блоку найденные значения:
str3 = "Kobayashi"
str3.scan(/["aeiou]+[aeiou]/) do |x|
print "Слог: #{x}n" end
Этот код выводит такой результат:
Слог: Ko
Слог: ba
Слог: уа
Слог: shi
2.15. Преобразование символов в коды ASCII и обратно
В Ruby символ представляется целым числом. Это поведение изменится в версии 2.0, а возможно и раньше. В будущем предполагается хранить символы в виде односимвольных строк.
str = "Martin"
print str[0] # 77
Если в конец строки дописывается объект типа Fixnum
, то он предварительно преобразуется в символ:
str2 = str << 111 # "Martino"
2.16. Явные и неявные преобразования
На первый взгляд, методы to_s
и to_str
могут вызвать недоумение. Ведь оба преобразуют объект в строковое представление, так?
Но есть и различия. Во-первых, любой объект в принципе можно как-то преобразовать в строку, поэтому почти все системные классы обладают методом to_s
. Однако метод to_str
в системных классах не реализуется никогда.
Как правило, метод to_str
применяется для объектов, очень похожих на строки, способных «замаскироваться» под строку. В общем, можете считать, что метод to_s
– это явное преобразование, а метод to_str
– неявное.
Я уже сказал, что ни в одном системном классе не определен метод to_str
(по крайней мере, мне о таких классах неизвестно). Но иногда они вызывают to_str
(если такой метод существует в соответствующем классе).
Первое, что приходит на ум, – подкласс класса String
; но на самом деле объект любого класса, производного от String
, уже является строкой, так что определять метод to_str
излишне.
А вот пример из реальной жизни. Класс Pathname
определен для удобства работы с путями в файловой системе (например, конкатенации). Но путь естественно отображается на строку (хотя и не наследует классу String
).
require 'pathname'
path = Pathname.new("/tmp/myfile")
name = path.to_s # "/tmp/myfile"
name = path.to_str # "/tmp/myfile" (Ну и что?)
# Вот где это оказывается полезно...
heading = "Имя файла равно " + path
puts heading# " Имя файла равно /tmp/myfile"
В этом фрагменте мы просто дописали путь в конец обычной строки "Имя файла равно"
. Обычно такая операция приводит к ошибке во время выполнения, поскольку оператор +
ожидает, что второй операнд – тоже строка. Но так как в классе Pathname
есть метод to_str
, то он вызывается. Класс Pathname
«маскируется» под строку, то есть может быть неявно преобразован в String
.
На практике методы to_s
и to_str
обычно возвращают одно и то же значение, но это необязательно. Неявное преобразование должно давать «истинное строковое значение» объекта, а явное можно расценивать как «принудительное» преобразование.
Метод puts
обращается к методу to_s
объекта, чтобы получить его строковое представление. Можно считать, что это неявный вызов явного преобразования. То же самое справедливо в отношении интерполяции строк. Вот пример:
class Helium
def to_s
"He"
end
def to_str
"гелий"
end
end
e = Helium.new
print "Элемент "
puts e # Элемент He.
puts "Элемент " + e # Элемент гелий.
puts "Элемент #{e}" # Элемент He.
Как видите, разумное определение этих методов в собственном классе может несколько повысить гибкость применения. Но что сказать об идентификации объектов, переданных методам вашего класса?
Предположим, например, что вы написали метод, который ожидает в качестве параметра объект String
. Вопреки философии «утипизации», так делают часто, и это вполне оправдано. Например, предполагается, что первый параметр метода File.new
– строка.
Решить эту проблему просто. Если вы ожидаете на входе строку, проверьте, имеет ли объект метод to_str
, и при необходимости вызывайте его.
def set_title(title)
if title.respond_to? :to_str
title = title.to_str
end
# ...
end
Ну а если объект не отвечает на вызов метода to_str
? Есть несколько вариантов действий. Можно принудительно вызвать метод to_s
; можно проверить, принадлежит ли объект классу String
или его подклассу; можно, наконец, продолжать работать, понимая, что при попытке выполнить операцию, которую объект не поддерживает, мы получим исключение ArgumentError
.
Короткий путь к цели выглядит так:
title = title.to_str rescue title
Он опирается на тот факт, что при отсутствии реализации метода to_str
возникнет исключение. Разумеется, модификаторы rescue
могут быть вложенными:
title = title.to_str rescue title.to_s rescue title
# Обрабатывается маловероятный случай, когда отсутствует даже метод to_s.
С помощью неявного преобразования можно было бы сделать строки и числа практически эквивалентными:
class Fixnum
def to_str
self.to_s end
end
str = "Число равно " + 345 # Число равно 345.
Но я не рекомендую так поступать: «много хорошо тоже нехорошо». В Ruby, как и в большинстве языков, строки и числа – разные сущности. Мне кажется, что ясности ради преобразования, как правило, должны быть явными.
И еще: в методе to_str
нет ничего волшебного. Предполагается, что он возвращает строку, но если вы пишете такой метод сами, ответственность за то, что он действительно так и поступает, ложится на вас.
2.17. Дописывание в конец строки
Для конкатенации строк применяется оператор <<
. Он «каскадный», то есть позволяет выполнять подряд несколько операций над одним и тем же операндом-приемником.
str = "А"
str << [1,2,3].to_s << " " << (3.14).to_s
# str теперь равно "А123 3.14".
Если число типа Fixnum
принадлежит диапазону 0..255, то оно будет преобразовано в символ:
str = "Marlow"
str << 101 << ", Christopher"
# str теперь равно "Marlowe, Christopher".
2.18. Удаление хвостовых символов новой строки и прочих
Часто бывает необходимо удалить лишние символы в конце строки. Типичный пример – удаление символа новой строки после чтения строки из внешнего источника.
Метод chop
удаляет последний символ строки (обычно это символ новой строки). Если перед символом новой строки находится символ перевода каретки (r
), он тоже удаляется. Причина такого поведения заключается в том, что разные операционные системы неодинаково трактуют понятие «новой строки». В UNIX-подобных системах новая строка представляется символом n
. А в DOS и Windows для этой цели используется пара символов rn
.
str = gets.chop # Прочитать, удалить символ новой строки.
s2 = "Some stringn" # "Some string" (нет символа новой строки).
s3 = s2.chop! # s2 теперь тоже равно "Some string".
s4 = "Other stringrn"
s4.chop! # "Other string" (нет символа новой строки).
Обратите внимание, что при вызове варианта chop!
операнд-источник модифицируется.
Важно еще отметить, что последний символ удаляется, даже если это не символ новой строки:
str = "abcxyz"
s1 = str.chop # "abcxy"
Поскольку символ новой строки присутствует не всегда, иногда удобнее применять метод chomp
:
str = "abcxyz"
str2 = "123n"
str3 = "123r"
str4 = "123rn"
s1 = str.chomp # "abcxyz"
s2 = str2.chomp # "123"
# Если установлен стандартный разделитель записей, то удаляется не только
# n, но также r и rn.
s3 = str3.chomp # "123"
s4 = str4.chomp # "123"
Как и следовало ожидать, имеется также метод chomp!
для замены «на месте». Если методу chomp
передана строка-параметр, то удаляются перечисленные в ней символы, а не подразумеваемый по умолчанию разделитель записей. Кстати, если разделитель записей встречается в середине строки, то он не удаляется:
str1 = "abcxyz"
str2 = "abcxyz"
s1 = str1.chomp("yz") # "abcx"
s2 = str2.chomp("x") # "abcxyz"
2.19. Удаление лишних пропусков
Метод strip
удаляет пропуски в начале и в конце строки, а вариант strip!
делает то же самое «на месте».
str1 = "t nabc tn"
str2 = str1.strip # "abc"
str3 = str1.strip! # "abc"
#str1 теперь тоже равно "abc".
Под пропусками, как обычно, понимаются пробелы, символы табуляции и перевода на новую строку.
Чтобы удалить пропуски только в начале или только в конце строки, применяйте методы lstrip
и rstrip
:
str = " abc "
s2 = str.lstrip # "abc "
s3 = str.rstrip # " abc"
Имеются также варианты lstrip!
и rstrip!
для удаления «на месте».
2.20. Повтор строк
В Ruby оператор (или метод) умножения перегружен так, что в применении к строкам выполняет операцию повторения. Если строку умножить на n, то получится строка, состоящая из n конкатенированных копий исходной:
etc = "Etc. "*3 # "Etc. Etc. Etc. "
ruler = " + " + (". "*4+"5" + "."*4+" + ")*3
# "+....5....+....5....+....5....+"
2.21. Включение выражений в строку
Это легко позволяет сделать синтаксическая конструкция #{}
. Нет нужды думать о преобразовании, добавлении и конкатенации; нужно лишь интерполировать переменную или другое выражение в любое место строки:
puts "#{temp_f} по Фаренгейту равно #{temp_c} по Цельсию"
puts "Значение определителя равно #{b*b – 4*а*с}."
puts "#{word} это #{word.reverse} наоборот."
Внутри фигурных скобок могут находиться даже полные предложения. При этом возвращается результат вычисления последнего выражения.
str = "Ответ равен #{ def factorial(n)
n==0 ? 1 : n*factorial(n-1)
end
answer = factorial(3) * 7}, естественно."
# Ответ равен 42, естественно.
При интерполяции глобальных переменных, а также переменных класса и экземпляра фигурные скобки можно опускать:
print "$gvar = #$gvar и ivar = #@ivar."
Интерполяция не производится внутри строк, заключенных в одиночные кавычки (поскольку их значение не интерпретируется), но применима к заключенным в двойные кавычки встроенным документам и к регулярным выражениям.
2.22. Отложенная интерполяция
Иногда желательно отложить интерполяцию значений в строку. Идеального способа решить эту задачу не существует, но можно воспользоваться блоком:
str = proc {|x,у,z| "Числа равны #{x}, #{у} и #{z}" }
s1 = str.call(3,4,5) # Числа равны 3, 4 и 5.
s2 = str.call(7,8,9) # Числа равны 7, 8 и 9.
Другое, более громоздкое решение состоит в том, чтобы сохранить строку, заключенную в одиночные кавычки, потом «обернуть» ее двойными кавычками и вычислить:
str = '#{name} – мое имя, а #{nation} – моя родина'
name, nation = "Стивен Дедал", "Ирландия"
s1 = eval('"' + str + '"')
# Стивен Дедал – мое имя, а Ирландия – моя родина.
Можно также передать eval
другую функцию привязки:
bind = proc do
name,nation = "Гулливер Фойл", "Земля"
binding
end.call # Надуманный пример; возвращает привязанный контекст блока
s2 = eval('"' + str + '"',bind)
# Гулливер Фойл – мое имя, а Земля – моя родина.
У техники работы с eval
есть свои «причуды». Например, будьте осторожны, вставляя управляющие последовательности, скажем n
.
2.23. Разбор данных, разделенных запятыми
Данные, разделенные запятыми, часто встречаются при программировании. Это в некотором роде «наибольший общий делитель» всех форматов обмена данными. Например, так передаются данные между несовместимыми СУБД или приложениями, которые не поддерживают никакого другого общего формата.
Будем предполагать, что данные представляют собой строки и числа, а все строки заключены в кавычки. Еще предположим, что все символы должным образом экранированы (например, запятые и кавычки внутри строки).
Задача оказывается простой, поскольку такой формат данных подозрительно напоминает встроенные в Ruby массивы данных разных типов. Достаточно заключить все выражение в квадратные скобки, чтобы получить массив.
string = gets.chop!
#Предположим, что прочитана такая строка:
#"Doe, John", 35, 225, "5'10"", "555-0123"
data = eval("[" + string + "]") # Преобразовать в массив.
data.each {|x| puts "Значение = #{x}"}
Этот код выводит такой результат:
Значение = Doe, John
Значение =35
Значение =225
Значение = 5' 10"
Значение = 555-0123
Более общее решение дает стандартная библиотека CSV. Есть также усовершенствованный инструмент под названием FasterCSV. Поищите его в сети, он не входит в стандартный дистрибутив Ruby.
2.24. Преобразование строки в число (десятичное или иное)
Есть два основных способа преобразовать строку в число: методы Integer
и Float
модуля Kernel
и методы to_i
и to_f
класса String
. (Имена, начинающиеся с прописной буквы, например Integer
, обычно резервируются для специальных функций преобразования.)
Простой случай тривиален, следующие два предложения эквивалентны:
x = "123".to_i # 123
y = Integer("123") # 123
Но если в строке хранится не число, то поведение этих методов различается:
x = junk".to_i # Молча возвращает 0.
y = Integer("junk") # Ошибка.
Метод to_i
прекращает преобразование, как только встречает первый символ, не являющийся цифрой, а метод Integer
в этом случае возбуждает исключение:
x = "123junk".to_i # 123
y = Integer("123junk") # Ошибка.
Оба метода допускают наличие пропусков в начале и в конце строки:
x = " 123 ".to_i # 123
y = Integer(" 123 ") # 123
Преобразование строки в число с плавающей точкой работает аналогично:
x = "3.1416".to_f # 3.1416
y = Float("2.718") # 2.718
Оба метода понимают научную нотацию:
x = Float("6.02е23") # 6.02е23
y = "2.9979246е5".to_f # 299792.46
Методы to_i
и Integer
также по-разному относятся к системе счисления. По умолчанию, естественно, подразумевается система по основанию 10, но другие тоже допускаются (это справедливо и для чисел с плавающей точкой).
Говоря о преобразовании из одной системы счисления в другую, мы всегда имеем в виду строки. Ведь целое число неизменно хранится в двоичном виде.
Следовательно, преобразование системы счисления – это всегда преобразование одной строки в другую. Здесь мы рассмотрим преобразование из строки (обратное преобразование рассматривается в разделах 5.18 и 5.5).
Числу в тексте программы может предшествовать префикс, обозначающий основание системы счисления. Префикс 0b
обозначает двоичное число, 0
– восьмеричное, а 0x
– шестнадцатеричное.
Метод Integer
такие префиксы понимает, а метод to_i
– нет:
x = Integer("0b111") # Двоичное – возвращает 7.
y = Integer("0111") # Восьмеричное – возвращает 73.
z = Integer("0x111") # Шестнадцатеричное – возвращает 291.
x = "0b111".to_i # 0
y = "0111".to_i # 0
z = "0x111".to_i # 0
Однако у метода to_i
есть необязательный второй параметр для указания основания. Обычно применяют только четыре основания: 2, 8, 10 (по умолчанию) и 16. Впрочем, префиксы не распознаются даже при определении основания.
x = "111".to_i(2) # 7
y = "111".to_i(8) # Восьмеричное – возвращает 73.
z = "111".to_i(16) # Шестнадцатеричное – возвращает 291.
x = "0b111".to_i # 0
y = "0111".to_i # 0
z = "0x111".to_i # 0
Из-за «стандартного» поведения этих методов цифры, недопустимые при данном основании, обрабатываются по-разному:
x = "12389".to_i(8) # 123 (8 игнорируется).
y = Integer("012389") # Ошибка (8 недопустима).
Хотя полезность этого и сомнительна, метод to_i
понимает основания вплоть до 36, когда в представлении числа допустимы все буквы латинского алфавита. (Возможно, это напомнило вам о base64-кодировании; дополнительную информацию по этому поводу вы найдете в разделе 2.37.)
x = "123".to_i(5) # 66
y = "ruby".to_i (36) # 1299022
Для преобразования символьной строки в число можно также воспользоваться методом scanf
из стандартной библиотеки, которая добавляет его в модуль Kernel
, а также классы IO
и String
:
str = "234 234 234"
x, y, z = str.scanf("%d %o %x") # 234, 156, 564
Метод scanf
реализует всю имеющую смысл функциональность стандартных функций scanf
, sscanf
и fscanf
из библиотеки языка С. Но строки, представляющие двоичные числа, он не обрабатывает.
2.25. Кодирование и декодирование строк в кодировке rot13
Rot13 – наверное, самый слабый из известных человечеству шифров. Исторически он просто препятствовал «случайному» прочтению текста. Он часто встречается в конференциях Usenet; например, так можно закодировать потенциально обидную шутку или сценарий фильма «Звездные войны. Эпизод 13» накануне премьеры. Принцип кодирования состоит в смещении символов относительно начала алфавита (латинского) на 13: А превращается в N, В – в О и т.д. Строчные буквы смещаются на ту же величину; цифры, знаки препинания и прочие символы игнорируются. Поскольку 13 – это ровно половина от 26 (число букв в латинском алфавите), то функция является обратной самой себе, то есть ее повторное применение восстанавливает исходный текст.
Ниже приведена реализация этого метода, добавленного в класс String
, никаких особых комментариев она не требует:
class String
def rot13
self.tr("A-Ma-mN-Zn-z","N-Zn-zA-Ma-m")
end
end
joke = "Y2K bug"
joke13 = joke.rot13 # "L2X oht"
episode2 = "Fcbvyre: Naanxva qbrfa'g trg xvyyrq."
puts episode2.rot13
2.26. Шифрование строк
Иногда нежелательно, чтобы строки можно было легко распознать. Например, пароли не следует хранить в открытом виде, какими бы ограничительными ни были права доступа к файлу.
В стандартном методе crypt применяется стандартная функция с тем же именем для шифрования строки по алгоритму DES. Она принимает в качестве параметра «затравку» (ее назначение то же, что у затравки генератора случайных чисел). На платформах, отличных от UNIX, параметр может быть иным.
Ниже показано тривиальное приложение, которое запрашивает пароль, знакомый любителям Толкиена:
coded = "hfCghHIE5LAM."
puts "Говори, друг, и жми Enter!"
print "Пароль: " password = gets.chop
if password.crypt("hf") == coded
puts "Добро пожаловать!"
else
puts "Кто ты, орк?"
end
Стоит отметить, что на такое шифрование не стоит полагаться в серверных Web-приложениях, поскольку пароль, введенный в поле формы, все равно передаётся по сети в открытом виде. В таких случаях проще всего воспользоваться протоколом SSL (Secure Sockets Layer). Разумеется, никто не запрещает пользоваться шифрованием на сервере, но по другой причине – чтобы защитить пароль в хранилище, а не во время передачи по сети.
2.27. Сжатие строк
Для сжатия строк и файлов применяется библиотека Zlib.
Зачем может понадобиться сжимать строки? Возможно, чтобы ускорить ввод/вывод из базы данных, оптимизировать использование сети или усложнить распознавание строк.
В классах Deflate
и Inflate
имеются методы класса deflate
и inflate
соответственно. У метода deflate
(он выполняет сжатие) есть дополнительный параметр, задающий режим сжатия. Он определяет компромисс между качеством сжатия и скоростью. Если значение равно BEST_COMPRESSION
, то строка сжимается максимально, но это занимает сравнительно много времени. Значение BEST_SPEED
задает максимальную скорость, но при этом строка сжимается хуже. Подразумеваемое по умолчанию значение DEFAULT_COMPRESSION
выбирает компромиссный режим.
require 'zlib'
include Zlib
long_string = ("abcde"*71 + "defghi"*79 + "ghijkl"*113)*371
# long_string состоит из 559097 символов.
s1 = Deflate.deflate(long_string,BEST_SPEED) # 4188 символов.
s3 = Deflate.deflate(long_string) # 3568 символов
s2 = Deflate.deflate(long_string,BEST_COMPRESSION) # 2120 символов
Неформальные эксперименты показывают, что скорость отличается примерно в два раза, а плотность сжатия – в обратной пропорции на ту же величину. И скорость, и плотность сильно зависят от состава строки. Разумеется, на скорость влияет и имеющееся оборудование.
Имейте в виду, что существует пороговое значение длины строки. Если строка короче, то сжимать ее практически бесполезно (если только вы не хотите сделать ее нечитаемой). В этом случае неизбежные накладные расходы могут даже привести к тому, что сжатая строка окажется длиннее исходной.