Текст книги "The Ebook. Книга об электронных книгах"
Автор книги: Владимир Прохоренков
Жанр:
Программное обеспечение
сообщить о нарушении
Текущая страница: 6 (всего у книги 28 страниц) [доступный отрывок для чтения: 11 страниц]
Какие форматы лучше?
Общие сведенияВыбор интересной книги для чтения в электронном виде многие читатели начинают с пристрастия к цифровому формату. Это постепенно становится устаревшим представлением о ценности контента в той или иной форме, но до сих пор является актуальным представлением, потому что люди спорят и доказывают себе преимущество форматов исходя из доступности контента.
Каким-то образом потребитель выбирает лучший для него формат из всех существующих, потом это становится привычкой, и основной поток литературы читается в одном и том же формате независимо от того, что формат может быть неудобен для другого устройства, которое рано или поздно появится. Приверженность к формату не учитывает перспектив и более длительного хранения библиотеки в цифровой форме, в отличие от бумажных книг, где носитель является неотъемлемой частью контента. Любой существующий цифровой формат невозможно представить как «форму наследства». Контент в определённом формате живёт до тех пор, пока актуален «носитель» и «распространитель».
Довольно часто подобное происходит с плохо масштабируемыми форматами PDF и DJVU, которые не подходят для маленьких экранов и медлительных устройств. Например, пользователь начал привыкать к электронному чтению через эти форматы, читая на большом экране компьютера, собрав большую коллекцию книг и переведя собственные документы в электронный вид. Все это было удобно, красиво, классифицировано, наглядно, похоже на настоящую электронную библиотеку внутри компьютера и являлось откровенной гордостью владельца. Но когда пришёл очередной этап развития, захотелось читать накопленные файлы на мобильном устройстве, в этот момент – привычка, а не комфорт, берет вверх! Огромная библиотека оказывается не востребованной внутри маленького устройства. История повторяется. Начинается мучительное и длительное отвыкание от «самого лучшего формата» в пользу другого «лучшего», распространённого и популярного для конкретной платформы. После очередного накопления книг в электронной библиотеке, формат вновь становится незаменимым, а, следовательно «лучшим». Библиотека формируется заново различными способами конвертации и с помощью повторного приобретения.
Окунаясь в историю с головой можно проследить приверженность пользователей к «лучшим форматам» и к рождению популярных для локальных рынков и устройств.
Популярность форматовВ 1994 году Максим Мошков создал самую популярную (по тем временам) русскоязычную библиотеку Lib.ru. Со слов основателя: «начал с собирательства файлов, а читал бумажные книги». Будет интересно узнать, что Мошкова (тогда) «мнение окружающих об электронных книгах не волновало совершенно. Это стало объектом собирательства, коллекционирования. Файлы собирал, а читать не мог – глаза болели от обычных мониторов». По мнению Максима: «только сейчас, что-то меняется, когда оказалось, что эти файлы ещё и читать можно, причём без риска ослепнуть окончательно».
Тем не менее, к 2000 году это была самая крупная библиотека книг в формате TXT и не только на русском языке. Основной потребитель библиотеки использовал для чтения громоздкий компьютер, а небольшая часть пользователей уже тогда читала книги на мобильных устройствах, которые были доступны в продаже на тот момент.
На стыке веков родился самый популярный отечественный формат FB2. В его задачу входило создать структуру привычной книги в цифровой форме, а не контейнер в готовом виде, в котором прописано всё и сразу, на все случаи жизни, что обычно усложняет эту самую жизнь на различных устройствах.
Дмитрий Грибов, разработчик FB2, изначально создал структурированный формат на основе XML. У автора был перерыв в чтении бумажных книг, а потом резкий старт и пристрастие к электронной форме чтения, так как был виден иной смысл – не в накоплении файлов, а в комфорте чтения и хранении книг. С его слов: «начал читать – начал думать, как сделать действительно удобную библиотеку».
Для создания любви к «отечественному формату» была выбрана тактика «популяризация и привыкание». Для готового формата FB2 были необходимы потребители, которые его оценят. Сделать это можно, если предложить попробовать готовый контент в специализированной программе и желательно на мобильном устройстве.
В 2002 году, через 3 года после начала разработки формата, был представлен финальный вариант второй версии формата «Fiction Book», одновременно с открытием небольшой библиотеки fictionbook.ru. Программа Haali Reader (на тот момент) была максимально популярной на мобильной платформе и уже поддерживала первую и впоследствии вторую версию Fiction Book. Таким образом, Михаил Мацнев, как автор программы, стал ещё и соучастником в популяризации формата FB2.
Библиотека fictionbook.ru демонстрировала очень важную и главную цель нового формата – «удобство хранения книг с помощью FB2». Формат был задуман как «первоисточник контента», из которого можно автоматически пересоздавать книги в любых форматах. FB2 имеет структуру книги, а не готовое форматирование текста, всё остальное настраиваемо не только при чтении, но и при конвертации. Таким образом, создавалась «книга-исходник» в FB2 и через несколько секунд сервер её конвертировал в любые другие форматы. Соответственно для веб-сервера также автоматически генерировалась основная титульная информация привычной библиотеки – название книги, автор, обложка, анонс, различные коды для хранения и идентификации.
Изначально преимущество формата сводилось к тому, что достаточно «создать и опубликовать файл», всё остальное уже «известно как делать» и «что создавать». Это коренное отличие, которое позволяет расширять возможности структуры формата FB2 до бесконечности. Любой может вставить свою собственную ячейку с данными в существующую структуру контента для своих целей, причём устройства и программы будут считывать контент без искажения, он по-прежнему будет валидным, но они проигнорируют неизвестное, а создавший новую структуру удовлетворён новыми свойствами формата.
Чтобы стало понятно, можно легко придумать пример. Скажем нужно точно знать – какие книги надлежащего качества и кем проверенны. Вставляется пара тегов в готовый файл по правилам XML. Например:
атрибут качества
Теперь в программу каталогизатор достаточно вставить распознавание тега
Это так просто, что можно влюбиться!
Абсолютно очевидно, что страсть к книгам в простотелом формате TXT быстро подхватил FB2 и стал популярным сразу в нескольких странах Европы и Азии.
По историческим меркам подобный метод является классической формой популяризации формата (с любой точки зрения) – «популярному формату нужна платформа и доступность контента» и неважно кто это делает и как. При этом стоимость всего решения или отдельных частей не может учитываться и на самом деле являются абстрактными в полной мере.
Если контент можно не покупать (по какой-то одной или любой причине), то и устройство для чтения можно адаптировать из уже существующих у потребителя, а не приобретать специализированное, что не является обязательным решением, чтобы начать читать книги в электронной форме.
Это также верно, как если бы человек сам оцифровал часть или всю свою бумажную библиотеку. Мог бы начать читать сразу, на экране компьютера, не имея никакого доступа в Интернет или к ближайшему магазину электроники. Что есть, то уже может позволить читать в электронном виде. По крайней мере, с этого начиналось электронное чтение, и никто из энтузиастов не чувствовал себя ущербным по каким-либо причинам (или не сознается до сих пор, даже в частной беседе).
То есть, доступность платформы и контента позволяет сразу выбрать лучший формат для чтения с точки зрения потребителя. Очень важен первичный опыт, накопление литературы и выбираемая платформа.
Влияние на определение «лучшего формата» имеет массовый рынок в локальном и глобальном масштабе. Любой потребитель делится на несколько групп по уровню подготовленности и наличия желания в чем-либо разбираться.
Массовый рынок склонен к упрощению форматов, при том, что собственные возможности форматов путаются с развитостью программного обеспечения и устройствами.
Формат DJVU имел все шансы, чтобы стать популярным гибридным форматом, который содержит в себе не только графический образ страниц, но и текстовое дублирующее содержание, что значительно комфортнее для чтения на небольших по размеру экранах.
Например, корпоративные форматы ZINIO и PressDisplay (он же PressReader) содержат в себе сразу несколько возможностей:
• Графический образ страницы газеты, книги, журнала.
• Текстовый дубль для удобного чтения.
• Мультимедийные данные.
Но дело в том, что качество поддерживается не столько платформой, сколько источником, то есть сервером услуг (поставщиком услуг). DJVU фактически лишился этих свойств на массовом рынке, и пользователи сделали из формата контейнер для хранения графических образов печатных страниц, хотя хорошо осведомлены в вероятном существовании «OCR». И, тем не менее, они считают формат лучшим, хотя аналогичный результат можно получить в другом контейнере, даже в том, который ещё не родился. То есть, достаточно упаковать набор графических образов страниц, чтобы создать конкурента популярному формату.
Поэтому, «говоря абстрактно о преимуществе того или иного формата, следует точно представлять в нём текущий уровень качества контента».
Любой пользователь, попадая на сервер поставщика контента и сталкивающийся с тем, что книга предоставляется сразу в нескольких форматах, обязательно задаёт себе мысленный вопрос или пытается найти помощь со стороны – какой формат использовать, или какой из них лучше?
Лучшим всегда оказывает формат, который поддерживает устройство или программа для чтения, с учётом комфортного масштабирования или навигации. Родственные по возможностям форматы почти всегда можно конвертировать, если устройство имеет ограничения в их поддержке.
Можно смело утверждать, что для Kindle лучший формат – это MOBI (AZW, Kindle 8). Для Sony, Kobo, Barnes & Noble Nook и ряда других зарубежных устройств – лучше EPUB. Для отечественных и китайских устройств предпочтительнее формат FB2, а соответственно – лучше.
Форматы, защищённые DRM важны издателю, а конечный пользователь может забыть об этом «преимуществе», так как он не увеличивает комфорт чтения. DRM – это ключ на право чтения и ничего более.
Для крупных экранов и планшетных устройств подойдут любые форматы – текстовые и графические, так как экран может крупно показать читаемый фрагмент, а быстродействие и комфорт навигации позволяют быстро менять фрагмент на экране и листать страницы.
Очень трудно оценить лучший формат с точки зрения популярности, не имея точных цифр о количестве копий книг в цифровой форме. Может сложиться впечатление, что MOBI менее популярный формат, чем EPUB, хотя это не так и потребителей формата несколько десятков миллионов, что совсем не плохо! Иностранные производители, представляя свои устройства в России, очень часто включают поддержку FB2, не потому что формат является лучшим, а из-за высокой степени накопления контента в этом формате. И наконец, любой потребитель электроники скачивает с сайта производителя документацию в формате PDF и это за много лет превратилось в стандарт высокого качества поддержки и обслуживания потребителей во всем мире.
Не следует путать возможности форматов с программным обеспечением или гаджетами, хотя это надо учитывать при покупке устройства для чтения. Форматы сами по себе не осуществляют поиск по тексту, не начитывают его вслух. Это также верно, как овощи – ещё не готовый суп, а он, сам себя не съест и не похвалит!
Назначение форматовЭлектронные книги описываются различными форматами данных, а их разнообразие зависит от назначения, возможностей, платформы, веса, кодировки, простоты или «универсальности» (последнее довольно часто субъективно). Потребителям не так важно уметь различать логически их принадлежность к целям и задачам, заменяя свои знания комфортом применения и доступностью контента в цифровом формате.
Очень важно понимать в какой формат пользователь может самостоятельно перевести свои документы, чтобы иметь возможность прочитать их с помощью различных устройств или с помощью специализированных программ. Не стоит отбрасывать в сторону возможность последующего редактирования оцифрованного документа. Если используется оцифровка книг, журналов или газет, а в последнее время ещё и статей из Интернета, то и здесь форматы могут использоваться по принципу простоты создания, архивирования и каталогизации, нежели целевого выбора и последующего комфорта чтения. Очень важно учитывать объем информации.
В результате контент может быть подготовлен фактически в любом формате, без определения качества, масштабируемости, «веса». Довольно часто использование форматов опирается на убеждение в принадлежности к чему-либо, чем на изначальную цель, которую закладывал в формат его разработчик.
Профессионалы могут поступать несколькими способами в зависимости от последующего качества применения и выделенных для этого ресурсов, в том числе и финансовых, а не только технических или людских:
• Создавать контент по природному происхождению и предназначению формата.
• Использовать формат ради последующей защиты, а не обязательного комфорта во время чтения.
• Или идти по самому короткому пути, как и обычный пользователь, упрощая создание цифрового контента, сокращая время, экономя бюджет. Для этого формат может быть выбран любой, лишь бы он мог быть доступен, и понимаем профессионалу.
• И самое неприятное свойство из всех перечисленных – неграмотность профессионала, который создаёт цифровой контент. Нет никакой разницы между созданием документа для чтения, но ради редактирования. Или наоборот, когда контент нужно сохранить для редактирования, а не для чтения в том виде, в котором невозможно создавать исправления и дополнения в тексте. На экране такой документ может выглядеть восхитительно и ради этого все создавалось неправильно.
Назначение форматов проще всего воспринимать правильно, если воспользоваться трактовкой термина – предназначение формата, определения того, ради чего нужно создать контент в определённом виде или, иначе говоря, «форме». В любом случае должна главенствовать конечная цель, которая сопоставляется с используемыми средствами (ресурсами в том числе) и возможностью последующего применения, хранения или всё одновременно.
Назначение форматов формируется за счёт нескольких свойств: возможности формата, предназначения, в которое включены свойства по созданию, редактированию и последующему чтению, причём следует учитывать конечную платформу для осуществления целей.
«Чтение» следует разделить на две части: комфорт функции и предварительный просмотр (ради ознакомления с материалом). Не всегда возможно совместить подобные свойства гармонично, или результат сводится к упрощению основной функции ради предварительного просмотра.
Здесь необходим реальный пример, чтобы чётко представлять различие.
PDF содержит в себе одну или множество страниц с контентом. RTF ничем не отличается в данном случае, хотя формат принципиально другой. Предварительный просмотр возможен с помощью вывода страницы на экран в любом объёме, то есть не обязательно демонстрировать всю страницу в полном размере. Достаточно видеть фрагмент, но при котором можно ознакомиться с содержимым, прочитать его или попросту рассмотреть. Сложность в том, что предварительный просмотр формируется по первой странице, по которой сложно определить содержимое всего документа. Всё это сводится к созданию крупной пиктограммы первой страницы.
Специализированные форматы содержат в себе дополнительные секции в структуре данных: анонс, трейлер, тизер.
Если представить электронную полку с книгами, то около обложек специализированных форматов можно вывести аннотацию, потому что она заранее известна и её не следует генерировать из основного текста. Прописана внутри данных и находится в специальной секции формата, а всем другим форматам доступна демонстрация обложки, создание крупной пиктограммы с текстом, случайное выдёргивание фрагмента после ключевого слова в тексте или после конкретной страницы и результат не предугадать заранее.
Основные предназначения форматов можно представить по типу:
• Просмотр – назначение форматов при просмотре подготовленного контента сводится к определению платформы для использования. Определяется электронный носитель или программное обеспечение для любого или специализированного устройства. Разница только в том, что создающий контент оператор подозревает конкретные ограничения при считывании формата.
• Возможности – определяются объёмом документа и разработчиком.
• Предназначение – предполагается потребителем и подразумевается разработчиком, который в свою очередь определяет степень открытости формата.
• Создание документа – определяется способом и его доступностью, технически и лично, или с помощью различных ресурсов, в том числе сторонней помощи (англ. «Freelance» – форма удалённой работы).
• Редактирование – определяются не только инструменты и программы для внесения исправлений, но и сама возможность, как часть предназначения формата. Для некоторых форматов возможности редактирования ограничены и могут применяться не для замены текста, а для редактирования графических образов и иллюстраций внутри формата.
Из указанных типов – все могут иметь ограничения в зависимости от технической реализации формата, которое сводится к защите данных (англ. «DRM» – технические средства защиты) или к сжатию определённых типов данных:
• Сжатие внедрения или связывания шрифтов и мультимедиа.
• Отдельное сжатие растровых изображений и текста.
• Сжатие самих «алгоритмов сжатия» растровых изображений.
• Использование встроенного механизма сжатия для всего документа и защита данных.
Назначение формата зависит от типа используемых данных:
• Векторные
• Графические
• Текстовые
• Мультимедиа
Каждый тип данных поддерживает цветовую модель или их гибрид: RGB, CMYK, Grayscale, Lab, Duotone, Bitmap.
В формат могут быть встроены или описаны для использования предполагаемые шрифты. Обычный и типичный набор: Times, Courier, Helvetica, Symbol, Zapf Dingbats. Можно описать шрифты по типам, а не конкретно по имени: рубленый, с засечками и символьный.
Для сокращения ошибок, но ограничения масштабирования, некоторый текст в формате может быть заменён на другой тип. Например, математические формулы описанные текстом с использованием символьных шрифтов могут быть заменены иллюстрацией. Таким образом, текст заменяется графическим типом данных. Такой подход изменяет набор инструментов для дальнейшего редактирования, и масштабирование текста может быть непропорциональным по отношению к иллюстрации.
Графические форматы могут масштабироваться на экране пропорционально изображению, но если страница сделана полностью в графическом виде, то масштабирование может быть увеличено за видимые границы экрана, тем самым используется не увеличение масштаба содержимого, а фрагментация страницы в другом масштабе. Графический текст поддерживает жёстко заданные границы полей и страниц, в отличие от текстовых форматов, которые могут увеличивать общее количество страниц в документе в зависимости от размера начертания шрифта.
В зависимости от формата данных внутри структуры документа некоторые форматы лучше использовать для определённого контента:
• TXT – используется только для текста без разметки, типографикой в данном случае будет заниматься программное обеспечение.
• EPUB, FB2 и MOBI – содержат в себе смешанный тип данных, поэтому подходят для масштабирования текста во время чтения с сохранением заложенной разметки. Типографикой будет заниматься программное обеспечение, но оно заранее знает выделение фрагментов текста. Переносы слов обычно не описываются форматом, и этим точно будет заниматься только программное обеспечение по запрограммированному алгоритму естественного языка текста.
• PDF – следует описать отдельно, так как формат хоть и можно отнести к графическому типу, из-за жёсткой разметки текста и иллюстраций, но при наличии текста внутри структуры возможно масштабирование с потерей разметки. Класс TextFlow описывает содержимое текста и внутри есть описание параграфа, ссылок, графики и разделителей.
• DJVU – графический формат, хотя может содержать в себе дополнительные элементы с текстовыми данными. Популярность формата привела к тому, что внутри документа фактически находятся только графические образы страниц и ничего более. С подобной задачей справится любой контейнер с набором иллюстраций в строгой последовательности страниц.
• CBZ и CBR – это как раз наглядный пример контейнера с графическими данными, где название файла соответствует номеру страницы (например, 001, 002, 003 и так далее). В качестве контейнера используются популярные архиваторы ZIP или RAR (последняя буква в обозначении формата).
Таким образом, форматы определяют тип используемых данных и по ним можно предположить предназначение форматов.
EPUB, FB2 и MOBI – современные форматы для чтения литературы в текстовом виде. Особой разницы для потребителей контента в них не заложено. Они в равной степени могут почти одно и то же. Изменение размера шрифта позволяет адаптировать текст под размер экрана носителя с учётом предпочтений конечного пользователя. Для профессионалов это форматы, в которых набор текста может быть сложен для табличных и формульных данных. Это трудоёмко и требует особого внимания и терпения. Часто эти типы данных конвертируют или сохраняют в графическом формате, чтобы сократить время набора и ограничить количество вероятных ошибок при сборке итогового документа. Таким образом, внутри масштабируемого формата могут быть данные, которые не подлежат масштабированию с переносом строк.
Графические форматы, к которым сейчас можно отнести почти всё, что в большей степени содержит факсимильный образ страницы, как правило, пригодны для печати. Удобство чтения форматов зависит от размера экрана электронного носителя. От комфорта – не только при увеличении или уменьшении фрагмента страницы, но и от скорости управления документом и этими функциями.
Форматы для комиксов CBZ и CBR хоть и являются полностью графическими, но лучшие существующие программы автоматически определяют границы кадров и могут по отдельности увеличивать на экране только их зоны. Не всегда возможно комфортное прочтение текста в «баблах», но это в основном в тех комиксах, которые создавались без учёта цифровой эпохи и были рассчитаны для чтения только в оригинальном размере печатной страницы.
Такие форматы как DOC или RTF годятся для последующего редактирования, но это ещё не значит, что программное обеспечение для чтения поддерживает функции не только полнофункционального редактора, но и даже самых простых возможностей – замены отдельных букв, слов, предложений и так далее. Из этого следует сделать вывод таким образом, что не существует универсально удобных инструментов для чтения и редактирования. В некоторых случаях функции доступны, но не обеспечивают должного комфорта.
Мнение об «универсальности форматов» – это тоже часть предназначения, но не их носителей. Например, PDF может быть удобен как формат с возможностью последующей распечатки на принтере или для чтения на большом экране компьютера, планшета, но плохо совместим с медлительными компактными устройствами, на которых удобно читать, но только в текстовом формате.
Поэтому, назначение форматов следует привязать между источником получения контента и носителем, где важным фактором, является «комфорт» приобретения и дальнейшего использования контента.
Полностью графические форматы JPG, PNG, TIFF и так далее, также могут применяться для чтения. Их назначение не будет отличаться от графических форматов описанных выше, но с очень важным ограничением – поддерживается только одна страница иначе это уже контейнер.