Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро

Текст добавлен: 29 сентября 2016, 03:47

Текст книги "Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро"

Автор книги: TWDragon

Жанр:

Программирование

сообщить о нарушении

Текущая страница: 3 (всего у книги 4 страниц)

Назад к карточке книги

4.4 Финальная вычитка и подготовка версии для PDA

Итак, книга для просмотра на мониторе или еВоок подготовлена. Но, если только это не технический справочник, вам наверняка охота получить еще и маленький файл для загрузки на PDA или любимый сотовый телефончик. Получить его будет опять-таки довольно утомительно, но фактически совсем не сложно. Берем пакет с распознанной книгой, открываем его в FineReader и сохраняем в формате ТХТ. Потом – открываем полученный файл в MS Word и приступаем к финальной вычитке. Тут самой главной проблемой будут оставленнные программами дефисы на месте переносов. Их удаление будет весьма монотонной, но достаточно быстрой работой. Лучше всего открытый в Word файл перевести в режим отображения «Веб-документ». Теперь остается только, прокручивая текст, искать неверные переносы на правой стороне экрана, и исправлять их. Переносы в FineReader не изменяются в таких случаях:

• Если слово с переносом расположено в конце страницы (перенос идет на следующую страницу);

• Если слова с переносом нет в словаре FineReader (словарь длиной не отличается, так что подавляющее большинство имен и фамилий, вся историческая и научная терминология – в группе риска).

Когда текст вычитан, наступает время заголовков и рисунков. Каких-либо рекомендаций по выделению заголовков – давать нет смысла, ибо кому что нравится. С рисунками придется повозиться чуть дольше. Во-первых, те из рисунков, которые были обозначены как диффузные ( Dithered) в ScanKromsator – придется обозначить еще раз, уже как простые рисунки ( Picture Zone), и обработать страницы с ними отдельно. Тогда рисунки выделятся в отдельные файлы. Теперь, с помощью Word эти файлы можно будет добавить в вычитанную книгу. Место для рисунка можно выбирать произвольным образом, если только он не привязан к тексту – тогда придется отыскать нужное место. Когда рисунок добавлен, щелкаем по нему дважды, запуская диалог Формат рисунка. Сейчас задача – сжать рисунок, для того, чтобы изображение высокого разрешения не «забивало» экран и память на мобильном устройстве. После нажатия на кнопку Сжать…вызывается диалог сжатия изображения. Параметры в нем выставляются так, как показано на иллюстрации. После получения ответа из диалогов Word обрежет и сожмет рисунок алгоритмом JPEG с фактором качества 50 %. Для мобильных устройств этого вполне достаточно из-за маленьких (максимум 640 х 480 точек) экранов.

Сохранять полученный файл лучше всего в формат HTML. Как показала практика, с ним не возникает проблем у большинства «читательных» программ на мобильных телефонах и PDA. Отдельные энтузиасты могут попробовать преобразовать полученный текст в набирающий популярность XML-совместимый формат FB2, но описание этого процесса требует отдельного руководства, так как для редактирования FB2 еще не создано устоявшегося набора удобных в использовании визуальных программ-редакторов. Можно попробовать преобразовать файл HTML в формат FB2 с помощью консольной утилиты AnyToFB2.ехе, но работа с ней выходит за рамки данного руководства. Для того чтобы выходной HTML-файл был совместим с основным WEB-стандартом HTML (не содержал служебной информации Word, отформатированной по спецификации Microsoft, не совместимой со стандартным HTML), сохранять нужно, задав в списке «Тип файла» пункт «Веб-страница с фильтром». При выборе этого пункта Word сперва спросит, в своем ли мы уме, что не сохраняем его служебные данные, но потом выведет в указанную папку две вещи: собственно HTML-файл ‹имя книги›.html с текстом книги, и подпапку с именем ‹имя книги›.files которая будет содержать сжатые рисунки и XML-таблицу совместимости Word.

Эти две вещи лучше всего сразу запаковать в ZIP-архив (большинство программ-читателей, вроде AlReader – сможет распаковать такие книги), чтобы ничего не потерять при переносе на мобильное устройство и не плодить в памяти отдельные папки под каждую книгу.

По завершении всех операций – вы получаете электронную книгу, практически неотличимую на вид (правда, на экране) от бумажной! Плюс версия для чтения на мобильнике.

Еще раз повторю: описать все эти операции гораздо труднее, чем выполнить их одну за другой.

Удачи в книгосканировании!

P.S.Примеры к этому руководству я получил, отсканировав и обработав книгу Лины Хааг «Горсть пыли». Если Вы хотите посмотреть, к чему приводит точное и неукоснительное исполнение правил, изложенных в руководстве – скачайте книгу по адресу http://torrents.ru/forum/viewtopic.php?t=2170096

[Закрыть]. Кроме того, эта книга сама по себе может быть весьма полезной, особенно любителям истории Второй мировой войны.

Контакты автора

Если Вы хотите найти автора в Сети, чтобы задать вопрос, предложить дополнение, кинуть ссылку на программу или просто сообщить любую полезную информацию, ищите его по таким адресам:

• http://torrents.ru/forum/profile.php?mode=viewprofile.ru=2964463

[Закрыть]– основное представительство аффтара на трекере torrents.ru

[Закрыть], здесь можно найти всю файловую базу для этого руководства, включая самые новые версии PDF– и DjVu-кодеров. Здесь же лежит в форумной ветке http://torrents.m/fomm/viewtopic.php?t=2160930

[Закрыть]онлайн-версия руководства, доступная для обсуждения зарегистрированными пользователями. На форуме есть возможность отправки личных сообщений.

• Для особых случаев связи предназначен адрес электронной почты: #mailto: [email protected]

[Закрыть]. Писать на него можно только, если Вы не зарегистрированы на torrents.ru

[Закрыть], а вопрос не терпит отлагательств (например, срочно требуются выложенные на файлообменник старые программы для обработки DjVu, которых нет на трекерах). Все вопросы, касающиеся содержания руководства, рекомендую обсуждать в указанной выше форумной ветке. Однако, если Вы все же твердо решили задать свой вопрос по e-mail, обязательно сделайте в теме письма пометку «Руководство по книгосканированию», иначе ваше письмо сильно рискует улететь в корзину со спамом.

• http://www.journals.ru/iournals.php?userid=35132

[Закрыть]– блог аффтара на одном из популярных российских дневниковых ресурсов. Найти здесь что-то полезное – нереально, ибо блог создавался специально для отвода потока сознания. Если Вы зарегистрированы на Journals.ru

[Закрыть]– милости прошу. Если же нет – будьте готовы к тому, что флудерские и просто глупые комментарии будут безбожно вытираться и перечеркиваться, так что основное правило таково: если Вы – «Гость» – пишите только по делу.

• Программы на файлообменники я выкладываю по запросу, обычно в течение одного дня (за исключением летней отпускной поры, тогда могу и в течение недели не управиться). Сервисы iFolder.ru

[Закрыть], RapidShare.com

[Закрыть], ShareMania.ru

[Закрыть]. FineReader не просите выложить никогда(!), ибо университетская лицензия не велит. Запросы на Adobe Acrobat тоже крайне нежелательны – у меня и самого этот монстр глючит безбожно.

То же от 4u4undr

Эта мини инструкция в картинках, описывающая полный цикл создания электронной версии научно-технической книги, и предназначена для человека, искренне захотевшего сделать приемлемого качества е-книгу, но не знающего с чего начать. Важно понимать, что существует немало апробированных методов создания достаточно качественных e-книг, все они характеризуются тем, что на выходе книга, как правило научно-техническая, имеет разрешения 600 dpi ч/ б (все книги в 300 dpi ч/ б, несмотря на все старания создателей, явно проигрывают).

Рассматриваемая здесь метода, основана на сканировании в 300 dpi, в градациях серого(600 dpi ч/б будет после обработки). По этому поводу следует заметить, что уменьшение геометрического размера сырого скана в 4 раза, по сравнению со сканированием в 600 dpi, практически компенсируется увеличением глубины цвета в 8 раз (зато скорость сканирования возрастает в 2 раза ©), а также уменьшением количества паразитного мусора.

1. Сканирование

Беря в руки увесистую книгу, многие думают, что отсканировать ее может только маньяк. Совершенно верно, именно так. Без применения научно-организованного подхода, любая работа превращается в мучение, но, сделав работу незаметной, хоть большого удовольствия и не получишь, но дело сделаешь.

Для сканирования сгодится любая программа, способная взаимодействовать с TWAIN драйвером сканера и сохранять отсканированные изображения на диск, нумеруя их удобным способом. Сойдет любой просмотровщик графических файлов: ACDsee, IrfanView, XnView…Если ваш сканер поддерживается программой сканирования VueScan,можете использовать и ее.

Например, в IrfanView(скачайте свежую версию этой бесплатной программы) это выглядит примерно так:

В менюФайл жмем пунктВыбрать TWAIN-источник…

Далее, там же, выбираем пункт менюПолучить изображение/пакетное сканирование…

здесь выбираем как будут нумероваться файлы сканов, где они будут складироваться и тип графического формата. Не забудем проверить Опцииграфического формата:

можно выбрать или Без сжатияили LZW(внимание, не все программы корректно с ним работают), в последнем случае размер файла на выходе будет примерно в два раза меньше. Можно, наверное, и ZIP, но это проверьте самостоятельно. – жмем на кнопку OK и переходим в окно TWAIN Вашего сканера

Сама техника сканирования незатейлива:

– берется книга, кладется разворотом (т.е. двумя страницами) на стекло, прижимается если надо сверху рукой (это быстрее, чем использовать груз).

– делается предварительное сканирование

– картинка, если это возможно, в окне сканирования, разворачивается на 90 градусов (в нормальное положение)

– выбирается область сканирования с некоторым запасом, как правило по горизонтали (по вертикали трудно промахнутся)

– мышкой жмется кнопка основного сканирования

– после того, как данный разворот отсканирован, во время обратного движения каретки сканера, переворачиваем страницу книги, кладем на то же место и жмем опять на левую кнопку мыши (курсор ведь остался на кнопке сканирования), и так пока книга не кончится.

Т.е. идея проста, сканируем развороты в слепую. Этим достигаем максимальной скорости сканирования, которая ограниченна только техническими характеристиками сканера, и полной свободы головы. Таким образом, во время сканирования, Вы можете заниматься многими другими вещами, да хоть кино посмотреть.

Небольших перекосов, отсканированных страниц, бояться не стоит, это будет исправлено при последующей обработке, но все же надо соблюдать аккуратность.

Не забываем, что сканируем с разрешением 300 дпи и в градациях серого(gray scale), если будете сканировать в черно-белом режиме при 300 дпи, то просто потеряете время (хорошая книжка уже не получится).

На выходе этого этапа получаем так называемый сырой материал – файлы в формате tiff с разрешением 300 dpi в градациях серого,обычно размер каждого файла, без использования сжатия, составляет примерно 8 мегабайт (4 при LZW).

Скорость сканирования может достигать до 200 и даже более развортов (400 страниц) в час, на сканере со скоростью 16 секунд на сканирование А4, т.е. сканирование среднестатистической книги, займет не более 2 часов времени!

Обычно первый и последний разворот книги содержат по одной странице. Ну, так и сканируем их по одной, т.е. все-таки придется сделать 3 предварительных сканирования на книгу ©.

2. Обработка

За обработку сырого материала отвечает замечательная, притом совершенно бесплатная, программа ScanKromsatorот bolega(тут убедительная просьба, не надо сразу же бросаться и писать ему письма о том, как улучшить, углубить, да и просто спасибо, наверное, то же не надо посылать, просто сделайте хорошонесколько книг и поделитесь ими).

ScanKromsator это мощный инструмент, предназначенный для обработки сканированного материала, с целью создания качественных e-книг, со многими полезными и не очевидными для новичка функциями. Поэтому, просто следуйте пошаговой инструкции и все получится.

a)Запускаем программу и загружаем в нее файлы (список файлов слева сверху, под этим списком панель инструментов);

b)Выбираем путь для вывода результатов (закладка Files), тут же можно назначить способ нумерации выходных файлов, и что очень важно, назначить выходное разрешение 600 dpi;

c)Приступаем к черновому «кромсанию»;

Находим левее кнопки с надписью Process,кнопочку с ножницами (Draft kromsate),нажимаем, появляется окно диалога

ставим галочки на Split pages и safe top/bottom и жмем кнопку OK.

(если первая и/или последняя страницы одинарные, т.е. не разворот, то можно предварительно покромсать их отдельно (поле Kromsate = Current), соответственно не надо для них ставить галочку Split pages)

d) Минут через 10-15:

Обратите внимание на синенькие полосочки, это резаки (по которым Вы безошибочно отличите это программу от других ©), за их пределами все будет безжалостно отрезано, а данная страница будет разделена на две (см. центральные резаки). Посмотрите на то, что рядом с названиями страниц появились зеленые галочки!

e) Это короткий, но очень важный этап – расстановка опций.

Дляэтого пройдемся по закладочкам (слева в окне программы). Pages.На ней выставляем способ центрирования. По умолчанию стоит A– автомат, это значит поместить изображение в верхний левый угол. Но, как правило (это у меня так) горизонтальное выравнивание ставится по центру (Page h.align) C,вертикальное в низ (Page v.align) Bили вверх Tэто зависит от форматирования книги.

Despeckle– убирание мелкого мусора.

Deskew– выравнивание наклона страницы, если в результате страница получится криво выровненной, то ее можно переделать с помощью метода Art(включение этого метода для всех страниц замедляет процесс) или Orthoесли текст на данной странице развернут на 90 градусов.

Чтобы опция была применена ко всем страницам, при выборе ее удерживаем Ctrl.

Аналогично действуйте при выборе остальных опций, которые применяются ко всем страницам сразу.

На закладке Bookвыставляем размеры выходных страниц, оставляем Page widthи heightв Auto.

В поле H.Gap value ставим 200 (или 250) pixels, это значение обычно для обработки в 600 дпи, но если Вам хочется других размеров полей, то можете подобрать это значение по своему вкусу.

В закладке Files,как было сказано выше, ставим выходное дпи 600(иначе ничего хорошего не получится). Это архи важно, от этого зависит весь окончательный результат.

Во вкладке Options,ставим Deskew method = Auot(shear),для Despeckleметод Safeили Fine+Normalэто интеллектуальный метод очистки. Например, он не вычищает точки над i и j.

Options 2пропускаем. В принципе, перед Draft kromsateна этой вкладке можно отрегулировать чувствительность, чтобы резаки не обрезали номера страниц при предварительном кромсании.

Вкладка Convert– выставляем порог для преобразования из градаций серого в черно-белый.

Для Convert to b/w thresholdвыбираем MiddleDark.Не забываем удерживать Ctrl при выборе опции, предназначенной для всех страниц. Но никто не мешает провести эксперимент для своего скана и выбрать другой параметр.

Ну, наконец, последняя, но очень важная вкладка Quality.В Enhance imageставим галочки для Blurи Sharpen,значения для них обычно 1 или 2 (набор этих опций и их значения не догма, можете поэкспериментировать, но для начала поставьте как на рисунке), для 2 результат будет пожирнее, выбирайте исходя из шрифта, сканируемой книги.

И опять очень важно,если у вас исходники это разворот книги, то жмем на Gray enhanceи появляется диалог Gray image enhance,в нем ставим cleaner passesв 1, ставим галку на Correct low contrastи главное, что бы это заработало, ставим галку на Enable .По этой

опции происходит выравнивание освещенности (особенно важно это для центра разворота), что убирает черные полосы и кучу мусора. Незаменимая штука.

Здесь приведен вид диалогового окна для Gray image enhanceдля версии программы 5.6A, в предыдущих версиях нет Enable.

Галку для Correct low contrast можно не ставить, она важна в случае, когда тень на сгибе налезает на текст, при взведенной галке, буквы будут несколько ужирняться и расплываться.

Можно попробовать Smooth,по утверждению автора программы, применение этого метода приводит к некоторому уменьшению размера книги, за счет сглаживания контура букв. А в целом я советую, сделать 3-4 разворота, так, как описано, посмотреть результат, только потом экспериментировать по улучшению, но повторяю, в 95% случаев должно получится неплохо.

Кстати, часть выбранных опций можно сохранить на будущее в File-›Task options settings.

f)Самый скучный, но к счастью не очень долгий этап. Надо пройтись по всем страницам, с целью проверки правильности расстановки резаков.

Да, если не стоит большая зеленая галка, то поставьте ее (для запоминания вносимых изменений).

Если Вы увидите, что для какой либо страницы резаки установлены не правильно, то их надо поправить. Передвигаем резаки, если надо меняем способ центрирования для данной страницы (если текст на странице развернут на 90°, то для данной странице ставим Deskew = Orthoна закладке Pages).

Оптимально это делается так: левая рука отвечает за листание – кнопки qи w,правая за мышь, которой мы передвигаем, если надо резаки. Если Вы уверены, что для части страниц положение резака будет одинаково, то Вы можете скопировать их положение, нажав правую кнопку мыши на резаке, выберите нужную опцию (Copy current position to).

Бывает, что страница расположена под углом, или тень на развороте расширяется, для таких случаев можно устанавливать косые резаки, просто, удерживая шифт, передвигаем резак за его кончик, это быстрее, чем в последствии в ручную чистить страницы.

g)Кстати, знаете ли Вы, чтобы все не делать заново, задание можно сохранить (пункт основного меню File-›Save Task);

e)Жмем большую кнопку Process.Тут появляется предупреждения, в здравом ли мы уме, что меняем разрешение, но нам уже все равно, мы все уже сделали. Все, теперь дело за компьютером.

На компьютере Pentium M 1400 MHz, этот процесс занимает порядка одной минуты на разворот (это для версии 5.6A, в предыдущих версиях в 1.5-2 раза медленнее).

Часа через 2-3, в указанной ранее папке, нас ждет результат, просматриваем его внимательно, иногда могут быть несколько неправильно выровненных страниц. Их переделываем отдельно.

Перед переделкой страницы, на вкладке Book,необходимо переключить Page widthна Fixed,этим мы зададим тот же размер страницы, который был подсчитан кромсатором для Вашей книги.

Совершенно не обязательно кромсать всю книгу сразу, можно делать это по частям. Просто, в последующих порциях, необходимо выставить Book -›Page width-›Fixedразмер предыдущей части. Для определения правильного размера в кромсаторе, обычно, достаточно взять 10^15 разворотов (страниц).

Особо дотошные, могут почистить остатки вручную, так называемая тонкая очистка. Лично я это не делаю, за исключением убирания библиотечных штампов и записей на полях. Как правило, и так все замечательно. Кстати, в сканкромсаторе есть мощные средства для очистки сканов, можете воспользоваться.

(Если у Вас 256 и менее мегабайт памяти, то возможен глюк, он характеризуется постоянным свопом диска при смене dpi, тогда просто снимите задачу, выгрузите лишнее из памяти, запустите процесс кромсания заново)

О картинках.Если в книге встречаются фотографии, то самым простым, но не оптимальным по качеству способом является использование опять таки кромсатора ©. Во время просмотра результатов предварительного кромсания, выделите мышкой иллюстрацию и в контекстном меню (по правой кнопке мыши) выберите метод Exlude and Mark as dither regione.

3. Кодирование

Кодировать в djvu можно двумя способами.

Первый, использовать или свободно распространяемую программу Solo 3.1(в этой программе используется старый алгоритм кодирования) или Document Express Editorверсий от 4 до 6. Это делается просто, запускаем программу, загружаем первую страницу (только одну!), добавляем к первой странице остальные, но не более 500 (обычно 200^300). Сохраняем с выбором профиля bitonal и с разрешением 600 dpi.

Второй, рекомендованный способ, это использовать Document Express Enterprise 5.1(доступна облегченная версия этого пакета, объемом около 20 мегабайт). Вначале создаем профиль для кодирования (делается это не часто, можно один раз), для этого запускаем Document Express Enterprise Configuration Managerиз этого же пакета, из списка выбираем профиль Bitonal (600),нажимаем на кнопку Advanced Settings …,в диалоговом окне Advanced Settingsвыбираем закладку Textи ставим Pages Per Dictionaryравным 1000 (конечно, это небольшой экстремизм, можно ограничиться значением 100^200). Сохраняем этот профиль под новым именем. Увеличение размера страниц на словарь, приводит к заметному уменьшению размера файла, до 25%.

Запускаем Document Express Enterprise Workflow Manager,загружаем все страницы зараз, в поле Job Nameпишем название книги, из списка Raster Profileвыбираем, подготовленный ранее профиль, переключаемся на закладку Outputи из списка Separate Document ( s ) byвыбираем One document only .Ставим галочку (с самого левого края под Enable )и ждем конца кодирования, следим или пока эта галка исчезнет или по закладке Log .