Текст книги "Описание работы пакета OOoFBTools Создание книг FB2"
Автор книги: Вадим Кузнецов
Жанр:
Программное обеспечение
сообщить о нарушении
Текущая страница: 4 (всего у книги 6 страниц)
9. Избранные жанры
Как правило, создатели fb2-книги используют очень небольшое число жанров. Каждый раз выбирать жанр для книги из огромного списка – утомительно. Поэтому сделана возможность создания Избранных Жанров и работа со списком Избранных Жанров – сортировка, перемещение, добавление и удаление.
При запуске конвертера список Избранных Жанров пуст (он расположен между меткой «Жанр:» и основным списком Жанров):
После добавления «любимых» жанров в Избранное, получаем что-то вроде этого:
При выборе жанра из Избранного, этот жанр отображается в основном списке жанров. Дальше – работаем, как обычно.
9.1. Создание списка Избранных Жанров
Для создания Избранного Жанров нажмите кнопку «…» (расположена между счетчиком жанров и языком книги):
Появится диалог, работа с которым особых комментариев не требует. На картинке уже имеется некоторый список:
Для удобства можно отсортировать список жанров или переместить нужный жанр выше или ниже в списки…
После создания списка нажатия кнопки OK список сохраняется в соответствующий файл. Файл Избранных Жанров сохраняются в файл mygenres.txt, который помещается в жестко заданную папку configпакета OpenOffice.org, откуда и загружается. Для Unix-подобных систем – это папка /home/XXX/.openoffice.org3/user/config/OOoFBTools. Для Windows – это папка C: Documents and SettingsXXXApplication DataOpenOffice.org3userconfigOOoFBTools, где XXX – ваш логин (имя пользователя).
При нажатия на выпадающий список Избранных Жанров на Главной Форме можно выбрать нужный Жанр,
и он будет отображен в основном выпадающем списке жанров:
После этого этот Жанр можно будет либо использовать для экспорта книги, либо добавить в список жанров экспортируемый книги (кнопка « +»).
II. Автоматическая корректировка текста
Для корректировки текста можно использовать либо интерактивные инструменты (см. ниже), либо – автоматические. Рассмотрим их подробнее.
А. Text Corrector – Корректор текста документа
Для работы с корректором текста надо вызвать его диалог, который выглядит так:
Все выбранные опции автоматически запоминаются, и при следующем вызове Корректора они будут автоматически установлены.
А.1. Описание некоторых опций
Многие опции Корректора Текста интуитивно понятны. Некоторые, требующие пояснения, опишем подробнее.
А.1.1. Удалить разрывы для дефисов и переносов слов
Очень важная опция! Очень часто требуется исправить текст, который содержит слова с дефисами и переносами, разорванными символом абзаца. В ручную – долго и утомительно.
Данная опция имеет 3 режима работы:
1. Обрабатывать только разорванные дефисы.
2. Дефисы и удаление из слов только символа ¶без переноса (-).
3. Дефисы и удаление из слов разрыва: и переноса (-) и абзаца ( ¶).
Т.е. разорванные дефисы обрабатываются во всех трех режимах – удаляется разрыв, а в двух последних режима еще и обрабатываются слова, не обязательно содержащие дефисы, но разорванные на переносе.
Поиск и корректура осуществляется везде – в тексте, в таблицах, в текстовых врезках и в сносках.
Рассмотрим каждый режим.
1. Обрабатывать только разорванные дефисы
Есть два вида слов с дефисом: предлоги, местоимения и т. д. (все-таки, во-первых, ты-то, из-за…) и другие слова (белым-бело, сестра-хозяйка, по-хорошему, иди-ка…). Такихслов сотни, тысячи… Если составить полный список всех этихслов, и «загрузить» его в Корректор для сравнения всех найденных в тексте дефисных слов с разрывами, то на сравнение только одного слова из книги понадобится несколько часов! Поэтому, в Корректоре механизм распознавания таких дефисныхслов сделан следующим образом:
1. Правая или левая часть найденного в тексте слова с разорванным дефисом (или переносом) сравнивается со словами-шаблонами, которые в большой вероятностью принадлежат словам с дефисами: «-то», «-ка», «-таки», «-ли», «по-», «кое-», «кой-», «из-», «во-», «в-». Если есть соответствие, то Корректор удаляет разрыв – символ ¶, оставляя при этом дефис, или символ «минус» – смотря, что стояло.
Конечно, есть вероятность того, что в тексте встретится не дефисное слово, соответствующее этому алгоритму, а просто слово с разорванным переносом (например: «по-¶шли», «доло-¶то»), и, вместо «-¶» удалится только «¶», но такая вероятность мала. Во всяком случае, потом текст можно «прогнать» ручным инструментом поиска слов с дефисом, и удалить символ "-" там, где он остался. Но – лучше такой алгоритм, чем…
2. И левая, и правая части найденного слова с разорванным дефисом (или переносом) сравниваются с полным шаблоном: «как-никак», «какой-никакой». Если есть соответствие, то Корректор удаляет разрыв – символ ¶, оставляя при этом дефис, или символ «минус» – смотря, что стояло. Список этих полных шаблоном по мере развития Корректора может расти.
3. Составлен список слов, правая дефисная часть которых – либо слово «нибудь», либо – «либо». Вот этот список (он со временем может пополниться): "где", "откуда", "зачем", "почему", "отчего", "кто", "как", "когда", "какой", "какого", "какому", "каком", "какая", "какую", "какое", "какого", "какие", "каких", "каким", "кем", "кого", "кому", "ком", "куда", "что", "чем", "чём", "чему", "чей", "чья", "чьего", "чьему", "чьей", "чьи", "чьих", "чьими", "чье", "чьё", "чего", "сколько", "скольких", "скольким", "сколькими".
Когда Корректор нашел в тексте разорванный абзацем дефис, то он определяет правую часть, если это – «нибудь» или «либо», то далее следует проверка по вышеназванному списку. Если есть соответствие, то Корректор удаляет разрыв – символ ¶, оставляя при этом дефис, или символ «минус» – смотря, что стояло.
Если же этого соответствия не было, то найденное в тексте слово «не считается» дефисным, а просто с разорванным переносом (например, смот-¶ри), и в этом режиме обработки игнорируется.
2. Дефисы и удаление из слов только символа ¶ без переноса (-)
Все, что было написано для режима «Обрабатывать только разорванные дефисы» работает и в этом режиме. Только в дополнение к этому, удаляется не только разрыв дефисных слов, но и слова с разорванными переносами не игнорируются, и из них удаляется только символ «¶». Символ «-» не трогается. Этот режим удобен для исправления разрывов не только дефисов, но и слов, типа «давным-давно», «сестра-хозяйка», «белый-белый» и т. п. Например, слово «давным-¶давно» станет «давным-давно», а «смот-¶ри» – «смотри». В первом случае получили то, что и надо, а во втором – нет. Текст после коррекции можно «прогнать» ручным инструментом поиска слов с дефисом, и удалить «-» там, где он остался. Универсальный алгоритм предусматривал бы сравнение со списком из тысяч слов в разных склонениях и временных формах, и требовал бы часы, на отработку. Поэтому, этот алгоритм проще, хотя и не все корректно обрабатывает.
3. Дефисы и удаление из слов разрыва: и переноса (-) и абзаца (¶)
Все, что было написано для режима «Обрабатывать только разорванные дефисы» работает и в этом режиме.
Этот режим похож на описанный выше, с одним лишь отличием. Удаляется не только разрыв дефисных слов, но и оба символа разрыва «-¶» в слова с разорванными переносами. Например, слово «давным-¶давно» станет «давнымдавно», а «смот-¶ри» – «смотри». В первом случае получили не то, что надо, а во втором – именно то, что надо.
Таблица сравнения результата работы 3-х режимов коррекции
Для сравнения режимов возьмем такой произвольный текст (отражены и непечатные символы). Синим цветом показаны «дефисные» слова с разорванным дефисом, красным – слова с разорванным переносом, зеленым – «дефисные» слова без разрывов (просто для того, чтобы убедиться. Что с ними ничего не случится):
Как видим, наиболее «универсальный» – это 2-й режим (он стоит по-умолчанию). Хотя иногда после него нужна «ручная доводка».
А.2. Файл настроек Корректора Текста
Настройка формы Корректора сохраняется в файл corrector.txt, который помещается в жестко заданную папку configпакета OpenOffice.org, откуда и загружается. Для Unix-подобных систем – это папка /home/XXX/.openoffice.org/3/user/config/OOoFBTools. Для Windows – это папка C: Documents and SettingsXXXApplication DataOpenOffice.org3userconfigOOoFBTools, где XXX – ваш логин (имя пользователя). Файл создается автоматически и все изменения в диалоге Корректора заносятся в него автоматически.
А.3. Это важно!
При работе с Корректором Текста важно помнить следующее: Обработку текста лучше проводить ДОтого, как вы «отформатировали» стилями документ для конвертации его в формат fb2! Т. к., если в Корректоре выбрана опция «Удалить пустые абзацы…», и в «отформатированном» документе они есть, то после удаления этих пустых абзацев, абзацы, следующие за ними, «теряют» свои стили. Если это абзацы-уровни (Заголовки, Части книги), которые должны быть взяты в секции ‹section›, то корректность уровней нарушается, что в результирующем файле fb2 проявится, как некорректность расстановки секций. И дело тут не в конвертере – просто после удаления пустых абзацев Корректором и утраты следующим абзацем своего стиля, документ получается «отформатированным» стилями не корректно. Вводить в Корректор логику, отлавливающую стили последующих абзацев и восстанавливающую их – значит сделать то, что Корректор перестанет быть универсальным.
Конечно, можно подправить документ нужными стилями, и экспорт пройдет «на ура», но зачем двойная работа.
Поэтому, оговорюсь еще раз: Обработку текста лучше проводить ДОтого, как вы «отформатировали» стилями документ для конвертации его в формат fb2!
Б. Склейка разорванных строк абзаца
Данный инструмент полезен для обработки многих текстов из Интернет-Библиотек, например, Мошкова, а также – некоторых html-файлов, где есть масса разрывов строк ‹BR›.
Инструмент ищет признак (идентификатор) нового абзаца по определенным признакам (режимы работы), и все отдельные строки (абзацы), которые оказываются между этими абзацами-маркерами воспринимаются, как части одного разорванного абзаца и склеиваются воедино.
Не зависимо от режима Склейки, Инструмент автоматически удаляет все мягкие переносы и пробелы в конце абзацев. Иначе результат склейки будет неверным.
Рассмотрим режимы работы инструмента – идентификаторы нового абзаца, маркеры.
Б.1. Режимы склейки (по идентификатору нового абзаца)
Пробелы в начале абзаца
Часто «работаешь» с книгами, загруженными из сети, которые после OCR сохранялись, как простой текст. Красная строка «отбивалась», как несколько пробелов, а перевод строки сохранялся как окончание абзаца. Т. е. все строки каждого абзаца сохранились, как отдельный абзац. Править руками такую книгу удовольствия мало… Инструмент позволяет собрать такие строки в «нормальные» абзацы. При этом идентификатором «нового» абзаца является наличие в начале строки одного или нескольких пробелов.
Пример. Есть такой текст (для наглядности показаны и непечатаемые символы):
После обработки Инструментом получаем следующее:
Такому тексту для наглядности абзацев осталось только задать отступ 1-й строки каждого абзаца, и все!
Символы.!?…»”:; в конце абзаца»
Не менее часто встречаются книги, скаченные из сети, у которых нет Красной строки, обозначенной пробелами, а перевод строки сохранялся как окончание абзаца. Т. е. все строки каждого абзаца сохранились, как отдельный абзац. Этот вариант еще труднее править руками. Корректор позволяет собрать такие строки в «нормальные» абзацы. При этом идентификатором завершения абзаца является наличие в его конце вышеназванные символы.
Пример. Есть такой текст (для наглядности показаны и непечатаемые символы):
После обработки Инструментом Склейки получаем следующее:
Не во всех случаях этот 2-й режим все корректно определит (Названия заголовков, как правило, не имеют точек в конце абзаца). Но, тем не менее, это лучше, чем ничего.
“Пустой” абзац или одиночный разрыв строки
Еще один вариант распространенных в сети текстов – строки одного параграфа разорваны абзацем, а сами параграфы отделены друг от друга одним или несколькими «пустыми» абзацами. Такие тексты получаются при копировании текста из многих pdf-журналов. При выборе данного режима обработки, программа ищет блок текста (как правило разорванные строки одного абзаца) по идентификаторам – «пустой» абзац (одиночный разрыв строки ‹BR›). Найденное склеивается в один абзац.
Например, есть текст:
После обработки Инструментом Склейки получаем следующее:
Иногда некоторые абзацы не отделены от других пустым абзацем, и являются самостоятельными абзацами, не разорванными символом абзаца. К сожалению, они склеются с вышестоящими абзацами. Чтобы этого не произошло, надо просмотреть весь текст, и перед «целыми», неразорванными абзацами вставить пустой абзац, если его нет. Тогда Инструмент Склейки корректно обработает текст и склеит нужные абзацы в один. Так, что лучше немного потратить время на просмотр текста и вставку пустых абзацев в нужные места, если их там нет, нежели часами вручную склеивать строки в абзацы!
Б.2. Обработка разрывов дефисных слов и переносов
В тексте могут встречаться разрывы на дефисных словах (кое-кто, кого-то и т. д.), а так же на переносах слов. Инструмент Склейки абзацев обрабатывает такие случаи разрывов, исходя из 2-х вариантов:
1. Удаление только разрыва абзаца(¶) и строки(BR); перенос (-) не удаляется.
2. Удаление и разрыва переноса(-) и абзаца(¶) и строки(BR).
По сути, эта та же обработка разрывов, что и в Корректоре Текста (подробнее см. здесь). Инструмент будет обрабатывать такие разрывы в любом случае, иначе он не сможет корректно склеить все строки, принадлежащие к одному абзацу.
Б.3. Пост-обработка
После склейки разорванных абзаце в тексте могут остаться множественные пробелы и табуляции, а также пробелы в начале абзаца. При желании вы можете включить опции для их удаления.
Удалении пробелов в конце абзаца, если они есть, происходит автоматически.
Б.4. Файл настроек инструмента Склейки разорванных абзацев
Настройка формы Склейки разорванных абзацев сохраняется в файл corrector.txt, который помещается в жестко заданную папку configпакета OpenOffice.org, откуда и загружается. Для Unix-подобных систем – это папка
/home/XXX/.openoffice.org/3/user/config/OOoFBTools. Для Windows – это папка C: Documents and SettingsXXXApplication DataOpenOffice.org3userconfigOOoFBTools, где XXX – ваш логин (имя пользователя). Файл создается автоматически и все изменения в диалоге заносятся в него автоматически.
III. Интерактивные инструменты обработки текста
III.1. Поиск OCR ошибок в тексте
Эти инструменты предназначены для ручного поиска и самостоятельной корректировки слов. Они часто бывают полезны после OCR. Многие ошибки в тексте можно исправить с помощью автоматического Корректора Текста. Но он не все корректирует «до конца». Например, при корректировании разрыва абзацем дефиса и переноса слов, в зависимости от выбора режима корректировки, часто остаются не обработанными либо слова с дефисами, либо слова с переносами, т. к. есть случаи, которые невозможно программно отследить, и только человек способен правильно решить, что это – слово с дефисом или же слово с разорванным переносом. Для такого случая и подобных и созданы ручные инструменты коррекции текста:
Диалог «Поиск OCR ошибок в тексте» выполнен, как немодальный, т. е. с него легко «перейти» на найденного им слово для ручной коррекции, не закрывая при этом этот диалог. Но эта возможность может понадобиться крайне редко, т. к. предусмотрена кнопка «Удалить» («Вставить», «Обработать» – название и назначение меняется в зависимости от вида поиска), нажатие на которой вносит необходимые изменения в найденный текст.
Диалог «запоминает» свое местоположение на экране, и при следующем его вызове он отобразится в том месте, где вы его закрыли в прошлый раз. Это удобно. Его можно расположить над меню и панелями инструментов OOo (сделано по умолчанию), и он не будет «мешать» видеть текст во время поиска.
Поиск ручным корректором и внесение изменений осуществляется везде – в тексте, в таблицах, в текстовых врезках и в сносках.
Поиск начинается от позиции курсора в документе и идет «по-кругу».
Корректировка найденного текста по нажатию кнопки (справа от кнопки «Найти») работает «интеллектуально», т. к., если после того, как вы нашли что-то (этот текст выделяется), а потом перешли курсором в другое место, или выделили случайно другое место в тексте, и нажали на корректирующую кнопку, то, если нет выделения – ничего не будет откорректировано. А если выделение есть, то в нем будет проведен поиск OCR-ошибки, согласно выбранного вида поиска, и в случае обнаружения, произойдет коррекция текста.
Конечно, все случаи «защиты от глупости» не предусмотришь…
Опция «Искать далее после обработки найденного»: Если она выключена, то после того, как инструмент нашел ошибку OCR, и вы ее обработали с помощью кнопок обработки, текстовый курсор остается на найденном, и чтобы найти новую ошибку OCR, надо нажать кнопку «Найти». И так – до конца книги. Если же опция «Искать далее после обработки найденного» включена, то после обработки найденной ошибки автоматическипроисходит переход на новую ошибкув тексте! Это очень удобно!
Поиск слов с дефисами, тире или минусом
Инструмент позволяем искать в тексте слова с дефисами, например: «кое-что», «серый-серый», «по-своему», «ты-ли», «ангел-хранитель» и т. д.
Польза этого инструмента – после работы Корректора Текста в автоматическом режиме можно найти слова, где из разорванных переносов был удален только знак абзаца, а дефис (или «минус») – оставлен. Если и он должен быть удален, то теперь это можно сделать вручную. Например, нашли: «замечательно». Здесь перенос – явно лишний. Удаляем…
С другой стороны, можно найти другие слова с тире, дефисом или минусом и заменить эти символы «на ваш вкус». Обрабатывается и неразрывный дефис.
Опция « Искать между цифрами» нужна для возможности включить/отключить поиск минуса, тире и дефиса между цифрами. Очень часто в книгах встречаются такие конструкции: 12-34, 1972-2010 и т. д. (В христианской литературе – это ссылка на стихи Библии, например, Мф. 5:1-8. В исторических книгах – это указание на отрезок времени. И т. д.). В таких книгах, как правило, минус, тире или дефис между цифрами – это не ошибка OCR, а норма. При вычитке инструмент часто находит такие цифры с дефисами, что утомляет. Чтобы пропустить эти «правильные» цифры и не тратить на них время нужно отключить опцию « Искать между цифрами».
Для поиска используется шаблон регулярных выражений: При включенной опции « Искать между цифрами»:
‹[: alnum: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: alnum: ]+
При выключенной опции « Искать между цифрами»:
‹[: alpha: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: alpha: ]+
Кнопка Вставить пробелыактивна только для этого режима. При нажатии на ней, если найдено слово, содержащие дефис, минус или тире, то слева и справа от этого минуса, дефиса или тире ставятся пробелы. Это полезно для «слипшихся» слов и тире… Например, найдено слово «Ты – нет!». После нажатия кнопки Вставить пробелы, получаем «Ты – нет!», как и должно было быть.
В этом режиме поиска предусмотрена возможность Запоминать найденное «хорошее» дефисное слово (Кнопка Запомнить), и Редактировать файл списка этих дефисных слов (Кнопка Править). Слова «запоминаются» в. txt-файл words_defis_list.txt , который создается в папке config пакета OOo. Для Unix – подобных систем – это папка
/home/XXX/.openoffice.org3/user/config/OOoFBTools. Для Windows – это папка C: Documents and SettingsXXXApplication DataOpenOffice.org3userconfigOOoFBTools, где XXX – ваш логин (имя пользователя).
Как это работает? Когда найдено очередное слово с минусом, неразрывным дефисом, дефисом или тире, то, чтобы инструмент не останавливался в следующий раз на этом же слове, его можно «Запомнить». И теперь оно будет «благополучно» пропускаться при поиске.
Предусмотрены защиты от «глупости»: слово не будет «запоминаться», если:
– нет выделения в тексте;
– выделено слово, не содержащее ни минуса, ни тире, ни дефиса, ни неразрывного дефиса;
– случайно пользователем выделено несколько абзацев.
Во всех этих случаях будет выдано соответствующее предупреждение.
При Правке файла списка дефисных слов (нажатие кнопки Править) файл words_defis_list.txtбудет запущен в ассоциированном с расширением. txt в вашей системе текстовом редакторе. Лучше ассоциировать. txt с редактором, который поддерживает Unicode и корректно «видит» перевод строк (абзацы). В Windows notepad.exeдля этого не подходит.
В Windows я пользуюсь Notepad++.exe.
Поиск слов, в которых абзац разорвал перенос (дефис, тире или минус)
Этот инструмент позволяет искать в документе разрыва дефисов и слов. Например:
«давным-¶», «из-¶», «пересмотре-¶». Если после знака переноса стоит один или пробелов, то такие слова тоже находятся. Например: «давным– ¶», «из– ¶», «пересмотре– ¶»
Обрабатывается и неразрывный дефис.
Для поиска используется шаблон регулярных выражений:
"‹[: alnum: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "]$|‹[: alnum: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: space: ]$"
Поиск обрыва абзаца на словах, знаках препинания, кавычках и скобках
Например, есть текст:
Это пример того, как можно «найт軶
разрыв предложения на кавычках,¶
запятой, (тексте в скобках) ¶
что часто бывает нужно после OCR.
Еще пример:
Здесь – разрыв после пробела и тире – ¶
А здесь – разрыв после 2-х пробелов, минуса и пробела – ¶
Для поиска используется шаблон регулярных выражений:
"‹[: alnum: ]+$|‹[: alnum: ]+[)}],»”"":;]$|‹[: alnum: ]+[)}].,»”"":;]+[)}],»”"":;]$|[: space: ]+ [-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "]$" amp; "|[: space: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: space: ]+$"
Т.е. отлавливаются не только разрывы на запятых, скобках и словах, но и на минусе, тире и дефисах, слева от которых стоит 1 или более пробелов, а справа – ни один или множество пробелов (частая ошибка OCR).
Кнопка «Обработать» позволяем удалить разрыв предложения и вставить пробел.
В этом варианте поиска активируется выпадающий список знака пунктуации, который можно выбрать, и при нажатии кнопки «Вставить» он будет вставлен «на свое место».
Кнопка «Склеить» позволяет просто удалить разрыв, не вставляя пробел. Это полезно, т. к. часто при OCR (особенно в FR10) слово оказывается разорванным не как, например «по-¶шел», а «по¶шел». Поэтому «Склейка» склеивает разорванное слово.
Поиск вероятного недостающего пробела между словами
Ищет слова с вероятным отсутствием пробела между ними по знакам препинания, закрывающим скобкам.
Опция « Искать между цифрами» нужна для возможности включить/отключить поиск недостающего пробела между цифрами. Очень часто в книгах встречаются такие конструкции: 12,34, 1972:2010 и т. д. (В христианской литературе – это ссылка на стихи Библии, например, Ин. 3:16. В математических книгах и книгах по программированию – это указание на числовые диапазоны, просто дробные числа. И т. д.). В таких книгах, как правило, отсутствие пробела между цифрами – это не ошибка OCR, а норма. При вычитке инструмент часто находит такие цифры «без пробела», что утомляет. Чтобы пропустить эти «правильные» цифры и не тратить на них время нужно отключить опцию « Искать между цифрами».
Для поиска используется шаблон регулярных выражений: При включенной опции « Искать между цифрами»:
‹[: alnum: ]+[)}]({[,!?…»”"":;«“][: alpha: ]+|‹[: alpha: ]+[: digit: ]+|‹[: digit: ]+[: alpha: ]+
При выключенной опции « Искать между цифрами»:
‹[: alpha: ]+[)}]({[,!?…»”"":;«“][: alpha: ]+|‹[: alpha: ]+[: digit: ]+|‹[: digit: ]+[: alpha: ]+
При корректировании в этом режиме поиска программа сама определяет, где поставить пробел – слева или справа от найденного знака препинания, скобки или кавычек.
III.2. Обработка выделенных абзацев (обрыв абзаца или строки)
Часто требуется не автоматическая обработка текста, а ручная некоторых фрагментов. Данный набор инструментов может работать как с одним выделенным фрагментом текста, так и с несколькими выделенными областями текста. Если нет ни одного выделенного фрагмента, то инструменты могут обработать весь документ (появляется соответствующее окно с вопросом).
Выделять можно только Текст. Инструменты не работают с Врезками и Таблицами. Например, есть текст с обрывом абзацев (показаны скрытые символы):
В этом тексте есть и обрыв абзаца, и обрыв строки (тэг ‹BR› в html-файлах).
Делаем следующее:
1. Выделяем те строки, где есть разрыв строки:
Запускаем инструменты Ручная обработка абзацев, выбираем Режим обработки: Разрыв строки (n)и Тип обработки: Склейка в 1 абзац (Замена обрыва строки n на 1 пробел). После нажатия Обработать, получили следующее:
Теперь выделяем все строки, разорванные абзацев, причем в каждое выделение должны попасть только те строки, которые должны составить один целый абзац:
Для инструмента Ручная обработка абзацев, выбираем Режим обработки: Обрыв абзаца (¶)и Тип обработки: Склейка в 1 абзац (Замена обрыва строки n на 1 пробел). После нажатия Обработать, получили следующее:
Что и требовалось. Разорванные строки 2-х абзаце мы склеили, каждые в свой абзац. Разобраться с остальными Типами обработки этих инструментов не сложно.
III.3. Инструменты работы с примечаниями, сносками и гиперссылками
Пожалуй, самым нудным и утомительным в вычитке текста является обработка и создание сносок из примечаний. Это – постоянные «прыжки» по тексту – с места текста примечания, вырезая его текст в буфер – на «его» номер в главе, удаление этого номера, вставки сноски, потом вставка из буфера примечания… И так – «до умопомрачения».
Набор инструментов для работы со сносками созданы как раз, чтобы облегчить этот процесс в полуавтоматическом режиме. Доступ к ним – либо через меню OooFBTools, либо – через панель инструментов Генерация сносок или гиперссылок(иконки со временем могут измениться):
1. Генерация Сносок или Гиперссылок на примечания.
2. Вставка закладки для списка примечаний.
3. Вставка закладки для главы с № примечаний.
4. Преобразование № примечаний в верхнем индексе по шаблону.
5. Удаление всех служебных закладок.
6. Интерактивное преобразование номеров примечаний в верхнем индексе по шаблону.
7. Нумерация выделенных абзацев.
И инструмент Генерация сносок или гиперссылоки инструмент Преобразование № примечаний в верхнем индексе по шаблонуактивно используют работу с буфером обмена (Cut, Paste) и реальным положением видимого курсора экрана! Поэтому, пока программа не завершит работу, ничего не делайте ни с мышкой, ни с клавиатурой!
Инструмент Преобразование № примечаний в верхнем индексе по шаблонуработает и с текстом, и с таблицами, т. е. цифра в верхнем индексе может преобразовываться в шаблонный вид и из ячеек таблиц. Врезки – игнорируются.
Инструменты Генерация сносок или гиперссылоки Нумерация выделенных абзацевработают только с текстом документа. Текстовые Врезки – игнорируются, т. к. OOoWrither не позволяет в них вставлять сноски. Таблицы тоже игнорируются (из-за сложности проверки выхода курсора за пределы Таблицы и некорректности получаемого результата).
Теперь – подробнее о каждом инструменте.
1. Генерация сносок или гиперссылок
Механизм работы Генератора Сносок и Генератора Гиперссылок одинаков. Различие состоит в том, что Генератор сносок перемещаеттекст примечания в сгенерированную сноску, а Генератор гиперссылок формирует из соответствующего места книги гиперссылку на нужное примечание, ничего не делая с самим текстом примечания.
Переключение между ними осуществляется с помощью «залипающих» кнопок.
А. Генератор сносок
Есть 2 основных режима генерации сносок: Простой и Сложный.
1.1. Простой режим генерация сносок (по шаблону)
Генерация сносок в этом режиме возможно в выделенных фрагментах текста(их может быть сколько угодно), либо во всем документе.
При запуске генерации сносок, если нет ни одного выделения в тексте, появится окно с вопросом, обрабатывать ли весь текст? Если нажать кнопку OK, то будет обработан весь документ. Если – Отмена, то работа остановится, и вы можете выделить нужные области текста. Если выделения есть, то программа ничего не запрашивает, а производит обработку всех этих выделений.
В каких случаях используется простой режим генерации сносок?
Очень часто источник цитаты или мысли, на которую ссылается автор книги, находится в скобках (круглых, квадратных и т. д.). А это как раз и есть «кандидат» на сноски.
Например, есть текст книги (Рыбаков, Язычество древней Руси):
К предметам, связанным с бытом волхвов, следует отнести находки неолитических кремневых орудий и стрел. Такая находка была сделана В. А. Городцовым в вятическом кургане у с. Барыбина. Исследователь сопоставил её с обычаем хоронить колдунов с «громовыми стрелами». (Городцов В. А. Археология. Каменный период. М., 1923, с. 77-78.) Обычно под громовыми стрелами подразумевают фульгуриты, но вполне вероятно, что к ним причисляли и изделия каменного века. Подобные находки есть и в других местах. Особый интерес представляет кремневый наконечник копья, найденный в Новгороде в слоях рубежа XIII-XIV вв. Кремень оправлен в серебро с чернью. М. В. Седова определяет дом, в котором найден этот талисман, как дом волхва, так как в его фундаменте зарыты 4 детских черепа. (Седова М. В. Амулет из древнего Новгорода. – Сов. археология, 1957, № 4, рис. 1. с. 166-167.) Наличие православного восьмиконечного креста на серебряной оправе говорит о любопытном синкретизме представлений этого колдуна-знахаря.
Запустив диалог Генерации сносок, выбираем « Простой режим генерации сносок (по шаблону)». А в нем – из выпадающего списка – шаблон для текста сносок (в нашем случае – это текст внутри круглых скобках). Нажав кнопку Сгенерироватьмы получаем текст, где вместо круглых скобок стоит очередная сноска, а в тексте сноски – текст из круглых скобок:
Этот текст содержит в скобках только ссылки на источники – книги. Но в реальных книгах после OCR встречается ситуация, когда в скобках (или других идентификаторах из шаблона) находятся не только ссылки на авторов книг, но и уточнения, пояснения… Если запустить Простой режим генерации сносок для всего документа, то и эти уточнения и пояснения тоже обработаются, как кандидаты на сноски. А это не то, что мы ожидаем. Для решения этой проблемы есть 2 пути.
1). Круглые скобки вокруг авторов книг заменить на фигурные, или другие идентификаторы из списка шаблона.