Читаем Описание работы пакета OOoFBTools Создание книг FB2 полностью

Опция «Искать между цифрами» нужна для возможности включить/отключить поиск минуса, тире и дефиса между цифрами. Очень часто в книгах встречаются такие конструкции: 12-34, 1972-2010 и т. д. (В христианской литературе – это ссылка на стихи Библии, например, Мф. 5:1-8. В исторических книгах – это указание на отрезок времени. И т. д.). В таких книгах, как правило, минус, тире или дефис между цифрами – это не ошибка OCR, а норма. При вычитке инструмент часто находит такие цифры с дефисами, что утомляет. Чтобы пропустить эти «правильные» цифры и не тратить на них время нужно отключить опцию «Искать между цифрами».

Для поиска используется шаблон регулярных выражений: При включенной опции «Искать между цифрами»:

\‹[: alnum: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: alnum: ]+

При выключенной опции «Искать между цифрами»:

\‹[: alpha: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: alpha: ]+

Кнопка Вставить пробелы активна только для этого режима. При нажатии на ней, если найдено слово, содержащие дефис, минус или тире, то слева и справа от этого минуса, дефиса или тире ставятся пробелы. Это полезно для «слипшихся» слов и тире… Например, найдено слово «Ты – нет!». После нажатия кнопки Вставить пробелы, получаем «Ты – нет!», как и должно было быть.

В этом режиме поиска предусмотрена возможность Запоминать найденное «хорошее» дефисное слово (Кнопка Запомнить), и Редактировать файл списка этих дефисных слов (Кнопка Править). Слова «запоминаются» в. txt-файл words_defis_list.txt, который создается в папке config пакета OOo. Для Unix – подобных систем – это папка

/home/XXX/.openoffice.org3/user/config/OOoFBTools. Для Windows – это папка C: \Documents and Settings\XXX\Application Data\OpenOffice.org3\user\config\OOoFBTools, где XXX – ваш логин (имя пользователя).

Как это работает? Когда найдено очередное слово с минусом, неразрывным дефисом, дефисом или тире, то, чтобы инструмент не останавливался в следующий раз на этом же слове, его можно «Запомнить». И теперь оно будет «благополучно» пропускаться при поиске.

Предусмотрены защиты от «глупости»: слово не будет «запоминаться», если:

– нет выделения в тексте;

– выделено слово, не содержащее ни минуса, ни тире, ни дефиса, ни неразрывного дефиса;

– случайно пользователем выделено несколько абзацев.

Во всех этих случаях будет выдано соответствующее предупреждение.

При Правке файла списка дефисных слов (нажатие кнопки Править) файл words_defis_list.txt будет запущен в ассоциированном с расширением. txt в вашей системе текстовом редакторе. Лучше ассоциировать. txt с редактором, который поддерживает Unicode и корректно «видит» перевод строк (абзацы). В Windows notepad.exe для этого не подходит.

В Windows я пользуюсь Notepad++.exe.

Поиск слов, в которых абзац разорвал перенос (дефис, тире или минус)

Этот инструмент позволяет искать в документе разрыва дефисов и слов. Например:

«давным-¶», «из-¶», «пересмотре-¶». Если после знака переноса стоит один или пробелов, то такие слова тоже находятся. Например: «давным- ¶», «из- ¶», «пересмотре- ¶»

Обрабатывается и неразрывный дефис.

Для поиска используется шаблон регулярных выражений:

"\‹[: alnum: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "]$|\‹[: alnum: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: space: ]$"

Поиск обрыва абзаца на словах, знаках препинания, кавычках и скобках

Например, есть текст:

Это пример того, как можно «найти»¶

разрыв предложения на кавычках,¶

запятой, (тексте в скобках) ¶

что часто бывает нужно после OCR.

Еще пример:

Здесь – разрыв после пробела и тире -¶

А здесь – разрыв после 2-х пробелов, минуса и пробела – ¶

Для поиска используется шаблон регулярных выражений:

"\‹[: alnum: ]+$|\‹[: alnum: ]+[)}\],»”\"":;]$|\‹[: alnum: ]+[)}\]\.,»”\"":;]+[)}\],»”\"":;]$|[: space: ]+ [-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "]$" amp; "|[: space: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: space: ]+$"

Т.е. отлавливаются не только разрывы на запятых, скобках и словах, но и на минусе, тире и дефисах, слева от которых стоит 1 или более пробелов, а справа – ни один или множество пробелов (частая ошибка OCR).

Кнопка «Обработать» позволяем удалить разрыв предложения и вставить пробел.

Перейти на страницу:

Похожие книги

C++: базовый курс
C++: базовый курс

В этой книге описаны все основные средства языка С++ - от элементарных понятий до супервозможностей. После рассмотрения основ программирования на C++ (переменных, операторов, инструкций управления, функций, классов и объектов) читатель освоит такие более сложные средства языка, как механизм обработки исключительных ситуаций (исключений), шаблоны, пространства имен, динамическая идентификация типов, стандартная библиотека шаблонов (STL), а также познакомится с расширенным набором ключевых слов, используемым в .NET-программировании. Автор справочника - общепризнанный авторитет в области программирования на языках C и C++, Java и C# - включил в текст своей книги и советы программистам, которые позволят повысить эффективность их работы. Книга рассчитана на широкий круг читателей, желающих изучить язык программирования С++.

Герберт Шилдт

Программирование, программы, базы данных
Разработка приложений в среде Linux. Второе издание
Разработка приложений в среде Linux. Второе издание

Книга известных профессионалов в области разработки коммерческих приложений в Linux представляет СЃРѕР±РѕР№ отличный справочник для широкого круга программистов в Linux, а также тех разработчиков на языке С, которые перешли в среду Linux из РґСЂСѓРіРёС… операционных систем. РџРѕРґСЂРѕР±но рассматриваются концепции, лежащие в основе процесса создания системных приложений, а также разнообразные доступные инструменты и библиотеки. Среди рассматриваемых в книге вопросов можно выделить анализ особенностей применения лицензий GNU, использование СЃРІРѕР±одно распространяемых компиляторов и библиотек, системное программирование для Linux, а также написание и отладка собственных переносимых библиотек. Р

Майкл К. Джонсон , Эрик В. Троан

Программирование, программы, базы данных
Adobe InDesign CS3
Adobe InDesign CS3

Книга посвящена верстке и макетированию в программе Adobe InDesign CS3. Помимо того что в ней описываются возможности программы, рассматриваются также принципы и традиции верстки, приводятся примеры решения типичных задач. Все это позволит читателю не только овладеть богатым инструментарием программы, но и грамотно применять его.Материал книги разделен на логические части: теоретические сведения, инструментарий программы, решение задач, – а также рассчитан на два уровня подготовки читателей – начинающих и опытных пользователей, что выгодно отличает книгу от других изданий. Это позволит применять ее как новичкам для знакомства с программой, так и пользователям со стажем для пополнения своих знаний.

Владимир Гавриилович Завгородний , Владимир Завгородний

Программирование, программы, базы данных / Программное обеспечение / Книги по IT