Читаем The Ebook. Книга об электронных книгах полностью

Профессиональные сканеры имеют большие габариты, скорость работы и отличаются методом сканирования.

«Планетарные сканеры» — это оптическая копия с помощью одной или нескольких фотокамер. Называются так из-за расположения камеры, как спутника над планетой, которой является сканируемый оригинал. Некоторые модели сканеров могут использовать две камеры, чтобы одновременно делать копию разворота страниц.

Компания Atiz выпускает популярную серию сканеров BookDrive, которые похожи скорее на небольшую фотостудию. Отличаются размером основной площадки, на которую помещается оригинал. Можно оцифровать газету или книгу, которые располагаются на основе под углом 90° между листами, а камеры направлены перпендикулярно в сторону каждого раскрытого листа, чтобы сохранить геометрию страницы без искажений.

Серия планетарных сканеров Microbox book2net от компании Xerox имеют одну площадку, где издание одним листом располагается на основании, а оптический прибор фотографирует только одну страницу или разворот, при том, что он должен быть максимально плоским, чтобы избежать теней на корешке.

Роботизированные сканеры имеют крупные габариты, обычно это готовый набор в шкафу, в котором есть все необходимое для автоматического сканирования целого издания — свет, оптический сканер, система для перелистывания страниц, компьютер для управления и узкоспециализированные сервисные функции. Сканируемое издание располагается под меньшим углом. Для увеличения производительности осуществляется съёмка сразу двух страниц разворота.

Компания Treventus уже несколько лет выпускает роботизированные сканеры ScanRobot, которые за короткое время могут оцифровать целые библиотеки при минимальном участии человека. Лицевая часть сканера может закрываться во время работы, чтобы исключить паразитную засветку от внешних источников света.

Планетарные и роботизированные сканеры работают с производительностью от 500 страниц в час, а лучшие модели способны сканировать на скорости до 3000 страниц в час.

После сканирования изображения с оригинальной страницы необходимо распознать текст и иллюстрации. Для этой цели понадобится специальное программное обеспечение, способное оптически и логически распознавать объекты в изображении. Сложность распознавания заключается в форме букв оригинала, контрастности изображения, наличия цветовых подложек, рисунков или сложной структуры вёрстки. В момент распознавания происходят типовые проблемы и ошибки для конкретного оборудования и программного обеспечения, которые специалист по OCR попытается компенсировать с помощью скриптов и проверки орфографии.

Скрипты — это самодельная надстройка для исправления ошибок. Именно подобное отношение отличает разных специалистов к качеству распознавания текста. Скрипты создают специалисты OCR для личного использования, и они актуальны только для личного метода распознавания текста и используемого оборудования. Подчистка текста нужна не только для исправления вероятных грамматических ошибок, но и для задания тексту базовой типографики.

Для автоматизации первичной очистки текста, можно рекомендовать программу OCR Pad от Валерия Войцеховского.

Компьютерными технологиями не ограничивается точность распознавания. Очень важную роль играют корректоры, которые считывают текст и сверяют его с оригиналом. Это очень важно, особенно для технической литературы.

Для ускорения процесса редактирования текста используется «распределённый метод» — части документа распределяются между группой корректоров. Этот способ позволяет вычитать книгу полностью за несколько минут, но не всем под силу организация такого процесса. Обычно используется веб-интерфейс, без необходимости устанавливать дополнительное программное обеспечение на множество компьютеров.

Для вычитки текста не обязательны профессиональные лингвисты. Обычно этим занимаются люди, наделённые вниманием и наблюдательностью. Важна не столько грамотность, сколько умение сравнивать печатный и электронный текст между собой, замечать разницу в технических опечатках, разницу между буквами и цифрами.

Художественная литература может считываться только для поиска орфографических ошибок.

В «OCR мастерских» небольшого размера «работают» парами. Обычно специалист по OCR является организатором процесса и сотрудничает с одним или группой корректоров. Группа существует на особом сочетании характеров и возможностей. При переходе к другому типу распространения готовых электронных книг, «мастерская» может распадаться, часть группы придерживается идеологических взглядов на свою деятельность.

В момент зарождения электронных книг, OCR-щики первыми протоптали дорожку для читателей к бесплатным библиотекам и собрали для них контент. Если библиотеки известны массовому читателю, то наполняли эти библиотеки не магазинные копии книг, а частные коллекции OCR.

Перейти на страницу:

Похожие книги

Черная Книга
Черная Книга

"В конце 1943 года, вместе с В. С. Гроссманом, я начал работать над сборником документов, который мы условно назвали "Черной Книгой". Мы решили собрать дневники, частные письма, рассказы случайно уцелевших жертв или свидетелей того поголовного уничтожения евреев, которое гитлеровцы осуществляли на оккупированной территории. К работе мы привлекли писателей Вс. Иванова, Антокольского, Каверина, Сейфуллину, Переца Маркиша, Алигер и других. Мне присылали материалы журналисты, работавшие в армейских и дивизионных газетах, назову здесь некоторых: капитан Петровский (газета "Конногвардеец"), В. Соболев ("Вперед на врага"), Т. Старцев ("Знамя Родины"), А. Левада ("Советский воин"), С. Улановский ("Сталинский воин"), капитан Сергеев ("Вперед"), корреспонденты "Красной звезды" Корзинкин, Гехтман, работники военной юстиции полковник Мельниченко, старший лейтенант Павлов, сотни фронтовиков.Немало времени, сил, сердца я отдал работе над "Черной Книгой". Порой, когда я читал пересланный мне дневник или слушал рассказ очевидцев, мне казалось, что я в гетто, сегодня "акция" и меня гонят к оврагу или рву..."Черная Книга" была закончена в начале 1944 года. Наконец книгу отпечатали. Когда в конце 1948 года закрыли Еврейский антифашистский комитет, книгу уничтожили.В 1956 году один из прокуроров, занятых реабилитацией невинных людей, приговоренных Особым совещанием за мнимые преступления, пришел ко мне со следующим вопросом: "Скажите, что такое "Черная Книга"? В десятках приговоров упоминается эта книга, в одном называется ваше имя".Я объяснил, чем должна была быть "Черная Книга". Прокурор горько вздохнул и пожал мне руку".Илья Эренбург, "Люди, годы, жизнь".

Суцкевер Абрам , Трайнин Илья , Овадий Савич , Василий Ильенков , Лев Озеров

Документальная литература / Приключения / Современная русская и зарубежная проза / Фантастика / Современная проза