Одна из загвоздок в том, что распознанный и не распознанный текст, порой глядя на экран внешне практический не чем не отличается. И в том, и в том видны буквы, и тот и другой иногда даже можно разными способами скопировать. Да и некоторые форматы (файлы) могут содержать одновременно как текст, так и картинку текста. Но все же разница между ними существенна. Не распознанный текст — это просто картинка. Буквы, так сказать, в ней зафиксированы как на обычной фотографии. Что-либо дописать, а тем более изменить, в таком тексте (без доп. обработки) крайне сложно. Единственным его преимуществом есть то, что он безошибочно отражает все, что было сфотографировано или сканировано. Если это хорошее качество, то видны все галочки, точечки, отступы, рисунки, формулы и многое другое. Поэтому сканированный текст так важен, если в сканированной книге много разных сложных элементов. В принципе на этом преимущества сканированных картинок перед тем же, но распознанным текстом заканчиваются. Дальше идут одни недостатки. Это и больший размер документа (чем распознанный) и не удобство работы с ним и многое другое. Но опишу те же недостатки, в виде преимуществ распознанного текста перед не распознанным.
5 преимущества распознанного (так называемого
OCR
текста):
От части те же преимущества были указаны и в подразделе «8 преимуществ которые дают цифровые книги.» поэтому просто напомню.
1 – малый размер,
2 – более простая возможность редактирования,
3 – удобное иногда автоматическое добавления закладок,
4 – поиск по тексту (который не возможен, если текст является картинкой),
5 – одно из самых главных преимуществ, которым многие пока не пользуются, является возможность прослушать текст с помощью синтезаторов речи. Я так переслушал массу книг. Конечно, на этом преимущества распознанных текстов не кончаются, но это для меня 5 основных.
Таким образом, чтобы проработать книгу мне не раз приходилось её либо сканировать или фотографировать, либо уже сканированные скачанные с интернета книги переводить в понятные компьютеру буквы, а не фотографии букв, видных лишь на экране. Хотя благо в интернете все больше появляется хорошо проработанных книг, в которых есть сам текст, а не только его фотография или изначально цифровых. Тем не менее, как уже писал, достаточно много людей не умеют, или не хотят пользоваться данными возможностями, не смотря на все их преимущества. Но это уже другая социальная проблема, которую уже рассматривал ранее, но постараюсь на ней еще остановиться. Так же в другой статье более подробно рассмотрю разницу между распознанным и не распознанным текстом, но уже так сказать глазами ЭВМ.
Код буквы и картинки – книга глазами ЭВМ.
В прошлой статье мною затронута тема удобства использования электронных книг. В этой для большего понимания возникновения таких преимуществ постараюсь, очень приблизительно, описать саму суть различий рисованного текста и распознанного. Как я это понимаю, но так сказать глазами ЭВМ.
Распознанный или набранный на компьютере текст, представляет совой векторные символы.
Грубо говоря, это линии как на графике, описанном какой-либо формулой. Но именно в данном случае наверно целесообразнее назвать его кодом, т.к. сами картинки линий в виде крохотных рисунков записаны отдельно и их роль не существенна, т.к. при каждой новой букве, исходя из её кода, отображается один и тот же рисунок. Т.е. для того что бы отобразить все буквы «а» в тексте компьютер использует один маленький рисунок самой буквы «а». Один для всех букв (если её формат одинаков).
А сама буква записана в виде очень короткого кода в виде нуля и единиц. К примеру: буква «а» в таком коде будет представлять собой вот такую последовательность сигналов «11010000» в кодировке ISO 8859-5. Единица, как известно это присутствие сигнала, а «0» его отсутствие. И того получается, что бы компьютер понял одну букву ему достаточно 8 сигналов.
Теперь разберем растровые (точки) картинки.