Список форумов
|
Добавить сообщение
|
Правила
| 24.11.2024, воскресенье, 05:31:21
Ответ на сообщение в форуме
"Проблемы OCR и электронных библиотек"
:
Обязательно заполните поле:
Текст сообщения
Обязательно заполните поле:
Ваше имя
Ваше имя:
Город:
Е-Маil:
Сайт:
> [4. V.Voblin]. > Вот problema, например. > > Новая книга Терри Пратчетта. > > Часть текстов написана фигурным, о~ень нестандартным шрифтом "Hebrew Condensed". > > Этот шрифт латинский, но стилизован под еврейский. Человек прочтёт его легко. OCR-у гораздо труднее. > > У ФайнРидера вроде есть механизм распознавания шрифтов и даже возможность обучения новому шрифту. > > НО! > > Эти куски текста - особым шрифтом - это маленькие вставки в основной текст, набранный обычным Times New Roman. Поэтому процесс обучения, ккоторому юзер имеет доступ, происходит очень медленно и коряво. Отпадает желание так тяжело пахать ради одной книжки. > > Вдобавок - даже если и делаешь эту работу - после OCR исчезает особость этого шрифта в выходном файле. Ведь OCR не знает, что точнёхонько такой же фонт установлен в моих Windows. > > Файнридер всё прекрасно делает, когда речь идёт о трёх главных фонтах - Times, Arial, Courier. Они распознаются независимо от размера букв и сохраняются в выходном файле. > > Внимание, вопрос. > Нет ли в Файнридере (скрытой?) фичи - обучение распознаванию на основе дополнительного фонта TTF, а не набора "пиксельных" трафаретов одного размера ?
Сортировать форумы по возрастанию даты публикации?
(Использовать эту опцию не рекомендуется)