Список форумов
|
Добавить сообщение
|
Правила
| 24.11.2024, воскресенье, 05:38:30
Ответ на сообщение в форуме
"Проблемы OCR и электронных библиотек"
:
Обязательно заполните поле:
Ваше имя
Обязательно заполните поле:
Текст сообщения
Ваше имя:
Город:
Е-Маil:
Сайт:
> [23. Zmiy]. > > [22. Григорий]. > > А можно поделиться с общественностью ╚методикой╩? > > Ну-у... Если чуть-чуть... -------------;-) > > Я обрабатываю текст в FARе в формате TXT. Написал несколько программ и плугинов к FARу... > После FR сохраняю в TXT причем в вариантах с делением на строки и без деления, и сразу же ищу по тексту " - это мусор (кавычки обычно ╚ и ╩), далее одна из прог по этим двум текстам, анализируя их, делает один текст DOS-кодировки, где исправляются некоторые слияния знаков препинания, удаляются лишние пробелы, корректируются абзацы (поэтому два TXT) и др. > Далее по картинкам проверяю ВСЕ абзацы, объединяю страницы, делаю отступы глав, оформляю сноски... Вот самое нудное - проверка абзацев - ну вот FR все равно или склеивает их или разделяет, что ты с ним не делай... Хотя анализ из двух TXT немного исправляет это дело, но все же не все варианты... > Далее проверка текста. Один из плугинов по горячей клавише останавливается в том месте редактора, где есть какая-нить неопределенность в тексте. Тут проверяются знаки препинания (какие возможны, а какие нет - варианты типа .., не пройдут!); буквы искаженные в цифры или в англ.буквы; мусор из не-букв (типа &*%); слова неправильно распознанные и пропущенные FR при проверке (типа па, пего, опа, тапки, руной ... - уже 1000 слов таких насреблос); слова с больших букв (тоже "фича" от FR); после .!? новое предложение должно быть с большой буквы; слова с тире до/после слова; искажения типа "о вместо но, или "ад вместо над; а и но должны обычно после запятой; и др. > Другой плугин с небольшой прогой используется для поиска пропавших/искаженных точек/запятых и искаженных первых букв слова (по словарю проверяет текст - обычные слова с большой буквы только после .!? и т.д.). > > Вот... Все как есть выложил... ----------------:-) > По крайней мере качество на уровне обычной вычитки получается...
Сортировать форумы по возрастанию даты публикации?
(Использовать эту опцию не рекомендуется)