Список форумов
|
Добавить сообщение
|
Правила
| 24.11.2024, воскресенье, 05:42:39
Ответ на сообщение в форуме
"Проблемы OCR и электронных библиотек"
:
Обязательно заполните поле:
Текст сообщения
Обязательно заполните поле:
Ваше имя
Ваше имя:
Город:
Е-Маil:
Сайт:
> [44. A.E.]. > [Система распределенной вычитки текстов после OCR - перспективна?] > > Отсканить текст - не проблема. По появлении некоторых навыков это делается автоматически (одновременно с просмотром телевизора :) и две-три сотни разворотов за вечер осилить можно. Но потом их надо вычитать - и это (по моему опыту) 85% от всех трудозатрат на перевод текста в электронный вид. > > Использование всяких общедоступных спелчекеров и персонально созданных программ - эффект дает не слишком высокий (надеюсь, пока) и текст, вычитанный глазами все-таки IMHO заметно "чище", чем тот, что "причесали" автоматизированно. Плюс к этому - смысловые ошибки, кои только головой и можно поймать (в коллекцию приколов ФайнРидера: "Солнце бросало отблеск на яйца моряков"... разумеется - "на лица" :) > > Возможным выходом может служить система, при которой на одного сканящего приходится несколько вычитывающих - она работает, но требует сложной организации (FTP, пересылка объемистых tif`ов и четкая координация). Как вариант такой системы меня очень заинтересовал вот этот сайт: > >
http://texts01.archive.org/dp/
> > Мое знание английского ("матерюсь со словарем":) не позволяет всесторонне оценить найденное. Вот что пишет человек, с "подачи" которого я туда попал: > > ------------- цитата ---------------------------- > Желающие принять участие в этом проекте выбирают кусок работы, размером в одну страницу, система загружает им отсканированую картинку страницы из книги и рядом с ним или под ним окно для ввода текста, в котором уже загружен текст распознаный OCR программой. Задача добровольца вычитать текст, это весьма напоминает процес вычитки в FR, но менее удобно так как картинка страницы не синхронизирована с текстовым окном и ее приходится скролинговать в ручную. К тому же нет выделением цветом мест в точности распознания которых OCR не уверен. > Зато чтобы принять участие в этом благом деле теперь не надо иметь ни сканер, ни специальные знания, ни тратить на это много времени - даже если делать одну страницу в день (5 минут для ненабившего руку) это все равно будет не малый вклад 300-350 страниц в год. Людей готовых потратить столько времени на это дело гораздо больше чем готовых в одиночку делать целую книгу, тем более большую. > Каждая страница вычитывается как миниум дважды разными людьми плюс координатор книги просматривает помеченые ими места, где например невозможно разобрать текст. > Что бы дать представление о возможностях этого подхода я дам статистику с их сайта с начала ноября этого года они делали более не менее стабильно около 1000 страниц в день, после того как 4 дня назад о них написал крупный новостной сайт slashdot.org они начали делать больше 10 000 страниц в день, сделав больше 15 тысяч в день аннонса. Похоже за этот месяц они сделают больше по объему чем выложенно книг во всех православные интернет библиотеки в руннете вместе взятых." > ... > Похожая система уже достаточно давно действует и на сайте CCEL: >
http://ccel.org/help/facsim/
, а вот как их система выглядит в действии
Сортировать форумы по возрастанию даты публикации?
(Использовать эту опцию не рекомендуется)