Список форумов
|
Добавить сообщение
|
Правила
| 26.11.2024, вторник, 19:48:21
Ответ на сообщение в форуме
"Проблемы OCR и электронных библиотек"
:
Обязательно заполните поле:
Ваше имя
Обязательно заполните поле:
Текст сообщения
Ваше имя:
Город:
Е-Маil:
Сайт:
> [218. Вячеслав Сачков]. > > [217. Metrodor]. > > > Особенно интересна последняя часть, примечания, где осталось большое количество ошибок распознавания. Так что принципы, которые формулируют для себя добровольные сканировщики и ocr щики, пока остаются недостижимыми для реальных библиотек (Slava Alexeew: ╚Могут сказать, что я - нудный. Hе согласен - электронные версии следует стараться отлизать: они будут доступны очень большому числу людей. Да и сами OCR + корректура - нудные дела в принципе╩, см.
http://www.fido-online.com/x/_-0?Msg?5&1739&239&a12
> Теза на 99% имеет дело с априори вычитанными текстами. Т.е. 99% содержания фэхи "бук" - наколоченная на клавах фидошная графомания, определение "вычитка" к которой вовсе не применимо. А всего по его собственному публичному признанию у него по объему где-то столько же текстов, сколько здесь, т.е. approx. 36 gb. Но это все теория и абстракция, а реальность - тексты, "выдаваемые народу" в онлайне и оффлайне. Все признают, что здесь важнейший вопрос не вычитка, а выборка, отбор. Невооруженным взглядом видно, что в rsl (нац. сет. б-ка) введенный мною принцип отбора был заложен с двумя существенными отличиями, раскрывать которые не буду, но sapienti sat. Алексеев сам чешет репу сейчас насчет рубрикации и, судя по всему, чесать будет долго. Мне остается пожелать ему в этом только всяческих успехов, но упоминание его в контексте нашего флейма неуместно. Его проблемы все же не те, которые обсуждаются здесь.
Сортировать форумы по возрастанию даты публикации?
(Использовать эту опцию не рекомендуется)