Список форумов
|
Добавить сообщение
|
Правила
| 27.11.2024, среда, 01:43:01
Ответ на сообщение в форуме
"Проблемы OCR и электронных библиотек"
:
Обязательно заполните поле:
Текст сообщения
Обязательно заполните поле:
Ваше имя
Ваше имя:
Город:
Е-Маil:
Сайт:
> [66. Вячеслав Сачков]. > > [65. pdf-библиотека]. > Платонова (то, что отсканировал впервые) Машкову. Он их всё ещё не выложил. В формате txt. Кроме того - послал Вадиму Ершову - он их уже выложил в doc. А у меня всё только в pdf. Таким образом, на трёх страницах лежит одно и тоже, но в трёх разных форматах. Остаётся сделать перекрёстные ссылки и работа закончена... > > Если признать библиотеку Машкова - главной, то необходимо, чтобы у него были самые разнообразные форматы файлов. Ведь классическая Библиотека - это собрание не текстов, а изданий. Об этом косвенно говорит Вадим. > Ваши случаи легкие. Это один и тот же текст, только под разными именами в разных форматах, что известно. А когда приходит не очень понятно, что, да под разными именами в разных форматах, то тут уже, действительно, черт ногу сломает. Кто-то при сканинге страницы пропускает/путает, кто-то названия перевирает, а сами-то тексты, как таковые, есть. Проблема выбрать из них лучший, хотя он и с дефектами. Но это может быть даже и вовсе не то, что в заголовке. Конкретный пример. Года 3 назад на philosophy.ru валялась ссылка на "Левиафан" Гоббса. Файл где-то на 700 килов. А внутри файла вовсе никакой не Гоббс, а современная развлекательная текстуля, которая тоже "Левиафан" называется. Библиотекарь выложил без проверки. Такое бывает. Ну, и пошел этот файл до людям множиться и гулять. Вот на какую проблему я указываю. А с тем, что Вы описываете, - ясно. Это-то без проблем.
Сортировать форумы по возрастанию даты публикации?
(Использовать эту опцию не рекомендуется)