Список форумов |  Добавить сообщение |  Правила |  27.11.2024, среда, 01:36:06
СПИСОК ФОРУМОВ
27.11.2024
01:31 Главная гостевая книга библиотеки(3671)
24.11.2024
16:42 "Разыскиваются книжки", доска объявлений(15475)
20.11.2024
11:47 Обо всем - мнения(3131)
07:16 Русские впечатления о заграничной жизни(9431)
01.10.2024
13:10 Проблемы OCR и электронных библиотек(1967)
09.09.2024
04:35 Книжки, которые скоро будут выложены(47)
06.05.2024
02:06 О возвышенной поэзии(1568)
02.02.2024
15:33 Книжки, которые стоит прочитать(5187)
12.11.2023
00:25 Мнения читателей о дизайне библиотеки(1478)
Lib.Ru

Проблемы OCR и электронных библиотек
Тема форума: В этом форуме обсуждаются общие проблемы связанные с поддержкой электронных библиотек и сканированием книг.

А так же обсуждение статьи Вадима Ершова "О коллективных сайтах"

Отсортировано по [убыванию] [возрастанию]   

СООБЩЕНИЯ ЗА 23.11.2002
42. Максим Мошков, 13:09:45 [ответить]
      > 41. Вячеслав Сачков.
      > проблема тугих переплетов? Дык книжачки можно аккуратненько расшить и переплести по-новой. Такая вещь широко практикуется.
     
      Книжечку 19-го века расшивать вряд ли позволят. Я уж не говорю об евангелиях 16-го века, которые открыть лишний раз - страшно.
      Библиотекари даже просто светить сканерной лампой на бумагу боятся - вдруг она пожелтеет и рассыпется от этого на 40 лет раньше, и изыскивают экзотические сканеры со слабым светом, с зеленой лампой, и т.п. экзотику (за бешенные деньги). В общем - есть проблемы, есть...
     
      > 40. Григорий.
      > по соотношению цена/эффективность действия (в нашем конкретном случае - ч/б сканирование) равных дешевым скази планшетникам нет.
     
      Не вопрос, все верно. По цене, эффективности - да.
     
      Речь идет о некоторых видах использования, где этот "народный" вариант - "не катит".
      А именно - редкие, старые книги, тугая ветхая обложка: решение - Сканер-"Гусь" (10,000-25,000$)
     
      Места, библиотеки, из которых невозможно вынести книгу, а со своим планшетным сканером не пустят: решение - цифровая фотокамера с 4-5Mpix (500-1000$)
     
      Или когда надо сканировать очень много: решение - промышленный сканер с разрезалкой (30,000-100,000$)


41. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:49:35 [ответить]
      1. А к чему си мудрости-премудрости со сканом под углом 90? В FR есть простенькая штучка, называется постраничное сканирование. Правда, на каждой страничке приходится лишний раз давить на мыша, но это не вагоны с дровами разгружать по тяжести процесса. Все дела. Или имеется в виду проблема тугих переплетов? Дык книжачки можно аккуратненько расшить и переплести по-новой. Такая вещь широко практикуется. Если это не шибко редкая и ценная книга, то я не вижу тут никаких вопросов.
      2. Кто-нибудь в курсе, какие дела с сайтом "Словесник" (www.slovesnik.ru). Была такая чудная-прекрасная библиотека, потом на нее налегли, извиняюсь за выражение, представительницы перекрасного полу и сделали из домена нечто суперпошлое и -похабное. Дальше-то как?


СООБЩЕНИЯ ЗА 22.11.2002
40. Григорий, Ярославль 00:06:52 [ответить]
      > 39. Максим Мошков.
      > > 38. Григорий.
      > > Только сканер такой сканер дорого стоит.
      >
      > A ты сверху цифровой фотоаппарат на штативе прикрути и лампу галогеновую, для равномерного освещения.
      >
      > Конечно, подороже обойдется, чем обычный планшетник - но ведь подешевле, чем те монстры, что у Перли стоят или у elibron'а.
     
      Мысль хорошая. Только мне кажется, что по соотношению цена/эффективность действия (в нашем конкретном случае - ч/б сканирование) равных дешевым скази планшетникам нет. Однако, я могу и ошибаться.


СООБЩЕНИЯ ЗА 21.11.2002
39. Максим Мошков, 00:49:16 [ответить]
      > 38. Григорий.
      > Только сканер такой сканер дорого стоит.
     
      A ты сверху цифровой фотоаппарат на штативе прикрути и лампу галогеновую, для равномерного освещения.
     
      Конечно, подороже обойдется, чем обычный планшетник - но ведь подешевле, чем те монстры, что у Перли стоят или у elibron'а.


СООБЩЕНИЯ ЗА 20.11.2002
38. Григорий, 18:04:23 [ответить]
      > Смысл этой штуки элементарен - ставится деревянная подставка-уголок, градусов на сто, в него вкладывается книга - полураскрытая, и уголок сперва одной стороной прижимают к горизонтали, а затем - другой. А сканер, естественно, с верхним с'емом (вроде фотоувеличителя по виду)
     
      Только сканер такой сканер дорого стоит.


37. Максим Мошков, 13:47:17 [ответить]
      > 32. Григорий.
      > В ленинке есть такая штука, позволяет сканить книги разворачивая только 90 град. Но больше такой штуки в России наверно нет.
     
      Вообще-то такую штуку любой столяр выпилит и склеит из мебельного щита и нескольких дверных петель. За полдня и за тысячу рублей.
     
      Смысл этой штуки элементарен - ставится деревянная подставка-уголок, градусов на сто, в него вкладывается книга - полураскрытая, и уголок сперва одной стороной прижимают к горизонтали, а затем - другой. А сканер, естественно, с верхним с'емом (вроде фотоувеличителя по виду)
     
      Что до использования цифровых фотоаппаратов для перес'емки и OCR книг - то действительно, особых проблем с их использованием не будет.
     
      Новые модели 4М-пиксельных (2270x1700) фотокамер начинаются от 450$.
      Из них я себе присмотрел Nikon CoolPix 4300 за 510$
     
      http://guru.yandex.ru>http://guru.yandex.ru - на выбор около десятка предлагает по ценам 450-650$.
     
      Цена 256Мб компактфлэшки - 80$ (ее хватит на 100-200 снимков)
      512Мб - 150$
     
      MicroDrive 1Gb - 450$
     
      Таким образом вполне работоспособный комплект для мобильной перес'емки книг можно собрать сейчас за 600$


36. Соколов, Н.Новгород (sokolov_av@pochtamt.ru) 11:20:22 [ответить]
      > 31. Zmiy.
     
      Когда я оценивал необходимое разрешение для цифрового фотоаппарата (планировал когда-то взять - удобно для работы вне дома), то в принципе для одной страницы (125х200) достаточно разрешения 2048х1536 (это примерно 250-300 dpi). Приемлемое качество и при 1600х1280. Сейчас есть и на 4096х3072, но стоят они, увы, бешеные бабки. А у дешевых (порядка до 300$) разрешение до 1280х1024.
      А насчет ручных сканеров: требуемое поле сканера не менее 4,5 дюймов (лучше 5), чтоб работать без учета перекрытия. У большинства же ручных сканеров это поле - 4 дюйма. Вторая проблема - нужно иметь два связанных ролика (они отсчитывают расстояние, кстати мнение о том, что ручные сканеры тянут связано с тем, что встроенный процессор при быстром движении не успевает обработать данные в кэше и некоторые линии удаляются) - до и после лампы, иначе возникают проблемы на краях листа. Еще одно требование - ширина от боковых границ сканера до лампы не должна превышать 0,4 дюйма, а опять же большинство сканеров имеют 0,5 и выше.
      Кстати, есть строчные сканеры типа С-Pen. Но это для любителей.
      HP CapShare 910/920 имеет малую ширину - 4 дюйма и дорог.
      А насчет того, что сканер в Ленинке один - я думаю, что остальные подобные не являются общедоступными.


35. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:59:08 [ответить]
      1. Гнустные типы в FR не сделали такой фичи типа сдвоенного русско-немецкого словаря на вычитку, а латинский изволь сам делай ручками. В гайде они написали, как ручками сдвоенные словари делать. Но это мудренее талмуда. И как жить сирым убогим крестьянам? Просто достало латинские слова в английский словарь сувать. Да и не дело это совершенно.
      2. В 6-м FR-e еще такая гаисть. Идет, допустим, нормальный русско-английский текст. Встречается немецкая фраза с умляутами или французская со значками ударения вправо-влево. Вызываешь, есесьно, соответствующий словарь, а он выдает словоформы без над/подбуквенных значков, и хучь ты убейся. Самое обидное при этом то, что ручками соответствующий символ, как в ворде, не вставишь, запоминай это место, возвращайся к нему при вычитке потом. А в 5-м FR словоформы с умляутами выдавались пучком. Апгрейдеры недорезанные...


СООБЩЕНИЯ ЗА 15.11.2002
33. Abolin, 10:59:46 [ответить]
      > Цифровые фотоаппараты не подходят для OCR - у них слишком малое разрешение...
     
      Ну, смотря какие аппараты...
     
      Вот, почитайте - http://forum.ixbt.com/0020/003448.html>http://forum.ixbt.com/0020/003448.html


СООБЩЕНИЯ ЗА 14.11.2002
32. Григорий, Ярославль 01:41:28 [ответить]
      > 30. Евгения.
      > У нас стоит проблема оцифровки редкого фонда, книги
      > довольно старые, мы переживаем за их состояние
      > после сканирования. Посоветуйте, каким образом лучше оцифровывать текст? Если сканером, то каким? А может лучше цифровым фотоаппаратом?
     
      В ленинке есть такая штука, позволяет сканить книги разворачивая только 90 град. Но больше такой штуки в России наверно нет.


СООБЩЕНИЯ ЗА 13.11.2002
31. Zmiy, Минск (zmiy@inbox.ru) 12:11:09 [ответить]
      > 30. Евгения.
      > У нас стоит проблема оцифровки редкого фонда, книги
      > довольно старые, мы переживаем за их состояние
      > после сканирования. Посоветуйте, каким образом лучше оцифровывать текст? Если сканером, то каким? А может лучше цифровым фотоаппаратом?
     
      Цифровые фотоаппараты не подходят для OCR - у них слишком малое разрешение...
      Я слышал, что у нас в Нац.Биб-ке Беларуси какие-то редкие старые книги оцифровали... Попробуйте с ними связаться и уточнить такие вопросы (см. контакты на http://natlib.org.by/>http://natlib.org.by/).
      От себя - можно пробовать планшетным (ну не рвать же книги!) или ручным сканером... Ну а в крайнем случае, если там картинки, то набрать текст вручную, а картинки уж фотоаппаратом...


30. Евгения, Иваново (janestar@yandex.ru) 10:10:21 [ответить]
      У нас стоит проблема оцифровки редкого фонда, книги
      довольно старые, мы переживаем за их состояние
      после сканирования. Посоветуйте, каким образом лучше оцифровывать текст? Если сканером, то каким? А может лучше цифровым фотоаппаратом?


СООБЩЕНИЯ ЗА 12.11.2002
29. Соколов, Н.Новгород (sokolov_av@pochtamt.ru) 10:15:47 [ответить]
      > 15. Zmiy.
      > Вопрос ко всем :
      > Q: У кого какой сканер, его цена и скорость сканирования в час для разворота книжки обычного(самого распространенного) формата?
     
      У меня Primax Colorado Direct 4800 (LPT) 1997 г. Цена была 200$. Скорость 350 обычных (125х200) стр. в час. Выбирал месяца два. Сейчас, правда, уже совершенно не катят цветные изображения (5 лет работы все-таки). И у меня есть новый Epson 1250 (USB) для них (черно-белый, увы, на нем не катит). А LPT был выбран для переносимости - USB тогда не было.
     
      А в принципе, максимальная скорость - 400 обычных стр. Больше уже чересчур хлопотно.
     
      А насчет вычитки: я, как и Григорий, уже 3 года как разочаровался во всех spellcheck'ерах и программухах и гоню все как TXT с сохранением формата. Сначала, правда, пытался составить список стандартных ошибок FR, но где-то на 500-й плюнул. Причем в FR отслеживаю только выделения и правильность выделения абзацев. Все остальное можно сделать и в Word'е.
     
      На счет заглавных букв добавлю "Д" и то, что они появляются при перекосе, согласен.


28. Кир Санов, Кемерово (rabbi-t@kemcity.ru) 06:49:53 [ответить]
      имеюца отсканированные буки. треба окаэрщика. оп всем вопросам на мыло.
     
      Кюртис - Молодожены
      У. Фолкнер - Деревушка (Поселок)
      Э. Ионеско - Лысая певица
      П. Лэне - Кружевница
      Ле Клезио - Мондо
      З. Ленц - Урок немецкого
      А. Мердок - Дитя слова
      Э. Олби - Что случилось в зоопарке
      Ж. Перек - Вещи
      Ф. Саган - Немного солнца в холодной воде
      Н. Саррот - Детство
      Триоле - Луна-парк. Розы в кредит.
      Э. Тайле - Обед в ресторане "Тоска по дому"
      Данные книги снанились для сдачи экзамена по истории зарубежной литературы на старших курсах филфака и ргф. распознав их, вы поможете очень многим людям, впрочем возможно и себе, так как некоторые книги очень редки.
      Далее учебники:// 1. Galperin I.R. Stylistics of English Language (уже почти весь распознан)
      2. Иванова, Чахоян - История английского языка
      3. Зражевская, Гуськова - Трудности перевода общественно-политического текста с англ. яз на русский.
      4. Брайент Дж. Кретти - Психология современного спорта.
      В общем, отцы и дети OCR, не поленитесь :)


СООБЩЕНИЯ ЗА 11.11.2002
24. Григорий, Ярославль 01:46:19 [ответить]
      > 23. Zmiy.
      > > 22. Григорий.
      > > А можно поделиться с общественностью ╚методикой╩?
      >
      > Ну-у... Если чуть-чуть... -------------;-)
      >
      > Я обрабатываю текст в FARе в формате TXT. Написал несколько программ и плугинов к FARу...
     
      > Вот... Все как есть выложил... ----------------:-)
      > По крайней мере качество на уровне обычной вычитки получается...
     
      Думал над чем-то таким же...
      Но пришел к выводу, что раз все равно контроль человеческий нужен, то в качестве облегчителя работы использую только свору банальных поисков\замен наработанных. Кстати, фирменная "штучка" ФР - большие буквы - проявляется только при наличии маломальского перекоса страницы >2', и затрагивает только буквы Э и З. По крайней мере у меня.


СООБЩЕНИЯ ЗА 10.11.2002
23. Zmiy, Минск (zmiy@inbox.ru) 22:17:00 [ответить]
      > 22. Григорий.
      > А можно поделиться с общественностью ╚методикой╩?
     
      Ну-у... Если чуть-чуть... -------------;-)
     
      Я обрабатываю текст в FARе в формате TXT. Написал несколько программ и плугинов к FARу...
      После FR сохраняю в TXT причем в вариантах с делением на строки и без деления, и сразу же ищу по тексту " - это мусор (кавычки обычно ╚ и ╩), далее одна из прог по этим двум текстам, анализируя их, делает один текст DOS-кодировки, где исправляются некоторые слияния знаков препинания, удаляются лишние пробелы, корректируются абзацы (поэтому два TXT) и др.
      Далее по картинкам проверяю ВСЕ абзацы, объединяю страницы, делаю отступы глав, оформляю сноски... Вот самое нудное - проверка абзацев - ну вот FR все равно или склеивает их или разделяет, что ты с ним не делай... Хотя анализ из двух TXT немного исправляет это дело, но все же не все варианты...
      Далее проверка текста. Один из плугинов по горячей клавише останавливается в том месте редактора, где есть какая-нить неопределенность в тексте. Тут проверяются знаки препинания (какие возможны, а какие нет - варианты типа .., не пройдут!); буквы искаженные в цифры или в англ.буквы; мусор из не-букв (типа &*%); слова неправильно распознанные и пропущенные FR при проверке (типа па, пего, опа, тапки, руной ... - уже 1000 слов таких насреблос); слова с больших букв (тоже "фича" от FR); после .!? новое предложение должно быть с большой буквы; слова с тире до/после слова; искажения типа "о вместо но, или "ад вместо над; а и но должны обычно после запятой; и др.
      Другой плугин с небольшой прогой используется для поиска пропавших/искаженных точек/запятых и искаженных первых букв слова (по словарю проверяет текст - обычные слова с большой буквы только после .!? и т.д.).
     
      Вот... Все как есть выложил... ----------------:-)
      По крайней мере качество на уровне обычной вычитки получается...


22. Григорий, 15:08:53 [ответить]
      > 21. Zmiy.
     
      > У меня своя методика "вычитки", основанная на правилах русского языка и на выявленных недостатках FR, который может сделать "в бой пошли тапки и самолеты" и при проверке пропустит эту лажу...
     
      А можно поделиться с общественностью ╚методикой╩?
      Я предпочитаю читать вообще. В смысле - и не скучно и польза, и для души. Размеренно вчитываюсь в каждое слово, особо не торопясь.
      Чистым просмотром обрабатываю только те, которые надо сделать, а читать либо невыносимо, либо нет никакого желания. А стихи все равно приходится полностью вручную, постоянно сверяясь с оригиналом.
      А FR, особенно четвертый, можно использовать в качестве генератора ╚гэгов╩.
      Как, например, такое ╚осеняя себя крестным знамением из церкви выбежали нацисты╩.
      Были конечно ╚паписты╩.


21. Zmiy, Минск (zmiy@inbox.ru) 12:38:34 [ответить]
      > 18. Григорий.
      > Без вычитки конечно обойтись можно. Но такие поделки на бестлибрари даже просматривать противно. Лучше уж никак.
      > Потому маньяки вроде нас и существуют как вид, что контролировать все равно должен человек.
     
      А вот я признаюсь - я не вычитываю книжки... -------------;-)
      У меня своя методика "вычитки", основанная на правилах русского языка и на выявленных недостатках FR, который может сделать "в бой пошли тапки и самолеты" и при проверке пропустит эту лажу...
      Было вычитано чтением где-то около 5 книг, где книжки были просто в ужасном состоянии и методика не прошла...
      По крайней мере у мя качество вычитки намного лучше большинства тутошних (интернетных) текстов. Хотя и у меня есть ошибки...
      Тем более, что я брал несколько инетных текстов, да и после вычитки других тоже, и проверял по своему варианту - ошибки тоже были... Все таки когда читаешь, да еще захлебом что-нить интересное, то ошибки не замечаешь и пропустишь... Сложно и вникать в текст и проверять ошибки...
      (Для тех, кто пробовал - про AfterScan говорить не будем -------------;-) )


20. Zmiy, Минск (zmiy@inbox.ru) 12:27:38 [ответить]
      > 16. Thick-as-a-brick.
      >
      > 1. Книжки в мягкой обложке (e.g. Penguin, Bantam) трудно раскрыть на 180 град. А если это толстый роман на достаточно плотной бумаге - вообще невозможно. И после одного прочтения такие книжки практически теряют "товарный вид". Так что, имхо, рЭзать и только рЭзать. Не жалко.
     
     
      Ну, если это книшки в мягкой обложке, да еще клееные, а не сшитые тетрадками, то да - кошмар. У мя одна такая распотрошеная до сих пор лежит (моя - не чужая ----------:-) )...
      Хотя, вот сканил таких два тома Станюковича по 450 стр. - так не порвались и отлично сканились (там клея достаточно наложили, что листы не отрывалис...).
     
     
      >
      > 2. Ну не хочу я еще и после работы час или два страницы перед компом переворачивать. Лучше уж блины на сковородке :) (Да и комп не один)
     
     
      А вот это, батенька, называется ЛЕНЬ! --------------;-)
     
      >
      > А вот такой вопрос -
      >
      > При распознавании обычной книги на англ., к примеру, - простая верстка в один столбец, без иллюстраций, на бумаге средней серости, шрифтом средней мелкости - СКОЛЬКО ОШИБОК БУДЕТ НА СТРАНИЦУ? Одна на 10 страниц или 10 ошибок на страницу? Т.е. можно ли без вычитки обойтись?
     
      Книжка-книжке рознь! Бывает книги на одинаковой бумаге, а начнешь сканить - на одной без ошибок, а на другой - море...
      Поэтому - как повезет...


19. Zez, (anatoly52@hotmail.com) 11:41:20 [ответить]
      Уважаемый г-н Мошков!
      Зачем выкладывать невычитанные книги?
      Заглянул в "Назову себя Гастенбайн" Макса Фриша, появившийся
      в библиотеке 9-го ноября, так текст совершенно не вычитан и
      полно ошибок.Читать этот текст все равно никто не станет -
      невозможно, так зачем выкладывать.
      Да, хотел спрсить когда мои тексты у Вас появятся, а то мне
      кажется что я книги для самого себя сканирую.
      Спасибо за внимание.


18. Григорий, Ярославль 00:57:29 [ответить]
      > 16. Thick-as-a-brick.
     
      > 2. Ну не хочу я еще и после работы час или два страницы перед компом переворачивать. Лучше уж блины на сковородке :) (Да и комп не один)
     
      А новости смотришь - и переворачиваешь. Вот тебе и час. :)
     
      >
      > А вот такой вопрос -
      >
      > При распознавании обычной книги на англ., к примеру, - простая верстка в один столбец, без иллюстраций, на бумаге средней серости, шрифтом средней мелкости
     
      > - СКОЛЬКО ОШИБОК БУДЕТ НА СТРАНИЦУ? Одна на 10 страниц или 10 >ошибок на страницу? Т.е. можно ли без вычитки обойтись?
     
     
      Весьма и весьма туманное определение.
      Газетная бумага и 10-ка шрифт?
      Тогда, если вкраплений на бумаге нет ошибок немного. 1-2 на страницу. При качественной офсетной печати и не глянцевой бумаге - ошибок _практически_ нет вообще. В реальности это менее 1 на 10 разворотов. Но такое бывает редко.
     
      Без вычитки конечно обойтись можно. Но такие поделки на бестлибрари даже просматривать противно. Лучше уж никак.
      Потому маньяки вроде нас и существуют как вид, что контролировать все равно должен человек.


17. Григорий, Ярославль 00:48:16 [ответить]
      > 15. Zmiy.
      > Вопрос ко всем :
      > Q: У кого какой сканер, его цена и скорость сканирования в час для разворота книжки обычного(самого распространенного) формата?
     
      Сейчас основные сканеры:
      Mustek 12000 SP Plus (SCSI) скорость сканирования А4 (300дпи) примерно 30 сек. С учетом обратного хода - чуть больше разворота в минуту. Тк. медленный обратный ход. Зато недорого.
      Acer 640S (SCSI) - проход - чуть быстрее, откат быстрый. Гасит лампу.
     
      Замечательны (из опробованных планшетников) старые Хьюлеты - 4c например. 15-20 сек сканирование 10 - обратный ход. Гасит лампу при обратном ходе - тоже плюс. Только не достать их теперь.
     
      Совершенно глупо использовать дорогие с высокой цветопередачей сканеры. Они перед каждый проходом греют и калибруют лампу.
      Вывод - чем дешевле (проще) - тем лучше.
      SCSI - быстрее чем USB. Правда, такой вывод только на основании личного опыта.
     
      > У меня Mustek 1200CU (USB). Цена до 70$. Скорость 200 стр. в час (100 разворотов).
     
      Быстро. Меняю представление о ЮСБ.
     
      > Я сканю и распознаю сразу, чтоб видеть ошибки распознавания и соответствующе корректировать яркость...
     
      Корректирую яркость только в начале сканирования и меняю только в случае, если вижу, что качество печати меняется. Распознаю пакетно. По ночам. Правда после выделения блоков - просматриваю. Особенно если стихи. Бывает такое запилит...
     
      > Как понимать Thick-as-a-brick "страницы плохо раскрываются"??? Уточни...
      > Как понимать Thick-as-a-brick "И времени нет"??? --------------;-) Компьютер-то и так занят... (если он один...)


СООБЩЕНИЯ ЗА 09.11.2002
16. Thick-as-a-brick, (toomanyfaces@mail.ru) 23:30:21 [ответить]
      > 15. Zmiy.
     
      > Как понимать Thick-as-a-brick "страницы плохо раскрываются"??? Уточни...
      > Как понимать Thick-as-a-brick "И времени нет"??? --------------;-) Компьютер-то и так занят... (если он один...)
     
      1. Книжки в мягкой обложке (e.g. Penguin, Bantam) трудно раскрыть на 180 град. А если это толстый роман на достаточно плотной бумаге - вообще невозможно. И после одного прочтения такие книжки практически теряют "товарный вид". Так что, имхо, рЭзать и только рЭзать. Не жалко.
     
      2. Ну не хочу я еще и после работы час или два страницы перед компом переворачивать. Лучше уж блины на сковородке :) (Да и комп не один)
     
      А вот такой вопрос -
     
      При распознавании обычной книги на англ., к примеру, - простая верстка в один столбец, без иллюстраций, на бумаге средней серости, шрифтом средней мелкости - СКОЛЬКО ОШИБОК БУДЕТ НА СТРАНИЦУ? Одна на 10 страниц или 10 ошибок на страницу? Т.е. можно ли без вычитки обойтись?


15. Zmiy, Минск (zmiy@inbox.ru) 22:46:12 [ответить]
      Вопрос ко всем :
      Q: У кого какой сканер, его цена и скорость сканирования в час для разворота книжки обычного(самого распространенного) формата?
     
      У меня Mustek 1200CU (USB). Цена до 70$. Скорость 200 стр. в час (100 разворотов).
      За время обратного хода я успеваю переворачивать страницы, а если будет 500 стр. в час - так ить запыхаться можно переворачивать-та... --------------:-)
     
      Я видел один сканер со SCSI, так оно вешало всю машину на время передачи данных. Мне не понравилось...
      В цену SCSI-сканера войдет еще и стоимость SCSI-карточки...
      Я против потрошения книг. ------------;-) Книжка то может быть чужая...
      Я сканю и распознаю сразу, чтоб видеть ошибки распознавания и соответствующе корректировать яркость...
      Как понимать Thick-as-a-brick "страницы плохо раскрываются"??? Уточни...
      Как понимать Thick-as-a-brick "И времени нет"??? --------------;-) Компьютер-то и так занят... (если он один...)


14. Thick-as-a-brick, (toomanyfaces@mail.ru) 16:32:10 [ответить]
      Ну зачем же сразу - промышленный :)
     
      У нас на прежней работе был сканер с фидером, но забыл какой. Но стоил он разумеется не 20 тыс.
     
      Меня бы устроил принтер со скан. головкой до 300-500 долл.
      Сканировать на планшетном не хочу. Пробовал. И долго и страницы плохо раскрываются, вследствие чего текст кривой и распознается плохо. И времени нет.
     
      А вот при сканере с фидером скорость не важна. Поставил, включил и иди чай пить. Пусть хоть всю ночь сканирует.


13. Максим Мошков, 14:53:33 [ответить]
      > 11. Григорий.
      > Нереально сканировать сканером с автоподачей
     
      Очень даже реально. У Леона такой, с автоподачей - он хвастался - книжка в мягкой обложке - за 23 минуты.
     
      > Вопрос цены. Стоимость хорошего промышленного сканера заоблачна во всех смыслах.
     
      Не заоблачна. Всего 20-30 тысяч долларов.
      Хотя, конечно, это побольше, чем 100$ за обычный планшетник.


12. Максим Мошков, 14:48:35 [ответить]
      Лучший сканер для OCR книг - HP ScanJet II - чернобелый, 300dpi, со SCSI-интерфейсом. Я один такой покупал за 30$. Увы, на 500-й книжке он скончался.
     
      Главное, на что надо смотреть - максимальная скорость прохода, ускоренный обратный ход (чтоб назад каретка двигалась быстрее, чем при сканировании), возможность отключить автоподбор яркости (отнимает много времени на каждой странице) и чтобы ФИнеРеадер знал эту модель и мог работать с ней сам, не вызывая твейн-интерфейс. И обязательно SCSI - перекачка kartinki через USB и _особенно_ через LPT - существенно дольше, чем по SCSI.
     
      HP ScanJet II сканировал со скоростью 4 разворота в минуту - т.е. 500-страничная книжка за час-полтора.
      Фидер не нужен, потому что собственно скорость сканирования - 1-2 часа, по сравнению с остальными затратами времени (2-4 часа на полуавтоматический спеллчек и корректуру, и 12 часов на вычитку) - непринципиальны.
     
      Конкретные удовлетворительные модели народ, надеюсь, назовет.


11. Григорий, 14:23:20 [ответить]
      > 10. Thick-as-a-brick.
      > Уже давно хотел бы заняться сканированием книг, особенно на инстранных языках, которые по понятным причинам очень трудно найти в инете, но не заню
      >
      > КАКОЙ СКАНЕР ВЫБРАТЬ.
      >
      > Сканировать планшетным сканером - нереально, имхо.
      Очень даже реально. Тысячи метров текста пересканированы именно планшетными сканерами. Да весь lib.ru отсканирован планшетными. Нереально сканировать сканером с автоподачей, как вы предлагаете. Вопрос цены. Стоимость хорошего промышленного сканера заоблачна во всех смыслах.
     
      >
      > Какие есть мнения?


СООБЩЕНИЯ ЗА 05.11.2002
10. Thick-as-a-brick, (toomanyfaces@mail.ru) 21:36:14 [ответить]
      Уже давно хотел бы заняться сканированием книг, особенно на инстранных языках, которые по понятным причинам очень трудно найти в инете, но не заню
     
      КАКОЙ СКАНЕР ВЫБРАТЬ.
     
      Сканировать планшетным сканером - нереально, имхо. Я бы хотел купить какой-то сканер с фидером и при помощи его сканировать книжки в мягкой обложке предварительно распотрошив их на отдельные страницы.
     
      Или м.б. есть принтеры со сканирующей головкой, способные читать из пачки страниц.
     
      Какие есть мнения?


СООБЩЕНИЯ ЗА 02.11.2002
9. V.Voblin, 18:43:13 [ответить]
      Замечательные новые тексты:
     
      Сергеев-Ценский, Айрис Мэрдок, Болеслав Прус, Юрий Герман - чудесно!
     
      Спасибо Максиму, спасибо героям OCR-a Zmiy & HarryFan!!!


СООБЩЕНИЯ ЗА 01.11.2002
8. Remnanta, Одесса (remnanta@ukr.net) 21:24:57 [ответить]
      Ваша librari - просто чудо!!!
      Но наладте "поиск".Пожалуста!!!!!!!!!!!!!!!!


СООБЩЕНИЯ ЗА 28.10.2002
7. bmn, 08:53:05 [ответить]
      > 6. В.Воблин.
      > Спасибо за ответ.
      Да, пожалуйста :))
      >
      > Хочу тоже попробовать. ПОдскажите, пожалуйста, о каких декоративных шрифтах идёт речь. Может, даже есть картинка в онлайне, на которой можно "прокатать" FR с целью воспроизвести Вашу ситуацию. Спасибо заранее.
     
      Шрифт, по моему, назывался Bodoni Gothic (сейчас уже точно не помню), и сканов уже не осталось. Но FR без обучения распознал кнгу набранную полностью таким шрифтом.


СООБЩЕНИЯ ЗА 27.10.2002
6. В.Воблин, (vvoblin@hotmail.com) 11:35:44 [ответить]
      > 5. bmn.
     
      Спасибо за ответ.
     
      > > У ФайнРидера вроде есть механизм распознавания шрифтов и даже возможность обучения новому шрифту.
      > У меня FR5.0 без обучения нормально распознает декоративные шрифты.
     
      Хочу тоже попробовать. ПОдскажите, пожалуйста, о каких декоративных шрифтах идёт речь. Может, даже есть картинка в онлайне, на которой можно "прокатать" FR с целью воспроизвести Вашу ситуацию. Спасибо заранее.


СООБЩЕНИЯ ЗА 23.10.2002
5. bmn, 08:25:48 [ответить]
      > 4. V.Voblin.
     
     
      > У ФайнРидера вроде есть механизм распознавания шрифтов и даже возможность обучения новому шрифту.
      У меня FR5.0 без обучения нормально распознает декоративные шрифты. Тк что у тебя, скорее всего, проблема с FR.
     
      > Вдобавок - даже если и делаешь эту работу - после OCR исчезает особость этого шрифта в выходном файле. Ведь OCR не знает, что точнёхонько такой же фонт установлен в моих Windows.
      Компьютер штука тупая ему все указывать надо. Выделяй эти фрагменты прямо в FR ручками, тогда он их нормально сохранит.
      >
      > Внимание, вопрос.
      > Нет ли в Файнридере (скрытой?) фичи - обучение распознаванию на основе дополнительного фонта TTF, а не набора "пиксельных" трафаретов одного размера ?
      А вот этого нет.


СООБЩЕНИЯ ЗА 19.10.2002
4. V.Voblin, 05:25:30 [ответить]
      Вот problema, например.
     
      Новая книга Терри Пратчетта.
     
      Часть текстов написана фигурным, о~ень нестандартным шрифтом "Hebrew Condensed".
     
      Этот шрифт латинский, но стилизован под еврейский. Человек прочтёт его легко. OCR-у гораздо труднее.
     
      У ФайнРидера вроде есть механизм распознавания шрифтов и даже возможность обучения новому шрифту.
     
      НО!
     
      Эти куски текста - особым шрифтом - это маленькие вставки в основной текст, набранный обычным Times New Roman. Поэтому процесс обучения, ккоторому юзер имеет доступ, происходит очень медленно и коряво. Отпадает желание так тяжело пахать ради одной книжки.
     
      Вдобавок - даже если и делаешь эту работу - после OCR исчезает особость этого шрифта в выходном файле. Ведь OCR не знает, что точнёхонько такой же фонт установлен в моих Windows.
     
      Файнридер всё прекрасно делает, когда речь идёт о трёх главных фонтах - Times, Arial, Courier. Они распознаются независимо от размера букв и сохраняются в выходном файле.
     
      Внимание, вопрос.
      Нет ли в Файнридере (скрытой?) фичи - обучение распознаванию на основе дополнительного фонта TTF, а не набора "пиксельных" трафаретов одного размера ?


СООБЩЕНИЯ ЗА 13.10.2002
1. Максим Мошков, Москва 13:16:51 [ответить]
      Пожалуй, общее обсуждение проблем OCR лучше перенести сюда, оставив форум "Книги, которые будут выложены" только для размещения списков обрабатываемых книг и синхронизации работы.