Lib.Ru: : Проблемы OCR и электронных библиотек

Список форумов | Добавить сообщение | Правила | 26.11.2024, вторник, 21:33:24

26.11.2024
21:05 Главная гостевая книга библиотеки(3668)
24.11.2024
16:42 "Разыскиваются книжки", доска объявлений(15475)
20.11.2024
11:47 Обо всем - мнения(3131)
07:16 Русские впечатления о заграничной жизни(9431)
01.10.2024
13:10 Проблемы OCR и электронных библиотек(1967)
09.09.2024
04:35 Книжки, которые скоро будут выложены(47)
06.05.2024
02:06 О возвышенной поэзии(1568)
02.02.2024
15:33 Книжки, которые стоит прочитать(5187)
12.11.2023
00:25 Мнения читателей о дизайне библиотеки(1478)

Lib.Ru

Проблемы OCR и электронных библиотек: Тема форума: В этом форуме обсуждаются общие проблемы связанные с поддержкой электронных библиотек и сканированием книг.
А так же обсуждение статьи Вадима Ершова "О коллективных сайтах"

Отсортировано по [убыванию] [возрастанию]

СООБЩЕНИЯ ЗА 11.02.2003

152. Олег Френкель, Торонто (znamenka@yahoo.com) 01:49:20 [ответить]
> 149. Вячеслав Сачков.
> > 148. Олег Френкель.
> > > 130. Вячеслав Сачков.
> > > > 128. Zmiy.
> > >
> Дорогой друг! Библиография - это очень серьезная и большая наука, которой в ин-те культуры учатся 5 лет, для того чтобы получить минимальные познания по этому предмету. Это "бумажная" библиография, которая сильно ПРОЩЕ файловой. Давайте не будем упрощать проблемы. Тут осторожность, осторожность и осторожность нужна. А дилетанство губительно.

Согласен, что библиография - это очень серьезная и большая наука. К тому же я никогда не изучал библиографию. Более того, я не совсем точно представляю себе о чем эта наука. Я о ней и не пытался высказываться. Просто я, как рядовой читатель, выразил свое мнение в каких категориях хотел бы найти книжки (но не к каким категориям относить эти книжки!). И привел пример с однотомником Лермонтова и книгами Бушкова. Более того, я думаю вам, библиографам, стоит иногда прислушаться к пожеланиям дилетантов (конечно же, только в плане использования библиотек, а не в их устройстве). Ведь основная масса читателей -- дилетанты в библиогафии. А подавляющее большинство библиотек в интернете расчитано именно на дилетантов.

В общем виде, я могу сформулировать проблему следующим образом. Каким образом организовать электронную библиотеку чтобы читателю было наиболее просто найти интересующую его книжку. Если же вы имели в виду другую проблему с этой совершенно не связанную, я приношу свои извинения что влез не поняв о чем идет речь. В противном случае, можно обменяться мнениями.

СООБЩЕНИЯ ЗА 10.02.2003

151. Григорий, Ярославль 22:03:16 [ответить]
> 150. Вячеслав Сачков.
> Переехал с двадцатника на шестидесятник, после чего файнридер затребовал переустановки. Быват. Но чтобы притом слетали рабочие пакеты - это архисвинство. Месяц работы коту под хвост. :-( Джими Хендрикс в таких ситуациях пел FHITA.

Как слетали? В чем это проявлялось?

150. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:48:03 [ответить]
Переехал с двадцатника на шестидесятник, после чего файнридер затребовал переустановки. Быват. Но чтобы притом слетали рабочие пакеты - это архисвинство. Месяц работы коту под хвост. :-( Джими Хендрикс в таких ситуациях пел FHITA.

149. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:22:24 [ответить]
> 148. Олег Френкель.
> > 130. Вячеслав Сачков.
> > > 128. Zmiy.
> >
> > Взять, например, хороший однотомник Лермонтова, где проза, поэзия и драматургия в одном "флаконе" находятся. К какому из предлагаемых трех разделов такое издание относить? Или это именно единственно возможный случай для раздела "Остальное"?
>
> На мой взгляд, этот однотомник Лермонтова надо отнести ко всем трем разделам. А раздел "Остальное" свести к минимуму, а желательно вообще исключить. Кстати, именно по этой причине я

Дорогой друг! Библиография - это очень серьезная и большая наука, которой в ин-те культуры учатся 5 лет, для того чтобы получить минимальные познания по этому предмету. Это "бумажная" библиография, которая сильно ПРОЩЕ файловой. Давайте не будем упрощать проблемы. Тут осторожность, осторожность и осторожность нужна. А дилетанство губительно.

СООБЩЕНИЯ ЗА 09.02.2003

148. Олег Френкель, Торонто (znamenka@yahoo.com) 05:14:48 [ответить]
> 130. Вячеслав Сачков.
> > 128. Zmiy.
>
> Взять, например, хороший однотомник Лермонтова, где проза, поэзия и драматургия в одном "флаконе" находятся. К какому из предлагаемых трех разделов такое издание относить? Или это именно единственно возможный случай для раздела "Остальное"?

На мой взгляд, этот однотомник Лермонтова надо отнести ко всем трем разделам. А раздел "Остальное" свести к минимуму, а желательно вообще исключить. Кстати, именно по этой причине я пользуюсь только поиском на мошковской библиотеке. Скажем, я хочу почитать Бушкова. В какой раздел мне идти? Фантастика, история, современная проза? Ясное дело, я не помню в каком разделе Бушков находится у Мошкова, хотя относится ко всем трем. А по идее должен находится во всех разделах к которым относится. И меня, как читателя, не смутит факт что я пошел в раздел "история", а там книжки Бушкова не только про историю. Смущает меня, наоборот: я иду в раздел "история", а там нет книжек Бушкова про историю.

Надеюсь, мне не будут возражать в том плане что если поместить книжку в нескольких разделах, то придется хранить её в нескольких копиях (во всех разделах хранится ссылка на одну копию -- впрочем это очевидно).

СООБЩЕНИЯ ЗА 05.02.2003

147. VV, 12:21:49 [ответить]
Вопрос.

Я пытаюсь соорудить один многостраничный файл-книжку из серии отсканированных greyscale страниц-картинок. FineReader-6 хоть и делает PDF, но автоматически снижает фактическую точность (resolution) изображения и вообще что-то там обрабатывает и местами портит изображение. Например, каждую картинку пытается чуток повернуть. А мне нужно непременно сохранить исходные файлы как они есть. Не менять картинки ни на грамм, просто "сшить" их в один файл-книжку. Формат PDF не так уж и обязателен, хотя и желателен как удобный стандарт.

Спрашивается, можно ли уговорить FineReader принимать картинки без доп.обработки? А может, есть какой "более другой" freeware/shareware для создания файлов PDF?

146. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 04:28:59 [ответить]
> 128. Zmiy.

> Сейчас в группах новостей RU.OCR и SU.BOOKS проходит обсуждение предложения В.Ершова.
> См. тему "А-y! Деpжатели сетевых библиотек!"
> Там Слава Алексеев предлагает на суд свой вариант "поискового классификатора для электронных библиотек"...
> Вход, например, тут http://www.fido-online.com/>http://www.fido-online.com/

Я все-таки не понял, что ты там интересного нашел? Подробную клссификацию порнографии по Максимовой, что ли? Мне лично она по фиг. А что еще?

СООБЩЕНИЯ ЗА 03.02.2003

145. Zmiy, Минск (zmiy@inbox.ru) 14:01:57 [ответить]
> 135. InFAiR.
> > 132. Zmiy.
>
> > тайна "Золотого ключика"
>
> :) Открыть в Word
> Ctrl+F; Найти "Специальный" "разрыв строки";
> "Заменить все"
> ОК, ОК, ОК ... пока не увидишь "Произведено 0 замен"

goto Label_l40

144. PDF-Library, Augsburg, Germany (news@imwerden.de) 15:22:00 [ответить]
> 141. Zmiy.
> > 133. ЯVR.
> > А у меня вопрос : как убить дикое количество пробелов в распознанном тексте ? (FR 6) Файлы txt.
>
> Скачай тут набор маленьких программ на все случаи жизни:
> http://lleo.aha.ru/soft/micrsoft.htm>http://lleo.aha.ru/soft/micrsoft.htm

> В общем, что уже сделано - то есть, а доделок-переделок не будет.
> Архив программ LLEOSOFT.ZIP - 55кб
> В этом комплекте находятся 36 мелких программок для обработки текстов, они написаны под DOS и хороши

А что такое DOS ?????

Этим самым DOS не пользуются уже 99,99 %, а тем более такими программами для DOS, которым нужен русский DOS...

СООБЩЕНИЯ ЗА 31.01.2003

141. Zmiy, Минск (zmiy@inbox.ru) 10:47:12 [ответить]
> 133. ЯVR.
> А у меня вопрос : как убить дикое количество пробелов в распознанном тексте ? (FR 6) Файлы txt.

Скачай тут набор маленьких программ на все случаи жизни:
http://lleo.aha.ru/soft/micrsoft.htm>http://lleo.aha.ru/soft/micrsoft.htm

СООБЩЕНИЯ ЗА 03.02.2003

140. Zmiy, Минск (zmiy@inbox.ru) 14:01:25 [ответить]
> 139. Вячеслав Сачков.
>
> Может быть, я тебя неправильно понял, но общий принцип борьбы с неправильным разбиением на абзацы такой. В FP6 есть опция "Разрыв строк между абзацами". Имеет смысл пробовать с ней и без нее и сравнивать. Я попробовал. Если гнать сразу в дос, в какой-нибудь нафигатор, точно сильно лучше - с ликвидацией ненужных пустых строк по только что описанной здесь методике. В виндовозе не пробовал, поэтому не скажу. Но, наверно, помогает.

Возможно и не понял... --------------;-)

ФР5/6 при сохранении в ТХТ с "разрывом строк между абзацами" вставляет эти "разрывы" (пустые строки) аналогично - неправильно - после своего же, неправильно определенного, конца абзаца (перевода строки)...

Label_l40 :
Если захочется поэкспериментировать, то скачай мои файлы, что я предлагал, и опиши методику сохранения текста из ФР5/6 в куда-нибудь и обработки его так, чтобы получился вариант test4.tx1, где ФР4 абсолютно точно воспроизвел разбиение на абзацы, выделив их тремя пробелами и при этом они полностью совпадают с абзацами из TIFFов...

СООБЩЕНИЯ ЗА 31.01.2003

139. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:54:44 [ответить]
> 132. Zmiy.
> Привет All!
>
> Не будет ли любезен многоуважаемый All раскрыть тайну "Золотого ключика"?
>
> Абзацем считается несколько предложений не разделенных переводом строки. Это видно в ФР или в Ворде, если включить отображение непечатаемых символов. Если есть перевод строки - это новый абзац.
>

Может быть, я тебя неправильно понял, но общий принцип борьбы с неправильным разбиением на абзацы такой. В FP6 есть опция "Разрыв строк между абзацами". Имеет смысл пробовать с ней и без нее и сравнивать. Я попробовал. Если гнать сразу в дос, в какой-нибудь нафигатор, точно сильно лучше - с ликвидацией ненужных пустых строк по только что описанной здесь методике. В виндовозе не пробовал, поэтому не скажу. Но, наверно, помогает.

СООБЩЕНИЯ ЗА 30.01.2003

138. ЯVR, 20:54:33 [ответить]
> 137. InFAiR.
> > 136. ЯVR.
> > Ничего не получается :)))
>
> Ясное дело! В окошке "найти" надо не писать "два пробела",
> а два раза на клавишу "пробел" нажать!

:))) Вот теперь до меня дошло.

137. InFAiR, Уфа (infair@rusoil.net) 20:20:02 [ответить]
> 136. ЯVR.
> Ничего не получается :)))

Ясное дело! В окошке "найти" надо не писать "два пробела",
а два раза на клавишу "пробел" нажать!

136. ЯVR, 19:44:40 [ответить]
> 134. InFAiR.
> > 133. ЯVR.
> > дикое количество пробелов
>
> :) Открыть в Word
> Ctrl+F; Найти "два пробела"
> Заменить "один пробел"
> "Заменить все"
> ОК, ОК, ОК ... пока не увидишь "Произведено 0 замен"

Ничего не получается :)))

135. InFAiR, Уфа (infair@rusoil.net) 18:54:58 [ответить]
> 132. Zmiy.

> тайна "Золотого ключика"

:) Открыть в Word
Ctrl+F; Найти "Специальный" "разрыв строки";
"Заменить все"
ОК, ОК, ОК ... пока не увидишь "Произведено 0 замен"

134. InFAiR, Уфа (infair@rusoil.net) 18:37:48 [ответить]
> 133. ЯVR.
> дикое количество пробелов

:) Открыть в Word
Ctrl+F; Найти "два пробела"
Заменить "один пробел"
"Заменить все"
ОК, ОК, ОК ... пока не увидишь "Произведено 0 замен"

133. ЯVR, 16:12:16 [ответить]
А у меня вопрос : как убить дикое количество пробелов в распознанном тексте ? (FR 6) Файлы txt.

132. Zmiy, Минск (zmiy@inbox.ru) 12:38:44 [ответить]
Привет All!

Не будет ли любезен многоуважаемый All раскрыть тайну "Золотого ключика"?

Абзацем считается несколько предложений не разделенных переводом строки. Это видно в ФР или в Ворде, если включить отображение непечатаемых символов. Если есть перевод строки - это новый абзац.

Замечено, что ФР5/6 неверно распознают абзацы. Т.е. происходит либо склейка либо разделение абзацев. Самый простой пример - стихи - нет переводов строк... Другой пример - если абзац состоит из одного предложения, которое влезает в одну строку, т.е. заканчивается примерно на правой границе, то этот абзац непременно склеится со следующим. Есть еще другие варианты...

Для экспериментов скачайте тестовые TIFFы, на которых проявляются такие ошибки:
http://zpdd.chat.ru/files/test-tif.rar>http://zpdd.chat.ru/files/test-tif.rar

Результаты моих исследований можно посмотреть тут:
http://zpdd.chat.ru/files/test-txt.rar>http://zpdd.chat.ru/files/test-txt.rar

Пояснения: 4-5-6 - ФР4-ФР5-ФР6

*.tx1 - сохранение из ФР в ТХТ с делением на строки

*.tx2 - сохранение из ФР в ТХТ без деления на строки, вот только test4.tx2 получен из test4.tx1 (на переносы не смотреть).

В test5.tx2 и test6.tx2 видно если смотреть по картинкам, где идет склейка абзацев!

*.tx3 - сохранение из ФР5/6 в *.rtf плюс пропуск через спец-программу. Видно, что абзацы, которые склеились в *.tx2 исправлены, но есть ложные срабатывания алгоритма - ложные абзацы...

Так вот, наконец, вопрос:
Как All борется с такой ситуацией?
Какова методика исправления абзацев? (кроме как вычитки)

ФР4 не предлагать!
Это слишком просто (очень примитивно в век ФР5/6 и космических полетов).
Я знаю, что в ФР4 есть сохранение в TXT
с сохранением форматирования при помощи пробелов. И видел, что там с абзацами таких проблем нету...

С уважением, Zmiy. --------------:-)
http://zmiy.da.ru>http://zmiy.da.ru

СООБЩЕНИЯ ЗА 29.01.2003

131. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 05:27:40 [ответить]
> 127. Соколов.
> > 126. Вячеслав Сачков.
> > > 125. Соколов.
> Тогда давайте обсудим и примем стандарт описания для наших личных библиотек, как и предлагает Ершов? Это решит для нас ряд проблем, в частности возможность создания единого фонда, опираясь на это описание. Вся информация будет браться из него.

Не понял, стандарт описания чего - личных библиотек или хранящихся в них текстов?

130. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 05:24:40 [ответить]
> 128. Zmiy.

> Сейчас в группах новостей RU.OCR и SU.BOOKS проходит обсуждение предложения В.Ершова.

Как помнится, это, наверно, 50-й по счету классификатор в истории BOOK. Наверняка будут еще 100-й, 150-й и т.д. 8-) Для ВOOK в целом, каковой она себя представляет в настоящий момент, этот классификатор годится, так как текстов по филологии там, можно сказать, почти совсем нет. Нет политэкономии, истории и теории искусства. С историей дело обстоит тоже, мягко выражаясь, далеко не самым лучшим образом. С другими гуманитарными науками ненамного лучше, хотя ошибиться могу. Действительно художественная литература представлена, по сравнению с инетом, очень слабо. Ее возможно поэтому, как Слава предлагает, в принципе, полностью впихнуть в один раздел "Остальное". Но тогда останется еще логическое несоответствие с сохранением разделов "Проза" (как таковая), "Поэзия" (как таковая), "Драматургия". Взять, например, хороший однотомник Лермонтова, где проза, поэзия и драматургия в одном "флаконе" находятся. К какому из предлагаемых трех разделов такое издание относить? Или это именно единственно возможный случай для раздела "Остальное"? Многие фидошники - собиратели электронной литературы - обычно, помнится, совали такие вещи в раздел "Драма", куда помещалось буквально все посерьезнее Марининой, Чейза, Толкиена и Гарри Портера, т.е. все то, что было выше их уровня развития и потому абсолютно недоступно для их понимания. Ну, а в инете такая свалка просто не годится. Необходимо деление настоящей художественной литературы по периодам, хоть минимальное (античность, средние века, Возрождение и т.д.). И, разумеется, деление на прозу-поэзию-драматургию, я считаю, тоже ни к чему.

СООБЩЕНИЯ ЗА 28.01.2003

129. InFAiR, Уфа (infair@rusoil.net) 17:17:31 [ответить]
> 128. Zmiy.

> См. тему "А-y! Деpжатели сетевых библиотек!"

Кажется у Платона, я читал,
что восприятие жизни людьми ассоциируется у него с такой картиной:
где-то в пещере люди прикованы лицом к стене
и о событиях вне стен этой пещеры они судят по теням,
отбрасываемым происходящим вне пещеры,
причем только тем, которые проникают через узкий вход.

Эта картина немного напоминает рунет,
по части электронных библиотек, в частности,
и обычные, бумажные - в полной мере.

Попробуйте взглянуть на все со следующей точки зрения.

Мысли - это камешки, мелкие, крупные, цветные - разные.
Термины - это цемент, незначимые слова - вода.
Пишущие книги - строители, замешивающие растворы,
в результате чего получается кладочный раствор, штукатурка, бетон.
Издатели отливают блоки, из которых составляют пирамиды библиотек.

Чтобы добраться до необходимой информации,
которая лежит, может на вершине пирамиды, а может в глубине ее
надо иметь механизмы.
Даже отыскав необходимый блок - его надо поднять, осилить интеллектуально.
Затем проникнуть внутрь блока, чтобы отыскать ту необходимую мысль.

Это все идет от физической природы бумажных библиотек,
которые, как это становится очевидным на данном этапе,
недалеко ушли от каменного века и глиняных, клинописных.
Нельзя изготовить бумажную книгу в 750 тыс. стр., или размером 100х100 м.
В электронном варианте таких ограничений нет,
но многие привязаны к традиционной схеме -
максимум - это электронный каталог-спецификация на пирамиду
или гиперссылки - узкие ходы и коридоры в теле пирамиды.

Мой взгляд на библиотеку следующий.

Перевод в электронный вид - это разрушение пирамиды.
Но при этом, структура сохраняется, информация не пропадает, мысли не исчезают.
Мы даже отсканированные изображения держим,
чтобы в любой момент можно было проверить идентичность,
или восстановить блок (книгу) в первозданном виде.
Не исчезли ни песок, ни вода, ни цемент.
Компьютер позволяет мгновенно просеять все и отделить,
не скажу ╚зерна от плевел╩, но, по крайней мере, разделить на фракции,
и, при необходимости, отлить новый блок в новой форме.
Но это побочный эффект.
Основное - с применением различных методов поиска, стало возможным
разделение информации (синтез, надеюсь еще впереди).

Отсюда и заблуждение в последовательности поиска:
найти полку (раздел) - найти книгу - найти страницу - найти фразу.
В нашей программе вводится слово
(или фраза, или автор, или что хотите)
(как впрочем, и во всех поисковых программах);
Осуществляется ╚сквозной╩, полнотекстовый в настоящем смысле поиск:
программа ╚пролистывает╩ все 2,5 тыс. книг, естественно по индексу.
В результатах поиска - все, и меня не интересует какая книга, кто автор и
т.п., хотя эта информация тоже выводится.

Для существующих текстовых (txt) электронных библиотек
создать такую программу плевое дело:
надо разбить тексты на блоки,
на каждом поставить штамп изготовителя (автор, название книги)
и время изготовления (стр. ил

128. Zmiy, Минск (zmiy@inbox.ru) 10:31:20 [ответить]

Сейчас в группах новостей RU.OCR и SU.BOOKS проходит обсуждение предложения В.Ершова.
См. тему "А-y! Деpжатели сетевых библиотек!"
Там Слава Алексеев предлагает на суд свой вариант "поискового классификатора для электронных библиотек"...
Вход, например, тут http://www.fido-online.com/>http://www.fido-online.com/

127. Соколов, 08:43:42 [ответить]
> 126. Вячеслав Сачков.
> > 125. Соколов.
> > По моему мнению, сначала следовало бы решить вопрос о стандартизации описания текста произведений, а уж после начинать разговор о едином фонде. Только тогда единый фонд имеет смысл.
>
> Но стандарт ОПИСАНИЯ электронного издания (паспортички), мне кажется, действительно нужен. Пока в порядке эксперимента используются соответствующие формы, жизнь должна показать, что годится, что нет. Ведь стандарт - это юридический документ, а право только законодательно закрепляет то, что уже и так сложилось на практике.

Тогда давайте обсудим и примем стандарт описания для наших личных библиотек, как и предлагает Ершов? Это решит для нас ряд проблем, в частности возможность создания единого фонда, опираясь на это описание. Вся информация будет браться из него.

126. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:47:35 [ответить]
> 125. Соколов.
> По моему мнению, сначала следовало бы решить вопрос о стандартизации описания текста произведений, а уж после начинать разговор о едином фонде. Только тогда единый фонд имеет смысл.

Госстандарт электронного текста давным-давно принят. Спорить можно о том, что (какие параметры) стоило стандартизировать, а с какими поспешили. Но лично я проблемы здесь не вижу. Для одних источников, например, принципиально важно сохранение оригинальной пагинации, для других достаточно указания (и то, не строго обязательно) одних только общих выходных данных, причем даже не оригинального бумажного, а электронного текста, - например, в случае книжки Бориса Штерна о Чехове, написанной якобы У.С.Моэмом. Вопрос, может быть, где-то больше этический, чем технический, юридический и пр. Но стандарт ОПИСАНИЯ электронного издания (паспортички), мне кажется, действительно нужен. Пока в порядке эксперимента используются соответствующие формы, жизнь должна показать, что годится, что нет. Ведь стандарт - это юридический документ, а право только законодательно закрепляет то, что уже и так сложилось на практике.

СООБЩЕНИЯ ЗА 27.01.2003

125. Соколов, 09:57:38 [ответить]
Я тут прочитал споры насчет PDF и прочего. И хочу заметить следующее: в действительно грамотной правильной библиотеке файлы должны храниться в универсальном формате. Наиболее грамотно с этой точки зрения можно описать структуру произведения с помощью языка XML или SGML. Недостатком их является необходимость стандартизации описания.
Все прочие форматы в действительности должны рассматриваться (и будут рассматриваться в будущем) как авторские/читательские публикации. Это относится как к текстовым файлам, как к сверстанной в HTML-формате книге, как к форматам текстовых процессоров, как и форматам всевозможных EBook (в том числе и PDF), так и графическим форматам представления (репринт).
Так что все споры насчет формата бессмысленны. Мы все занимаемся, по сути дела, публикацией произведений. И каждый имеет право делать это в том формате, который ему нравится, который он считает лучшим. И претензии, предъявляемые нам по поводу авторских прав, основаны как раз на этом.
В.Ершов, предложив объединение библиотек, не учитывает как раз того, что все мы не является держателями библиотек. Мы рапространяем и поддерживаем авторские личные коллекции, до какого бы размера не разрослась эта коллекция.
По моему мнению, сначала следовало бы решить вопрос о стандартизации описания текста произведений, а уж после начинать разговор о едином фонде. Только тогда единый фонд имеет смысл.

124. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:43:13 [ответить]
> 118. Максим Мошков.
> > 117. Вячеслав Сачков.
> > Формулы/диаграммы/таблицы/схемы.
>
> > отсутствующие в наборе символов ворда, тогда вопрос есть. Но в общем случае это очень редко бывает.
>
> Возьми школьные учебники по алгебре, физике и тригонометрии. И _все_ университетские учебники (за исключением истории КПСС). И подумай, что от них останется после распознавания и ворда.

Согласен, должен поправиться. Я имел в виду набор ОСНОВНЫХ символов ворда. С ними таблицы довольно корректно снимаются, если бывает нужна правка, то сравнительно небольшая. А если дополнительные символы, или, много того хуже, вовсе отсутствующие, то тут все, что угодно, может быть. Это правильно.

СООБЩЕНИЯ ЗА 26.01.2003

123. PDF-библиотека, Augsburg (info@imwerden.de) 21:53:08 [ответить]
> 122. Максим Мошков.
> > 119. PDF-библиотека.
> > Моя идея - сделать конечный продукт. Понимаю, что многим создателям своих библиотек моя идея не по душе
>
> Да нет, дело не в том, по душе/не по душе.
> Просто большая часть ваших усилий уходит на собственно верстку и украшательство книжки. По сути же в нее при этом не добавляется ни одного бита информации по сравнению с банальной хтмлной или вордовой версией. Ваши пдф-ы по сути своей остаются чисто-текстовыми.
> С тем, на что вы тратите 70% своего времени, прекрасно справляется автомат, дравер принтера. Именно это мне печально, а не что-либо еще.

Я согласен и не согласен с вами одновременно. Во-первых, не 70%, 70% занимает вычитка текста. А не согласен я с мнением, что главное - информация. В этом смысле, djvu - прекрасен. Для меня большая разница, читаю я Пушкина в издании "Классиков и современников" или же в издании Академии наук. То, что клеёная книга разваливается после первого же открывания книги... Я всегда старался, по-возможности, выбирать старые издания. Даже в Германии я купил Гессе - гдр'овское издание, но сшитое, нежели фрг'вское, но клеёное. Потому, я стараюсь в интернете реализовать некоторым образом те же принципы.

122. Максим Мошков, 14:35:54 [ответить]
> 119. PDF-библиотека.
> Моя идея - сделать конечный продукт. Понимаю, что многим создателям своих библиотек моя идея не по душе

Да нет, дело не в том, по душе/не по душе.
Просто большая часть ваших усилий уходит на собственно верстку и украшательство книжки. По сути же в нее при этом не добавляется ни одного бита информации по сравнению с банальной хтмлной или вордовой версией. Ваши пдф-ы по сути своей остаются чисто-текстовыми.
С тем, на что вы тратите 70% своего времени, прекрасно справляется автомат, дравер принтера. Именно это мне печально, а не что-либо еще.

121. PDF-библиотека, Augsburg (info@imwerden.de) 13:52:43 [ответить]
djvu За и против.

"За". Размеры маленькие. Вычитка не нужна. Не пропадает колорит печатного издания. Делается по сути фотографическое воспроизведение.

Читатель получает книгу. Для книг 17-19 веков - это очень хороший формат!!!

"Против". Книга в 500 страниц становится набором из 500 файлов (потеря или недокачка одного файла ведет к...). Локальный ПОИСК отсутствует. Поисковые машины тоже ничего не находят.

Вообще, зачем нужен Достоевский в интернете??? А затем, что если вы вспормнили какую-то фразу, слово, имя, то поискать и посмотреть - где оно было Достоевским употреблено...

Итак, jedem das sein. То есть каждому своё...

PS Кстати, немецкие тексты у Мошкова в любимом txt потеряли все свои прелести...

120. Damirjan, Когалым (damirjan@mail.ru) 13:49:51 [ответить]
> 118. Максим Мошков.
> > 117. Вячеслав Сачков.
> > Формулы/диаграммы/таблицы/схемы.
>
> > отсутствующие в наборе символов ворда, тогда вопрос есть. Но в общем случае это очень редко бывает.
>
> Возьми школьные учебники по алгебре, физике и тригонометрии. И _все_ университетские учебники (за исключением истории КПСС). И подумай, что от них останется после распознавания и ворда.

Просто на порядок больше работы, а так в общем-то проблем больших нет. Я как раз занимаюсь OCR технической периодики.
"Тяжелые" формулы - как рисунок, таблицы - тоже без проблем. так что FieneReader-а вполне хватает.
Если есть желание - гляньте на www.geolib.narod.ru - там есть пример моей работы.

119. PDF-библиотека, Augsburg (info@imwerden.de) 13:44:23 [ответить]
> 98. Zmiy.
> > 97. PDF-библиотека.
> >
> Ну, то что сейчас появляется у В.Ершова - это одно, а вот то что раньше было у В.Е. нету...
> Стоит ли конвертить в PDF, если его, кроме как в Acrobat Reader, просто так никуда не всунешь...

Немного расскажу о моей технологии, чтобы было понятнее. Дело в том, что я делаю не pdf, a pmd, то есть PageMakerDokument.
Такой была моя технология:
отсканированный текст я открываю в Word, затем копирую его в PageMaker, после этого ведется вёрстка текста. Выбор шрифта, параметров абзаца, разбивка текста по страницам (чтобы не было висячих строк), создание Содержания, примечаний, комментариев, проверка иноязычных текстов... После этого я книгу РАСПЕЧАТЫВАЮ и вычитываю. К сожалению это не всегда реально, но в большинстве случаев я распечатываю текст. Только в распечатанном тексте я вижу все, или почти все ошибки. Потом, исправив ошибки, я конвертирую файл в pdf.
Если обрабатывать текст в Word, а затем его переносить в PageMaker, то появлябтся ошибки форматирования и/или ошибки в иноязычных текстах (проблемы шрифта).
Последнее время я делаю большую часть работы в Word, а затем переношу результат в PageMaker. Это добавляет мне работы.
Если делать doc, то его надо zipировать, иначе файл получается довольно большой. При zipировании пропадает возможность поиска по СОДЕРЖАНИЮ ФАЙЛА. Довольно много людей находят сейчас мою страницу по отдельной строчке Рильке или Гёльдерлина на немецком, правда, языке. Но всё, что в pdf - распознается Goggle, пока, к сожалению на русском это не работает. А всовывать никуда ничего не надо. Если нужна цитата - пожалуйста - копировать и вставлять. Если найдена ошибка в моем файле - сообщать по email.
Моя идея - сделать конечный продукт. Понимаю, что многим создателям своих библиотек моя идея не по душе, но читателям нравится...

118. Максим Мошков, 11:59:00 [ответить]
> 117. Вячеслав Сачков.
> Формулы/диаграммы/таблицы/схемы.

> отсутствующие в наборе символов ворда, тогда вопрос есть. Но в общем случае это очень редко бывает.

Возьми школьные учебники по алгебре, физике и тригонометрии. И _все_ университетские учебники (за исключением истории КПСС). И подумай, что от них останется после распознавания и ворда.

117. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:22:34 [ответить]
> 114. Максим Мошков.
> > 113. Вячеслав Сачков.
> > которые усиленно бумажные книги дигитализируют традиционным путем.
>
> Я слабо себе представляю, что это такое - традиционный путь.
> Скан + текстовый OCR? Ну так это имеет смысл только для белетристики, тут текст "гладкий".

Юзер (в широком понимании этого слова) туп, делает по-тупому. Файнридер - Save as.. и все дела. Что тут непонятного?

>
> А любая техническая литература и большинство учебников - этим путем не пролезет. Формулы/диаграммы/таблицы/схемы...
> О них и идет разговор. В каком формате готовить, в каком хранить, как представлять пользователю.

Ворд - html в подавляющем большинстве случаев легко схватывают. Если там язык редкий типа иврита или знаки, отсутствующие в наборе символов ворда, тогда вопрос есть. Но в общем случае это очень редко бывает.

>
> А "гладкий" текст - с ним все ясно и без этого. Да. Традиционный путь, и никаких гвоздей.

Дык.

116. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:12:27 [ответить]
> 115. InFAiR.
> Думаю в следующей версии Fine Reader будет читать и djvu.

Не будет.

СООБЩЕНИЯ ЗА 25.01.2003

115. InFAiR, Уфа (infair@rusoil.net) 13:56:22 [ответить]
> 111. Эмин.

> Возможно ли опять переформатировать из dejavu в tif?
> А если потом нужно будет распознать эти файлы?
> Кажется Fine Reader не воспринимает dejavu?

Возможно.
Мы храним и tif.
С совершенствованием Fine Reader-а мы перераспознаем материал.
Думаю в следующей версии Fine Reader будет читать и djvu.

114. Максим Мошков, 13:39:06 [ответить]
> 113. Вячеслав Сачков.
> которые усиленно бумажные книги дигитализируют традиционным путем.

Я слабо себе представляю, что это такое - традиционный путь.
Скан + текстовый OCR? Ну так это имеет смысл только для белетристики, тут текст "гладкий".

А любая техническая литература и большинство учебников - этим путем не пролезет. Формулы/диаграммы/таблицы/схемы...
О них и идет разговор. В каком формате готовить, в каком хранить, как представлять пользователю.

А "гладкий" текст - с ним все ясно и без этого. Да. Традиционный путь, и никаких гвоздей.

113. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:30:13 [ответить]
> 110. Максим Мошков.
> > Если по предлагаемой технологии взять обрабатывать фонд "ленинки", на это уйдет все равно более 500 лет. Веком раньше, веком позже - великая разница...
>
> Если по предлагаемой технологии установить не 2 сканера, а 200, то весь фонд ленинки будет сосканирован за 10 лет.
> (И при этом - уничтожены все оригиналы ;^)

Допустим, эта технология самая лутчшая. Но буквально во всех ведомственных библиотеках сейчас сканерщиков заводят, которые усиленно бумажные книги дигитализируют традиционным путем. Очень даже шустро дело идет. Вообще уйма книг переснимается, причем, бывает, одно и то же разные ведомства дублируют по несколько раз. Теперь еще ленинка к этому дурдому подключится, и все замечательно будет...

СООБЩЕНИЯ ЗА 24.01.2003

112. Максим Мошков, 17:54:18 [ответить]
> 111. Эмин.
> Возможно ли опять переформатировать из dejavu в tif?

Без этой возможности Dejavu никому бы не был нужен.

111. Эмин, Баку (azeribooks@narod.ru) 17:01:36 [ответить]
> 110. Максим Мошков.
> Книги кодируются в dejavu - 15-30 кб на страницу.

А если потом нужно будет распознать эти файлы? Кажется Fine Reader не воспринимает dejavu? Возможно ли опять переформатировать из dejavu в tif?

110. Максим Мошков, 11:52:16 [ответить]
> 109. Вячеслав Сачков.
> > Книги представляются и читаются в графическом виде.
> Вы не обратили внимание на ту деталь, что оригинал, с которого в принципе могло делаться считывание, притом уничтожается.

Книги представляются в графическом виде. 300 dpi вполне достаточно, чтобы при чтении ничего не потерять.

> Кроме того, проблема 100-километровые тифы туда-сюда таскать.

Книги кодируются в dejavu - 15-30 кб на страницу.

> Но если это, к примеру, словарь, опечатки в котором могут привести к существенному искажению содержания технической документации и далее к серьезной техногенной катастрофе? Ошибки должны быть исключены на все 100%.

Книги представляются в графическом виде. 300 dpi.

> Если по предлагаемой технологии взять обрабатывать фонд "ленинки", на это уйдет все равно более 500 лет. Веком раньше, веком позже - великая разница...

Если по предлагаемой технологии установить не 2 сканера, а 200, то весь фонд ленинки будет сосканирован за 10 лет.
(И при этом - уничтожены все оригиналы ;^)

109. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 03:22:52 [ответить]
> 107. Максим Мошков.
> > 106. Вячеслав Сачков.
> > Халтура.
>
> Книги представляются и читаются в графическом виде.
> Их не зачем вычитывать.

Вы не обратили внимание на ту деталь, что оригинал, с которого в принципе могло делаться считывание, притом уничтожается. Т.е. если вдруг распознавать/вычитывать понадобится, то это может оказаться невозможным. Кроме того, проблема 100-километровые тифы туда-сюда таскать. Еще более серьезная проблема заключается в следующем. В локальном проекте такая технология, как и традиционная может принципиально применяться за отсутствием лучшей. Но для глобального применения она не годится. Если в литературных текстах будут допущены опечатки, ничего особенно страшного не произойдет, читатель может это понять и пережить без инфаркта. Но если это, к примеру, словарь, опечатки в котором могут привести к существенному искажению содержания технической документации и далее к серьезной техногенной катастрофе? Ошибки должны быть исключены на все 100%. Спешка необходима при ловле блох и когда находишься в гостях у чужой жены, это понятно. А в данной ситуации она недостаточно оправдана. Если по предлагаемой технологии взять обрабатывать фонд "ленинки", на это уйдет все равно более 500 лет. Веком раньше, веком позже - великая разница...

СООБЩЕНИЯ ЗА 23.01.2003

108. Ихтик, Уфа (iht57@mail.ru) 13:36:53 [ответить]
Делюсь имеющейся у меня информацией с господами держателями библиотек и их сотрудниками.
По нижеследующим адресам вы можете узнать веб-адреса самих библиотек. Если у вас есть что прибавить к списку - пжалста напишите

Приёмные любых электронных текстов:
[email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected]

приём исключительно философских текстов:
[email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected]

Приём правовой (юридической) литературы:
[email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected]

Любая учебная лит-ра:
[email protected], [email protected]

библиотека литературы сумеречного настроения (http://www.literature.gothic.ru/>http://www.literature.gothic.ru/)
[email protected]

Только русские тексты русских авторов:
[email protected]

107. Максим Мошков, 12:58:20 [ответить]
> 106. Вячеслав Сачков.
> Халтура.

Книги представляются и читаются в графическом виде.
Их не зачем вычитывать.

106. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:23:50 [ответить]
> 105. InFAiR.
> > А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))
>
> Книги не вычитываются.

Это типа: "Казнить нельзя помиловать"? Халтура.

СООБЩЕНИЯ ЗА 21.01.2003

105. InFAiR, Уфа (infair@rusoil.net) 12:43:43 [ответить]
> А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))

Книги не вычитываются.
Почти вся обработка производится программно.
Некоторые брошюры и глазами прочитать трудно.
В таких изданиях максимальная ошибка 70,5%.
Большинство книг удовлетворительного качества,
в них для текстовой части ошибки составляют до 0,002%.
Есть книги до 900 стр. без единой ошибки, но это исключение.
В среднем (на 1 тыс. книг) ошибка - 0,0025%.
Это, конечно больше, чем норма РГБ (0,0001%) -
по стандарту допускается 1 ошибка на 10 тыс. слов,
но на качество поиска это почти не влияет:
в среднем (на 100 книг) - 99,99% для обычного поиска;
122% для вероятностного (fuzzy) поиска,
за счет снижения релевантности на 20-25%.

104. ЯVR, 08:18:42 [ответить]
> 103. Максим Мошков.
> > 102. ЯVR.
> > А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))
>
> Они их в графическом виде хранят, "as is".
> А распознают автоматом - чтоб было что индексеру-поисковику скормить. Для полнотекстового поиска. А читают - в графическом режиме.
>
> Правда, книжки приходится резать. Но с другой стороны - а что их жалеть.

В графическом... ясно... а то я думал что за скорости космические :)))

103. Максим Мошков, 01:58:18 [ответить]
> 102. ЯVR.
> А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))

Они их в графическом виде хранят, "as is".
А распознают автоматом - чтоб было что индексеру-поисковику скормить. Для полнотекстового поиска. А читают - в графическом режиме.

Правда, книжки приходится резать. Но с другой стороны - а что их жалеть.

СООБЩЕНИЯ ЗА 20.01.2003

102. ЯVR, 20:12:07 [ответить]
> 101. Абызгильдин А.Ю..

> > Сколько стоит сканирующий комплекс, вместе с софтом?
> > Сколько человек работают в технологической цепочке?
> > Какой об'ем в dejavu занимает в среднем одна 300-страничная книжка?
> > Я читал где-то, что dejavu жмет одну страницу в 15-30Кб. Это правда?
>
> у нас 2 сканера по 3 тыс.$ каждый.
> ПО входит в комплект поставки.
> Работает обычно 1 человек.
> 1 книга - около 5-6 МВ.
> В djvu стр. 15-20 КВ - правда.

А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))

101. Абызгильдин А.Ю., Уфа (infair@rusoil.net) 18:11:40 [ответить]

> Сколько стоит сканирующий комплекс, вместе с софтом?
> Сколько человек работают в технологической цепочке?
> Какой об'ем в dejavu занимает в среднем одна 300-страничная книжка?
> Я читал где-то, что dejavu жмет одну страницу в 15-30Кб. Это правда?

у нас 2 сканера по 3 тыс.$ каждый.
ПО входит в комплект поставки.
Работает обычно 1 человек.
1 книга - около 5-6 МВ.
В djvu стр. 15-20 КВ - правда.

100. Максим Мошков, 13:27:01 [ответить]
> 96. Ответ тов. N.
> производительность - 960 книг.
> Качество - стандартное - 300 dpi, больше и не нужно.
> 30 мин./книга - на кодирование в djvu и распознавание в txt,

Вопросы от любопытного:

Сколько стоит сканирующий комплекс, вместе с софтом?
Сколько человек работают в технологической цепочке?
Какой об'ем в dejavu занимает в среднем одна 300-страничная книжка?
Я читал где-то, что dejavu жмет одну страницу в 15-30Кб. Это правда?

99. Максим Мошков, 13:13:15 [ответить]
> 97. PDF-библиотека.
> Надеюсь, что у Вадима такой проблемы нет.
> Тем более у Максима :)))))

Я тоже на это надеюсь. С 1.5T месячного трафика такие проблемы - довольно болезненны.

> Возможно, что аудио в формате WAV тоже будут больше скачивать, чем mp3???

А угадайте с одного раза.

98. Zmiy, Минск (zmiy@inbox.ru) 11:24:19 [ответить]
> 97. PDF-библиотека.
>
> Мои тексты, как и Ваши, уважаемый Змий, выкладываются в doc в библиотеке Вадима Ершова, мне хватает моего хаоса файлов :)). И не интересно, сколько у меня скачивают, до тех пор, пока мне не надо будет доплачивать. Не знаю, как в России, но в Германии: если у меня будут скачивать больше чем ..Гб, то мне, за каждый последующий Мв придется платить. Надеюсь, что у Вадима такой проблемы нет. Тем более у Максима :)))))
> Возможно, что аудио в формате WAV тоже будут больше скачивать, чем mp3???

Ну, то что сейчас появляется у В.Ершова - это одно, а вот то что раньше было у В.Е. нету...
Стоит ли конвертить в PDF, если его, кроме как в Acrobat Reader, просто так никуда не всунешь...

Continue