Список форумов |  Добавить сообщение |  Правила |  26.11.2024, вторник, 23:12:40
СПИСОК ФОРУМОВ
26.11.2024
22:07 Главная гостевая книга библиотеки(3669)
24.11.2024
16:42 "Разыскиваются книжки", доска объявлений(15475)
20.11.2024
11:47 Обо всем - мнения(3131)
07:16 Русские впечатления о заграничной жизни(9431)
01.10.2024
13:10 Проблемы OCR и электронных библиотек(1967)
09.09.2024
04:35 Книжки, которые скоро будут выложены(47)
06.05.2024
02:06 О возвышенной поэзии(1568)
02.02.2024
15:33 Книжки, которые стоит прочитать(5187)
12.11.2023
00:25 Мнения читателей о дизайне библиотеки(1478)
Lib.Ru

Проблемы OCR и электронных библиотек
Тема форума: В этом форуме обсуждаются общие проблемы связанные с поддержкой электронных библиотек и сканированием книг.

А так же обсуждение статьи Вадима Ершова "О коллективных сайтах"

Отсортировано по [убыванию] [возрастанию]   

СООБЩЕНИЯ ЗА 19.01.2003
97. PDF-библиотека, Augsburg, Germany (info@imwerden.de) 22:21:25 [ответить]
      > 95. Zmiy.
      > > PDF-библиотека - www.imwerden.de .
      > А вот для эксперимента не можешь выкладывать тексты не только в PDF, но и скажем в DOC ??? И поcмотреть по статистике, что больше будут скачивать!.. Сомневаюсь, что победит PDF...
     
      Мои тексты, как и Ваши, уважаемый Змий, выкладываются в doc в библиотеке Вадима Ершова, мне хватает моего хаоса файлов :)). И не интересно, сколько у меня скачивают, до тех пор, пока мне не надо будет доплачивать. Не знаю, как в России, но в Германии: если у меня будут скачивать больше чем ..Гб, то мне, за каждый последующий Мв придется платить. Надеюсь, что у Вадима такой проблемы нет. Тем более у Максима :)))))
      Возможно, что аудио в формате WAV тоже будут больше скачивать, чем mp3???


СООБЩЕНИЯ ЗА 18.01.2003
96. Ответ тов. N, Уфа (infair@rusoil.net) 14:49:12 [ответить]
      ОК. Продолжим.
      Мы не понимаем друг друга, и это нормально,
      т.к. Вы смотрите на проблему с одной стороны, а я с другой
      (дело тут не в том, что Вы "гуманитарий", а я "технарь").
     
      Позвольте, я поясню свой взгляд на информацию, так как я это понимаю,
      с точки зрения химика-технолога по переработке нефти, каковым и являюсь.
     
      В технологической цепочке любого производства
      для получения из сырья продукта необходимо
      сырье найти - переработать - продать продукт.
     
      По части переработки у нас проблем нет:
      При скорости сканирования 30 стр./мин,
      исходя из 9600 минут в месяце и 300 стр. в книге, производительность - 960
      книг.
      Качество - стандартное - 300 dpi, больше и не нужно.
      30 мин./книга - на кодирование в djvu и распознавание в txt,
      но в компьютерах у нас недостатка нет - около 30 компьютеров хватает,
      чтобы 1000 книг переработать за неделю-другую.
      Почему Вы решили, что мы сохраняем в doc или, тем паче в html ?
      В гиперссылках необходимости нет,
      и в перспективе мы такой вопрос не рассматриваем, т.к. он у нас позади.
      Во-первых, все книги (по моей специальности) у меня под рукой
      в электронном виде; поисковая программа выводит их мне все.
      Во-вторых, реферат со всеми выписками и ссылками составляется
      автоматически даже не в секунды, а в доли секунды.
     
      Проблема (по части гуманитарной литературы) - в первом и последнем звене:
      Сырье найти и продукт продать.
      Кстати, не далее, как вчера я наблюдал такую картину.
      Из подвала нашего университета вывезли в макулатуру грузовик,
      в т.ч. Ленин, Сталин, и почти все, что я привел в списке,
      переведенной в электронный вид литературы.
      Директор библиотеки меня успокоила,
      что экземпляры для разрезания и сканирования остались.
     
      Так что в сырье, оказывается, тоже особой проблемы нет.
      Остается продажа продукта, без которой не найти средств,
      для развития гуманитарных библиотек - целенаправленного,
      а не усилиями энтузиастов-одиночек.
     
      Мои расчеты здесь расходятся с Вашими, т.к. я иду по восходящей - от
      себестоимости.
      Допустим, минимально, себестоимость перевода книги в 300 стр. - 100 руб.
      Это цена демпинговая, т.к. предложения дают цену от 0,5 до 6 руб. за стр.
      Тысяча книг, а это довольно солидная библиотека, соответственно, 100 тыс. рублей.
      Сумма, поверьте, смешная для такого объема работы.
      Естественно, таких денег у гуманитариев нет, так скиньтесь!
      50 организаций могут купить за пару тысяч библиотеку в тысячу книг?
      При этом цена 1 книги в библиотеке 2 рубля!
     
      Конечно, такие расчеты встречаются с нашей "суровой" действительностью.
      По России десятки тысяч библиотек, тысячи университетов и институтов,
      сотни "объединений" и десятки фондов, финансирующих "электронные
      библиотеки",
      которые занимаются копированием и сбором "ссылок и гиперссылок".
      Например, в интернете я насчитал 26 электронных библиотек,
      приводящих ссылку на ELSEVIER и т.п.
      А кто и когда займется организацией наших электронных библиотек?
      Если не Вы - гуманитарными или Я - техническими?
     
      Абызгильдин А.Ю.


СООБЩЕНИЯ ЗА 17.01.2003
95. Zmiy, Минск (zmiy@inbox.ru) 16:18:41 [ответить]
      >
      > PDF-библиотека - www.imwerden.de .
      >
     
      А вот для эксперимента не можешь выкладывать тексты не только в PDF, но и скажем в DOC ???
      И поcмотреть по статистике, что больше будут скачивать!..
      Сомневаюсь, что победит PDF...


СООБЩЕНИЯ ЗА 14.01.2003
93. Сергей Сотников, Минск 20:04:36 [ответить]
      > 91. Вячеслав Сачков.
      > > 86. Эмин.
      > > > 84. Вячеслав Сачков.
      > > > > 81. Павел.
      > > У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла...
      > Я на сидюке у друга видел такую прогу, он обещал мне этот диск дать. Сам он ее пробовал и хвалил. Когда даст, посмотрю, отвечу по существу.
     
      Попробуй ClearTXT (http://www.gribuser.ru/freeware/cleartxt/index.shtml>http://www.gribuser.ru/freeware/cleartxt/index.shtml)
      Мощная программа. Вот описание из хелпа:
     
      -----------------------------------------------------
     
      Программа преобразует текстовые файлы в HTML. Параграфы, заголовки, эпиграфы и прочие элементы документа выявляются и сохраняются в виде форматирования HTML. Так же в программу встроен ╚Reader╩ со всеми необходимыми функциями.
     
      Программа способна распознать практически любой текст, начиная от созданного в ╚лексиконе╩ и заканчивая псевдо-html из библиотеки Мошкова (с опорой на теги и вместо абзацев).
     
      Широко понятная аналогия ╚автоформат╩ в MS Word. Разница (огромная) в качестве распознавания и возможностях управления процессом.
     
      Если Вы хоть раз сталкивались с задачей переформатирования текстовых файлов, Вы уже знаете, насколько это непросто. Эта программа оправдает ваши самые смелые ожидания и сделает этот процесс если не элементарным, то максимально производительным и удобным как для End-Usera, так и для пользователя с особыми предпочтениями.
     
      Reader позволяет делать заметки, закладки, форматировать весь документ под ваши предпочтения (например, сделать зеленый текст на черном фоне с шрифтом Verdana 14 пунктов) и многое другое. Все изменения (например, заметки) сохраняются и доступны в любом Web Browser-е.
     
      Программа включает все операции, необходимые при работе с e-Book. Большинство электронных книг на русском существуют в виде текстовых файлов, с помощью этой программы Вы можете подготовить электронную книгу к чтению, настроить ее внешний вид в соответствии с вашими предпочтениями и комфортно прочитать ее.
     
      -----------------------------------------------------


92. Эмин, Баку (azeribooks@narod.ru) 08:50:47 [ответить]
      > 90. Максим Мошков.
      > > 88. Эмин.
      > > выдает ошибку на этом участке:
      > > ChangeFileOpenDirectory "C:\WINDOWS\TEMP\"
      > > ActiveDocument.SaveAs FileName:="C:\BBS\moshkow.txt",
      >
      > Kaк насчет - создать директорию c:\BBS ?
     
     
      И директорию создал, все равно не работает, пишет Compile Error: Sintax Error. Может у меня Windows2000 стоит - поэтому макрос не работает.


91. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:50:21 [ответить]
      > 86. Эмин.
      > > 84. Вячеслав Сачков.
      > > > 81. Павел.
      > У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла Word, например если в Ворде файл "весил" 1600 Кб, то при сохранении его в .htm он уже "весит" 2200 Кб. Есть ли какие либо спец. программы позволяющие корректно переводить тексты в .html?
      Я на сидюке у друга видел такую прогу, он обещал мне этот диск дать. Сам он ее пробовал и хвалил. Когда даст, посмотрю, отвечу по существу.


СООБЩЕНИЯ ЗА 13.01.2003
90. Максим Мошков, 20:47:12 [ответить]
      > 88. Эмин.
      > выдает ошибку на этом участке:
      > ChangeFileOpenDirectory "C:\WINDOWS\TEMP\"
      > ActiveDocument.SaveAs FileName:="C:\BBS\moshkow.txt",
     
      Kaк насчет - создать директорию c:\BBS ?
     
      > Zmiy,
      > Я ТАКИЕ БИБЛИОТЕКИ НИКОМУ НЕ МОГУ РЕКОМЕНДОВАТЬ...
     
      Змий, не нервничай. Лучше уж так, чем вообще никак. Должен же бестлайбрари покрывать свои расходы - сканирование книг, и особенно хостинг - обходится ему в серьезные деньги.


89. Zmiy, Минск (zmiy@inbox.ru) 17:33:55 [ответить]
      А ТАКИХ ДЕБИЛОВ КАК НА http://www.bestlibrary.ru>http://www.bestlibrary.ru ЕЩЕ НАДО ПОИСКАТЬ !!!
      ТЕПЕРЬ У НИХ НЕЛЬЗЯ КАЧАТЬ ФАЙЛ ЧЕРЕЗ ПРОГРАММЫ С ДОКАЧКОЙ... ДАЖЕ "СОХРАНИТЬ КАК..." НЕ РАБОТАЕТ - НУЖНО ЖАТЬ НА ССЫЛКУ... ВО ДОЖИЛИ...
      Я ТАКИЕ БИБЛИОТЕКИ НИКОМУ НЕ МОГУ РЕКОМЕНДОВАТЬ...


88. Эмин, Баку (azeribooks@narod.ru) 16:44:38 [ответить]
      > 87. Максим Мошков.
      > > 86. Эмин.
      >
      > > У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла Word, например если в Ворде файл "весил" 1600 Кб, то при сохранении его в .htm он уже "весит" 2200 Кб. Есть ли какие либо спец. программы позволяющие корректно переводить тексты в .html?
      >
      > Если сохранять просто в txt, размер файла будет порядка 400Кб
      >
      > Примерно 10% вордовых файлов содержат значимую хтмл-разметку - для их конвертации можно воспользоваться макросом, переводящим стили "bold", "italic", "underline", "subscribe" в хтмл-теги, с последующим сохранением в txt
      >
      >
      > http://www.lib.ru/COMPULIB/wordmacros.txt>http://www.lib.ru/COMPULIB/wordmacros.txt
     
     
      Максим, я попытался записать Ваш макрос в Ворд2000, но он выдает ошибку на этом участке:
      ChangeFileOpenDirectory "C:\WINDOWS\TEMP\"
      ActiveDocument.SaveAs FileName:="C:\BBS\moshkow.txt", FileFormat:=
      _
      wdFormatText, LockComments:=False, Password:="",
      AddToRecentFiles:=True, _
      WritePassword:="", ReadOnlyRecommended:=False,
      EmbedTrueTypeFonts:=False, _
      SaveNativePictureFormat:=False, SaveFormsData:=False,
      SaveAsAOCELetter:= _
      False
      ActiveDocument.Close
      End Sub
     
      Я не очень то силен в этих делах, поэтому прошу обьяснить, что я делаю не так. Может он записан у Вас для Ворд97 и поэтому у меня ничего не получется.


87. Максим Мошков, 14:13:52 [ответить]
      > 86. Эмин.
     
      > У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла Word, например если в Ворде файл "весил" 1600 Кб, то при сохранении его в .htm он уже "весит" 2200 Кб. Есть ли какие либо спец. программы позволяющие корректно переводить тексты в .html?
     
      Если сохранять просто в txt, размер файла будет порядка 400Кб
     
      Примерно 10% вордовых файлов содержат значимую хтмл-разметку - для их конвертации можно воспользоваться макросом, переводящим стили "bold", "italic", "underline", "subscribe" в хтмл-теги, с последующим сохранением в txt
     
     
      http://www.lib.ru/COMPULIB/wordmacros.txt>http://www.lib.ru/COMPULIB/wordmacros.txt


86. Эмин, Баку (azeribooks@narod.ru) 12:09:34 [ответить]
      > 84. Вячеслав Сачков.
      > > 81. Павел.
      > > Проблема такая: в Word 97 начинаю сохранять файлы в *html. Какие-то сохраняются нормально, какие-то выдают недопустимую ошибку. В чем проблема?
      >
      > Не понял, зачем такие извращения. Насколько представляю, это бывает оправданно лишь тогда, когда не получается сохранить файл в онлайне интэксплорером. Но тут, похоже, какой-то другой случай. А если тот, тот сам ворд тут не особо причем. Он делает все, что в его силах...
     
      Вячеслав, у меня похожий вопрос. После сканирования и распознавания текста я обычно сохранию его в Word. Потом вычитка и также сохраняю файл из Word-а в .Htm
      У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла Word, например если в Ворде файл "весил" 1600 Кб, то при сохранении его в .htm он уже "весит" 2200 Кб. Есть ли какие либо спец. программы позволяющие корректно переводить тексты в .html?


85. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 04:37:13 [ответить]
      Резюме по обращению В.Ершова
      1. Обязательно нужна двойная страховка. ОДНА lib.ru проекта не вытянет. При ожидаемых оборотах бакап фигня. Нужно, как минимум, еще одно хорошее зеркало, бакапящееся в некоторой противофазе.
      2. Обязательно нужны паспортички по типу заведенных Перли (РНСБ aka OREL).


СООБЩЕНИЯ ЗА 10.01.2003
84. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 05:05:56 [ответить]
      > 81. Павел.
      > Проблема такая: в Word 97 начинаю сохранять файлы в *html. Какие-то сохраняются нормально, какие-то выдают недопустимую ошибку. В чем проблема?
     
      Не понял, зачем такие извращения. Насколько представляю, это бывает оправданно лишь тогда, когда не получается сохранить файл в онлайне интэксплорером. Но тут, похоже, какой-то другой случай. А если тот, тот сам ворд тут не особо причем. Он делает все, что в его силах...


СООБЩЕНИЯ ЗА 09.01.2003
83. Anonymous, 22:53:03 [ответить]
      > 82. Иван.
      > С некоторых пор страдаю навязчивой идеей скачать папку ПРОЗА. Целиком. Эксперимент начал со Стругатских. Первый этап прошел безболезненно - /CpioGzip.cpz и на винчестере обнаружился файл CpioGzip.cpz. Затем я, согластно прилагающейся инструкции, скопировал себе cpio.exe и gzip.exe. Запустил их: сперва gzip.exe -d CpioGzip.cpz cpiogzip.cp (в этот момент место файла CpioGzip.cpz занял CpioGzip.cp), потом cpio.exe -idmv cpiogzip.cp. В ответ высветилось недвусмысленное CPIO: Unrecognizable archive. Люди знающие, подскажите, пожалуйста, как в этой ситуации поступить?
     
      Попробуйте cpio.exe -idmv < cpiogzip.cp


82. Иван, Новосибирск (castle@gorodok.net) 19:14:46 [ответить]
      С некоторых пор страдаю навязчивой идеей скачать папку ПРОЗА. Целиком. Эксперимент начал со Стругатских. Первый этап прошел безболезненно - /CpioGzip.cpz и на винчестере обнаружился файл CpioGzip.cpz. Затем я, согластно прилагающейся инструкции, скопировал себе cpio.exe и gzip.exe. Запустил их: сперва gzip.exe -d CpioGzip.cpz cpiogzip.cp (в этот момент место файла CpioGzip.cpz занял CpioGzip.cp), потом cpio.exe -idmv cpiogzip.cp. В ответ высветилось недвусмысленное CPIO: Unrecognizable archive. Люди знающие, подскажите, пожалуйста, как в этой ситуации поступить?


81. Павел, (Lib_Pavel@km.ru) 17:09:49 [ответить]
      Проблема такая: в Word 97 начинаю сохранять файлы в *html. Какие-то сохраняются нормально, какие-то выдают недопустимую ошибку. В чем проблема?


80. lanky, Ufa 08:51:45 [ответить]
      п╞ п╫п╣ я п╬п╡я п╣п╪ п©п╬п╫я п╩ я п╩я я я пёп╧ я п╣п╨я я п╡
      http://lib.ru/URIKOVA/etika.txt:>http://lib.ru/URIKOVA/etika.txt:
     
      ->п п╟п╢п╫п╬я я я п©я пёп╣п╪ п╫п╟я п╨п╬я пёп╨п╬п╡<-, я п╟п╥п╩пёя п╫я п╣ п╫п╟я пёя п╟п╫пёя пёп╩пё п╨п╬п╫я п╣п╫я я п╟я пёпё. п╜я п╬ п╢п╬п╩п╤п╫п╬ п╠я я я п╪я я п╩п╣п╫пёп╣ п╬п╠ п╬п╠я п╣п╪ п╠п╩п╟пЁп╣, п©п╬п╪п╬я я , я п╣я п©пёп╪п╬я я я пё п╩я п╠п╬п╡я
     
      п╒п╬ п╩пё я п╟п╪п╟ п╨п╫пёпЁп╟ п╫п╟п©пёя п╟п╫п╟ п╨п╬я я п╡п╬, я п╬ п╩пё я п╟я п©п╬п╥п╫п╟п╫п╬ я я п╣п╫п╬п╡п╬


СООБЩЕНИЯ ЗА 08.01.2003
79. bmn, 08:43:05 [ответить]
      > я имел в виду "Эйнштейн. Как я вижу мир"
      Значит отправлять Мошкову - [email protected]
     
      > > А вообще-то вопрос не в тот форум задан.
      >
      > А как интерпретировать "OCR"?
      Optical Character Recognition :))
     
      > А как интерпретировать "ить"?
     
      Понятия не имею


СООБЩЕНИЯ ЗА 05.01.2003
78. [марат], н.челны (maratustra@yandex.ru) 12:26:08 [ответить]
      > 77. bmn.
      > > 75. [марат].
      > > простите,алексей...но вопрос модератору - каким образом я могу "подвесить" на либ перевод произведения (соответственно либ.ру сского)
      >
      > Что значит "подвесить"? Если имеется в виду Ваш перевод известного писателя то отправлять Мошкову, если неизвестного, то в "Самиздат"
     
      я имел в виду "Эйнштейн. Как я вижу мир"
     
      > А вообще-то вопрос не в тот форум задан.
     
      А как интерпретировать "OCR"?
      А как интерпретировать "ить"?


77. bmn, 08:58:11 [ответить]
      > 75. [марат].
      > простите,алексей...но вопрос модератору - каким образом я могу "подвесить" на либ перевод произведения (соответственно либ.ру сского)
     
      Что значит "подвесить"? Если имеется в виду Ваш перевод известного писателя то отправлять Мошкову, если неизвестного, то в "Самиздат"
     
      А вообще-то вопрос не в тот форум задан.


СООБЩЕНИЯ ЗА 04.01.2003
76. Eugeny, Екатеринбург (odz@etel.ru) 23:13:26 [ответить]
      Уважаемые господа!
      Существует ли способ перевода Ваших текстов из .txt в .pdb, чтобы было удобно всегда носить с собой!
      С уважением,
      Евгений.


75. [марат], н.челны (maratustra@yandex.ru) 14:10:55 [ответить]
      простите,алексей...но вопрос модератору - каким образом я могу "подвесить" на либ перевод произведения (соответственно либ.ру сского)


74. [марат], н.челны (maratustra@yandex.ru) 13:48:35 [ответить]
      ершову (по поводу статьи): не вопрос, а скорее реплика поддержки...


СООБЩЕНИЯ ЗА 03.01.2003
73. алексей, Самара (novator@samaramail.ru) 22:12:03 [ответить]
      На сайте www.lib.ru у меня возникает такая проблема.Не весь текст который я скачиваю, скачивается нормальною.Какаето честь текста представляет собой набер букв и цифр.Как мне с этим справится?


СООБЩЕНИЯ ЗА 02.01.2003
71. Фёдор Москалейчик, Москва (potock@pochtamt.ru) 21:51:23 [ответить]
      КЛАССНАЯ КНИГА!!! PROSTOR.BY.RU
     
     
      Молодой писатель-мистик Фёдор Москалейчик недавно опубликовал свою книгу с эпатажным названием "СОБРАНИЕ СОЧИНЕНИЙ, которые наглая глупость автора осмелилась выставить на суд читателя".
     
      Виртуальная копия книги в виде .zip-архива и on line расположена на сайте prostor.by.ru (а также на зеркале prostor.newmail.ru)
     
      Несмотря на молодость автор уже выработал свой стиль, отличающийся легкостью языка, живой образностью и аффективной насыщенностью.


СООБЩЕНИЯ ЗА 29.12.2002
70. PDF-библиотека, Augsburg (info@imwerden.de) 12:18:33 [ответить]
      > 68. Сергей Сотников.
      > Добрый день.
      > Среди моих pdf-книг есть несколько экземпляров, в которых не разботает сглаживание текста. Не подскажете ли, в чем проблема, и как ее исправить?
     
      Это обозначает, что эти pdf сделаны на компьютерах без правильной установки русских шрифтов. При этом буквы становятся картинками с оптимальным расширением (не большим и не маленьким).
      Помочь в этом случае нечем. PDF-Файл это конечный продукт, как, грубо говоря, распечатанный на бумаге текст.


69. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:58:30 [ответить]
      > 65. pdf-библиотека.
      > По поводу обращения Вадима Ершова. Размышления
      >
     
      > Если признать библиотеку Машкова - главной, то необходимо, чтобы у него были самые разнообразные форматы файлов. Ведь классическая Библиотека - это собрание не текстов, а изданий. Об этом косвенно говорит Вадим.
     
      Впрочем, еще подумав, проблему предотвращения путаницы, на которую я все время указывал, можно решить, приняв предложение авторов проекта "OREL" (и реализованное на ОРЛе и в "Милитерре"), а именно, если тексты, которые будут сгоняться на общие сервера, снабжать объяснительной паспортичкой. Для сканерщиков-библиотекарей, которые держат сравнительно небольшое количество текстов, это было бы вполне по силам. Сложнее тем, у кого текстов уж очень много - тысячи и десятки тысяч. Но для сайтов с объемом до нескольких сот файлов в собственных файлохранилищах это вполне реализуемо.


68. Сергей Сотников, Минск 00:40:39 [ответить]
      Добрый день.
      Среди моих pdf-книг есть несколько экземпляров, в которых не разботает сглаживание текста. Не подскажете ли, в чем проблема, и как ее исправить?


СООБЩЕНИЯ ЗА 27.12.2002
67. Zmiy, Минск (zmiy@inbox.ru) 14:20:42 [ответить]
     
      Для хозяев эл.б-ки www.bestlibrary.ru :
     
      Я НЕНАВИЖУ ДЕБИЛОВ, КОТОРЫЕ УКАЗЫВАЮТ МНЕ ЧЕРЕЗ КАКУЮ СТРАНИЧКУ ВХОДИТЬ НА САЙТ!
     
      ЗАЧЕМ НАСТАВИЛИ СКРИПТОВ НА ЗАГРУЗКУ СТРАНИЧКИ www.bestlibrary.ru/index2.html ??? РАНЬШЕ СПОКОЙНО ЗАГРУЖАЛ ЕЁ, А ТЕПЕРЬ ИДЕТ РЕФРЕШ НА СТАРТОВУЮ СТРАНИЦУ!
     
      С МОИМ ИНТЕРНЕТОМ Я ДОЛЖЕН ПОЛЧАСА ЖДАТЬ ЗАГРУЗКИ ИХ СТАРТОВОЙ СТРАНИЧКИ, ЧТОБ ПОТОМ НАЖАТЬ ССЫЛКУ www.bestlibrary.ru/index2.html И ЕЩЕ ПОЛЧАСА ЖДАТЬ ЗАГРУЗКИ ИХ ГРЁ***ЫХ ФРЕЙМОВ !? Я УЖ НЕ ГОВОРЮ О ЗАГРУЗКАХ СТРАНИЦ АВТОРОВ И СТРАНИЦ ТЕКСТОВ...
     
      СДЕЛАЙТЕ ЕЩЕ БОЛЬШУЮ ВЛОЖЕННОСТЬ! УМА НА ЭТО ВАМ ХВАТИТ!
      ДЛЯ КОГО ВЫ СДЕЛАЛИ СВОЮ БИБЛИОТЕКУ? ДЛЯ СПОНСОРОВ ИЛИ ДЛЯ ЧИТАТЕЛЕЙ???


66. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:57:10 [ответить]
      > 65. pdf-библиотека.
      Платонова (то, что отсканировал впервые) Машкову. Он их всё ещё не выложил. В формате txt. Кроме того - послал Вадиму Ершову - он их уже выложил в doc. А у меня всё только в pdf. Таким образом, на трёх страницах лежит одно и тоже, но в трёх разных форматах. Остаётся сделать перекрёстные ссылки и работа закончена...
      > Если признать библиотеку Машкова - главной, то необходимо, чтобы у него были самые разнообразные форматы файлов. Ведь классическая Библиотека - это собрание не текстов, а изданий. Об этом косвенно говорит Вадим.
      Ваши случаи легкие. Это один и тот же текст, только под разными именами в разных форматах, что известно. А когда приходит не очень понятно, что, да под разными именами в разных форматах, то тут уже, действительно, черт ногу сломает. Кто-то при сканинге страницы пропускает/путает, кто-то названия перевирает, а сами-то тексты, как таковые, есть. Проблема выбрать из них лучший, хотя он и с дефектами. Но это может быть даже и вовсе не то, что в заголовке. Конкретный пример. Года 3 назад на philosophy.ru валялась ссылка на "Левиафан" Гоббса. Файл где-то на 700 килов. А внутри файла вовсе никакой не Гоббс, а современная развлекательная текстуля, которая тоже "Левиафан" называется. Библиотекарь выложил без проверки. Такое бывает. Ну, и пошел этот файл до людям множиться и гулять. Вот на какую проблему я указываю. А с тем, что Вы описываете, - ясно. Это-то без проблем.


СООБЩЕНИЯ ЗА 26.12.2002
65. pdf-библиотека, Augsburg (info@imwerden.de) 13:32:39 [ответить]
      По поводу обращения Вадима Ершова. Размышления
     
      Самой лучшей, на мой, конечно, взгляд, была бы специализация библиотек по АВТОРАМ. Например, у меня в библиотеке - полное собрание Евгения Боратынского. Это - моя "специализация". А, например, сочинения Горького меня совершенно не волнуют. Зато Платонов - мой сегодняшний кумир! При этом я послал рассказы Платонова (то, что отсканировал впервые) Машкову. Он их всё ещё не выложил. В формате txt. Кроме того - послал Вадиму Ершову - он их уже выложил в doc. А у меня всё только в pdf. Таким образом, на трёх страницах лежит одно и тоже, но в трёх разных форматах. Остаётся сделать перекрёстные ссылки и работа закончена...
      Если признать библиотеку Машкова - главной, то необходимо, чтобы у него были самые разнообразные форматы файлов. Ведь классическая Библиотека - это собрание не текстов, а изданий. Об этом косвенно говорит Вадим.


СООБЩЕНИЯ ЗА 25.12.2002
64. п пЁп╬я я , п я я -п п╬я п╨ (rubinshteyn2001@yahoo.com) 21:51:00 [ответить]
      п я я я п╣я п╣ п╫п╣п©п╩п╬я п╟я п╠пёп╠п╩пёп╬я п╣п╨п╟ п╫п╟ bestlibrary.ru, пё п©п╬пёя п╨п╬п╡п╟я я пёя я п╣п╪п╟ п╫п╟ kulichki.ru


63. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:05:19 [ответить]
      По предложению В.Ершова
      Сама идея - это принцип работы фидошной файлэхи book, распространенный на инет, понятно. Мои замечания. Ни у кого вообще полного комплекта файлов, пробегавших по book, нет, хотя у людей имеются огромные архивы. Что-то по разным причинам в архивы не откладывается и не откладывается вообще нигде. Но тем не менее, имеются, повторяю, огромные архивы. Если тройку-четверку из них в один свести, то с разных узлов вольется в одну воронку дополнительно к совпадающим еще несколько сот книг. И это хорошо, это правильно. Но представим далее, что сводный узел грохнулся, а наполнявшие его, напрасно понадеявшись на его надежность, очистились. Что имеем? Исчезновение одним махом всей коллекции. Поэтому нужна, как минимум, двойная страховка. Правильно? В том же book в точности одни и те же тексты в ha-файлах, пропущенные (продублированные) с интервалом в два года и более, именовались по-разному. Это своего рода вид страховки тоже, где-то оправданный по обстоятельствам, описанным мной здесь выше. Но когда абсолютно идентичные дубли в по-разному поименованных архивах на одном и том же винте лежат, то это нужно, может быть, на случай порчи файлов, чтобы тогда стало можно использовать дубликаты. Но, а как же тогда с каталогизацией? Десятки тысяч файлов-то. В этой же путанице, которая образуется, никто никогда вообще не разберется...


СООБЩЕНИЯ ЗА 19.12.2002
62. Фёдор Москалейчик, Москва (potock@pochtamt.ru) 19:52:29 [ответить]
      КЛАССНАЯ КНИГА!!! PROSTOR.BY.RU
     
     
      Молодой писатель-мистик Фёдор Москалейчик недавно опубликовал свою книгу с эпатажным названием "СОБРАНИЕ СОЧИНЕНИЙ, которые наглая глупость автора осмелилась выставить на суд читателя".
     
      Виртуальная копия книги в виде .zip-архива и on line расположена на сайте prostor.by.ru
     
      Несмотря на молодость автор уже выработал свой стиль, отличающийся легкостью языка, живой образностью и аффективной насыщенностью.


СООБЩЕНИЯ ЗА 17.12.2002
61. Сергей, Н. Новгород (szan@mail.nnov.ru) 15:44:28 [ответить]
      Как в данной библиотеке найти т.н. "бирюльки", которыми ведала в свое время "КП" в рубрике "Verbлюд"?


СООБЩЕНИЯ ЗА 14.12.2002
60. Григорий, Ярославль 22:25:50 [ответить]
      > 59. Izvergue.
      > Помогите разобраться!
      > Отсканировал я книжку и хочу отформатировать её "под Мошкова". Какой прогой это делается?
     
      Смотри тут:
      http://lib.ru/TXT/incoming.txt>http://lib.ru/TXT/incoming.txt
      Также тут вот: http://www.lib.ru/COMPULIB/ocr_bychkov.txt>http://www.lib.ru/COMPULIB/ocr_bychkov.txt
      есть ссылка на прогу: http://www.lib.ru/COMPULIB/ocr_bychkov_textfmt.rar>http://www.lib.ru/COMPULIB/ocr_bychkov_textfmt.rar


59. Izvergue, 13:08:01 [ответить]
      Помогите разобраться!
      Отсканировал я книжку и хочу отформатировать её "под Мошкова". Какой прогой это делается?


СООБЩЕНИЯ ЗА 12.12.2002
57. Фёдор Москалейчик, Москва (potock@pochtamt.ru) 22:28:17 [ответить]
      КЛАССНАЯ КНИГА!!! RPOSTOR.BY.RU
     
     
      Молодой писатель-мистик Фёдор Москалейчик недавно опубликовал свою книгу с эпатажным названием "СОБРАНИЕ СОЧИНЕНИЙ, которые наглая глупость автора осмелилась выставить на суд читателя".
     
      Виртуальная копия книги в виде .zip-архива и on line расположена на сайте prostor.by.ru
     
      Несмотря на молодость автор уже выработал свой стиль, отличающийся легкостью языка, живой образностью и аффективной насыщенностью.


56. Виталий Папилкин, Samara (rio-tv@mail.ru) 14:41:52 [ответить]
      Предлагаю составить рейтинг библиотечно-издательских систем. Господа Участники ЛИТКЛУБА, жду ваших предложений. Какой из ресурсов, по-вашему, должен войти в список для голосования. Сейчас в нем:
     
      - Библиотека Максима Мошкова (Самиздат www.lib.ru).
     
      - Национальный сервер современной прозы (www.proza.ru).
     
      - Самиздат (www.samizdat.sol.ru).
     
      - USERLINE (www.userline.ru).
     
      - Группа 62 (www.group62.ru).
     
      - FAБРИКА.ru (http://www.f-abrika.ru>http://www.f-abrika.ru).
     
      - Локальная сеть на Таганке (http://arch.cpms.ru/office/>http://arch.cpms.ru/office/).
     
      - Самиздат - сателит сайта \"Современной гей-литературы\" (http://leshk.webservis.ru>http://leshk.webservis.ru)
     
      - Литературный журнал \"ПЕРЕФЕРИЯ\". (http://periferia.kulichki.net>http://periferia.kulichki.net).
     
      Жду ваших предложений в течении недели на e-mail, в форме ответов на это сообщение в ЛИТКЛУБЕ, а так же мнений в гостевой книге своего сайта.
     
      Напоминаю вопрос будущего голосования: \"Какая из предложенных ниже библиотечно-издательских систем, по вашему, работает лучших других?\"


СООБЩЕНИЯ ЗА 07.12.2002
55. Equin, 23:31:52 [ответить]
      > Книжечку 19-го века расшивать вряд ли позволят. Я уж не говорю об евангелиях 16-го века, которые открыть лишний раз - страшно.
      > Библиотекари даже просто светить сканерной лампой на бумагу боятся - вдруг она пожелтеет и рассыпется от этого на 40 лет раньше, и изыскивают экзотические сканеры со слабым светом, с зеленой лампой, и т.п. экзотику (за бешенные деньги). В общем - есть проблемы, есть...
     
      > Места, библиотеки, из которых невозможно вынести книгу, а со своим планшетным сканером не пустят: решение - цифровая фотокамера с 4-5Mpix (500-1000$)
     
      Я пробовал для книги формата "примерно половина А4" пользовать 2-х мегапиксельную мыльницу с макрорежимом. После фильтра, убирающего "подушку" изображения + autolevel, файнридер 6 давал 2-3 ошибки на страницу. Единственная проблема - ограниченная память фотоаппарата. Хотя можно сразу в нотбук сливать.


54. Thick-as-a-brick, (toomanyfaces@mail.ru) 11:49:02 [ответить]
      > 53. V.
      > >
      > Дамы,господа и товарищи, берите пример с этого замечательного человека, оперативно сообщайте о таких нечаянных вулканических выбросах в ноосферу, как textz.com , и будет вам щасссте.
     
     
      Вы просите книжков? Их есть у меня!
     
      http://www.blackmask.com/page.php>http://www.blackmask.com/page.php
     
      http://der.nachtwaechter.net/bottomframe.php>http://der.nachtwaechter.net/bottomframe.php
     
      http://artefact.cns.ru/cgi/library.pl?view=abc&letter=3>http://artefact.cns.ru/cgi/library.pl?view=abc&letter=3
     
      http://lib.coolparty.ru/>http://lib.coolparty.ru/
     
      http://greylib.by.ru>http://greylib.by.ru
     
      http://www2.hn.psu.edu/faculty/jmanis/jimspdf.htm>http://www2.hn.psu.edu/faculty/jmanis/jimspdf.htm


СООБЩЕНИЯ ЗА 06.12.2002
53. V, 19:31:26 [ответить]
      > 51. CTAKAH.
      > Максиму Мошкову: по-моему, немецкие подпольщики тексты в сеть грузят. Много всякого. Пока их не прикрыли, стоит может быть чего скачать? (на lib.ru в смысле..:) Или как?
      > http://textz.com>http://textz.com
     
      Дорогой и уважаемый "стакан"!
     
      Ну какой же Вы молодец!
     
      Скачана куча интересных текстов, теперь откуда-то накачать времени и здоровья всё прочесть ;) но всё равно приятно.
     
      Пью здоровье "Стакана" из элегантной рюмочки ;)
     
      Дамы,господа и товарищи, берите пример с этого замечательного человека, оперативно сообщайте о таких нечаянных вулканических выбросах в ноосферу, как textz.com , и будет вам щасссте.


52. vladimir keidan, Roma (v.keidan@tin.it) 17:08:53 [ответить]
      Многоуважаемый Леон Дотан, Вы сканировали и поместили в Библиотеку Машкова книгу И. Бунина "Воспоминания". В тексте книги много ссылок и примечаний, но к сожалению их невозможно открыть и прочитать. Я работаю над книгой о М. Семенове и издательстве "Скорпион". В "Воспоминаниях" есть цитата из статьи Семенова в газете "Русская мысль" со ссылкой 27. Мне очень важно узнать, что скрывается за этой ссылкой. Не могли бы Вы быть так любезны сообщить мне текст этого примечания. Заранее благодарю и готов к взаимным услугам.
      Владимир Кейдан, Рим


СООБЩЕНИЯ ЗА 04.12.2002
51. CTAKAH, 02:58:42 [ответить]
      Максиму Мошкову: помоему немецкие подпольщики тексты в сеть грузят. Много всякого. Пока их не прикрыли, стоит может быть чего скачать? (на lib.ru в смысле..:) Или как?
      http://textz.com>http://textz.com


СООБЩЕНИЯ ЗА 03.12.2002
50. Thick-as-a-brick, (toomanyfaces@mail.ru) 00:39:18 [ответить]
      > 48. Андрей Никитин-Перенский.
      > Всем привет.
     
      Обычные инет вымогатели и ничего больше. Полно их сейчас развелось.
     
      Я чуть не каждый день получаю угрозы занести меня во всевозможные базы рассылок спама и предложения за пару копеек не включать меня в эти базы. Гэбисты самодеятельные...
     
      Кроме того, юридически вопрос авторских прав в инете не урегулирован. Но здесь не об этом речь. Это так - мелкие инетовские шавки.
     
      В игнор.


СООБЩЕНИЯ ЗА 01.12.2002
49. Юрист, Москва 20:37:22 [ответить]
      > 48. Андрей Никитин-Перенский.
      > Ваш сайт просмотрен модератором РОМС и занесен в базу данных организаций и лиц,
      > сообщите об этом нам, чтобы модераторы РОМС исключили Вас из
      > поисково-претензионной базы.
     
      Типичный спам и вымогательство денег.
      Поставьте игнор и не обращайте внимания.


48. Андрей Никитин-Перенский, Аугсбург (info@imwerden.de) 15:52:23 [ответить]
      Всем привет.
     
      Получил письмо от РОМС - вот выдержка:
     
      "Уважаемые владельцы http://www.imwerden.de>http://www.imwerden.de!
      Ваш сайт просмотрен модератором РОМС и занесен в базу данных организаций и лиц, являющихся пользователями по Закону РФ "Об авторском праве и смежных правах".
      Использование охраняемых Законом произведений, исполнений, фонограмм разрешается только на основании договора, заключенного непосредственно с каждым правообладателем, либо на основании лицензии, полученной от специальной организации по коллективному управлению авторскими и смежными правами.
      Если Вы используете на своем сайте произведения и/или фонограммы только на основании письменных договоров с обладателями прав на них, пожалуйста, сообщите об этом нам, чтобы модераторы РОМС исключили Вас из поисково-претензионной базы.
      Если Вы не получили разрешений от правообладателей на использование их произведений, то это повлечет санкции предусмотренные действующим законодательством."
     
      Значит ли это, что мне нужно убрать со страницы всех авторов, обладателей авторских прав. А это и Пастернак и Мандельштам и Ахматова и Окуджава?.. Вот такие дела. Да, они отослали меня на свою страницу http://www.roms.ru>http://www.roms.ru, где можно скачать типовой договор с ними и платить деньги за то, сколько у меня кто скачал файлов. То есть деньги вымогают. Короче я должен платить не только за место в интернете и за то, если у меня скачают больше лимита, но еще и за конкретные скачиваемые файлы. Речь идет о моём самом большом собрании чтения стихов авторами: Бродским, Ахматовой и Пастернаком. Записи, которые достать почти не возможно ни за какие деньги!!!! А у меня лежат бесплатно и скачиваются и слушаются тысячами пользователей, которым нет никакой возможности добыть эти записи в магазине. Короче, я очень расстроен сегодня. Я конечно уберу всё, что противоречит авторскому праву, вот только как спросить наследников Ахматовой о том, можно ли опубликовывать эти чтения ею стихотворений. Да и что это за наследники - Пунины??


СООБЩЕНИЯ ЗА 28.11.2002
47. Максим Мошков, Москва 19:13:45 [ответить]
      > 46. Шумахер.
      > Маленький вопрос.
      > А как быть, если во время прочтения видишь ошибки и очепятки?
     
      http://lib.ru/TXT/incoming.txt>http://lib.ru/TXT/incoming.txt
     
      Приветствуются новые е-тексты интересных с _вашей_ точки зрения книг, а так же - поправки, замечания, вычитанные spellcheck'нутые варианты на замену существующим е-книгам.


46. Шумахер, (mail@shumaher.net) 16:56:54 [ответить]
      Маленький вопрос.
      А как быть, если во время прочтения видишь ошибки и очепятки?
      Ответ "не обращать внимания", несколько обламывает. :)
     
      Есть ли возможность направлять отчет об ошибках? И насколько своевременно они будут исправляться?
      Личного секретаря такими поручениями обременять не хочется, а ресурс Ваш оч полезный.
     
      Спасибо за понимание!
      В надежде на сотрудничество...


СООБЩЕНИЯ ЗА 24.11.2002
45. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:35:20 [ответить]
      > 42. Максим Мошков.
      > > 41. Вячеслав Сачков.
      > > проблема тугих переплетов? Дык книжачки можно аккуратненько расшить и переплести по-новой. Такая вещь широко практикуется.
      >
      > Книжечку 19-го века расшивать вряд ли позволят. Я уж не говорю об евангелиях 16-го века, которые открыть лишний раз - страшно.
      > Библиотекари даже просто светить сканерной лампой на бумагу боятся - вдруг она пожелтеет и рассыпется от этого на 40 лет раньше, и изыскивают экзотические сканеры со слабым светом, с зеленой лампой, и т.п. экзотику (за бешенные деньги). В общем - есть проблемы, есть...
      >
     
      16-й век не по моей части, а что касается 19-го, то авторитетно могу утверждать, что все действительно ценные и редкие книги Музея книги Ленинки, например, давным-давно пересняты на 35 мм и читаются они с помощью больших старинных смешных аппаратов немецкого производства. Качество съемки, по-моему, не самое лучшее, попадаются не полностью (без нескольких крайних строк) отснятые страницы, даже иногда имеет место пропуск страниц при съемке, где-то недодержка, где-то передержка, но читать в целом можно. Вопрос поэтому другой - как с этими пленками возиться. И еще есть пленки формата 6 на 9, если не ошибаюсь, американские, на каждой пленке кадров-разворотов, кажется, штук по 40, давно с этим дело имел, плохо помню. Даже уже и забыл, где эти аппараты стояли. Возможно, даже и не в Ленинке, а в каком-то архиве. На них качество текста получше было. Хорошие дорогие сканеры позволяют с такими слайдами (35 мм) работать, но что должно получаться в итоге, представляю слабо. Это все практически проверяется.


СООБЩЕНИЯ ЗА 23.11.2002
44. A.E., (eskov@mailru.com) 18:25:18 [ответить]
      Система распределенной вычитки текстов после OCR - перспективна?
     
      Отсканить текст - не проблема. По появлении некоторых навыков это делается автоматически (одновременно с просмотром телевизора :) и две-три сотни разворотов за вечер осилить можно. Но потом их надо вычитать - и это (по моему опыту) 85% от всех трудозатрат на перевод текста в электронный вид.
     
      Использование всяких общедоступных спелчекеров и персонально созданных программ - эффект дает не слишком высокий (надеюсь, пока) и текст, вычитанный глазами все-таки IMHO заметно "чище", чем тот, что "причесали" автоматизированно. Плюс к этому - смысловые ошибки, кои только головой и можно поймать (в коллекцию приколов ФайнРидера: "Солнце бросало отблеск на яйца моряков"... разумеется - "на лица" :)
     
      Возможным выходом может служить система, при которой на одного сканящего приходится несколько вычитывающих - она работает, но требует сложной организации (FTP, пересылка объемистых tif`ов и четкая координация). Как вариант такой системы меня очень заинтересовал вот этот сайт:
     
      http://texts01.archive.org/dp/>http://texts01.archive.org/dp/
     
      Мое знание английского ("матерюсь со словарем":) не позволяет всесторонне оценить найденное. Вот что пишет человек, с "подачи" которого я туда попал:
     
      ------------- цитата ----------------------------
      Желающие принять участие в этом проекте выбирают кусок работы, размером в одну страницу, система загружает им отсканированую картинку страницы из книги и рядом с ним или под ним окно для ввода текста, в котором уже загружен текст распознаный OCR программой. Задача добровольца вычитать текст, это весьма напоминает процес вычитки в FR, но менее удобно так как картинка страницы не синхронизирована с текстовым окном и ее приходится скролинговать в ручную. К тому же нет выделением цветом мест в точности распознания которых OCR не уверен.
      Зато чтобы принять участие в этом благом деле теперь не надо иметь ни сканер, ни специальные знания, ни тратить на это много времени - даже если делать одну страницу в день (5 минут для ненабившего руку) это все равно будет не малый вклад 300-350 страниц в год. Людей готовых потратить столько времени на это дело гораздо больше чем готовых в одиночку делать целую книгу, тем более большую.
      Каждая страница вычитывается как миниум дважды разными людьми плюс координатор книги просматривает помеченые ими места, где например невозможно разобрать текст.
      Что бы дать представление о возможностях этого подхода я дам статистику с их сайта с начала ноября этого года они делали более не менее стабильно около 1000 страниц в день, после того как 4 дня назад о них написал крупный новостной сайт slashdot.org они начали делать больше 10 000 страниц в день, сделав больше 15 тысяч в день аннонса. Похоже за этот месяц они сделают больше по объему чем выложенно книг во всех православные интернет библиотеки в руннете вместе взятых."
      ...
      Похожая система уже достаточно давно действует и на сайте CCEL:
      http://ccel.org/help/facsim/>http://ccel.org/help/facsim/ , а вот как их система выглядит в действии


Continue