Практичне рішення OCR для перетворення великої книги в цифровий формат?


12

Я минув вихідні за місцем моєї бабусі та дідуся. Моя бабуся витягнула цю гігантську книгу своєї сімейної історії (близько 1430 року), яка починається приблизно з 1630 року. Велетенський ботанік, який я є, я думав, що було б чудово мати всю інформацію, що зберігається в базі даних та доступну в Інтернеті. Я можу обробляти всі веб-програмування та регулярні вирази, а що ні, але те, що я не знаю, - це найкращий спосіб перенести текст з книги на комп'ютер.

Я знаю, що потрібен буде якийсь ОКР, з невеликих досліджень, які я робив, схоже, що мої варіанти:

  1. сфотографуйте кожну сторінку за допомогою камери, а потім обробіть фотографії програмним забезпеченням OCR
  2. використовуйте сканер для сканування кожної сторінки, а потім обробіть програмою OCR
  3. використовувати якийсь ручний пристрій, як це .

Хтось має уявлення про найкращий спосіб вирішити цю проблему? Я не хочу знищувати книгу, тому що, наскільки я знаю, її неможливо замінити. Це, мабуть, єдиний раз, коли я збираюся сканувати велику книгу, тому не думаю, що хочу витратити більше 250 доларів на будь-який пристрій. Я не проти деяких ручних зусиль тут (я розумію, що це, швидше за все, займе місяці), але я хотів би знайти найбільш ефективний метод.

Зауважте про книгу: Їй лише близько 20 років, тож вона в досить хорошій формі. Він однотонний, а сторінки не стали жовтіти. Оскільки вона настільки велика, я переживаю за можливі тіні, коли текст наближається до палітурки.

ocr 

1
Зі сторони, якщо книзі лише 20 років, а інформація сягає 1600-х років, то де оригінальний вихідний матеріал? Це також може бути приємно захопити!
Крейг

Так, це теж було б круто. Я побачу, чи зможу я віднайти оригінального автора.

Відповіді:


8

Я натрапив на це на Lifehacker досить давно, і з тих пір це був один з моїх найкращих проектів самостійно.

введіть тут опис зображення

Замініть iPhone будь-якою камерою чи зображеннями, і ви отримаєте стек приємних jpegs високої роздільної здатності, готових для OCR з будь-яким програмним забезпеченням, навіть (урками!) MS Office ...;)

Дешево. Ефективна. Зроби сам. Ви не можете перемогти таку ідею.

РЕДАКТУВАННЯ: У коментарях виникли певні моменти щодо тіней, скручування сторінок тощо. Досить легко вирішити для тих, хто буквально скопіював тексти бібліотеки.

Додайте кілька джерел світла для освітлення книги та усунення тіней.

нахил книги на 90 градусів, щоб сторінки не згорталися до палітурки посередині. Він також зберігає зв'язування.

Я побачу, чи можу я навести приклад і налаштувати його сам.

EDIT 2: завантажено зразок того, як слід тримати книгу, а також помітити джерело світла зліва.

введіть тут опис зображення


Це так круто! Бажаю, я міг би це зробити :)
alex

Однак для цього вам потрібна справжня камера, і хорошої якості, інакше ви закінчите картину, яку не можете використовувати, особливо з дуже старої книги. Так що це далеко не дешево.
Gnoupi

Дуже цікаво. Цікаво, як це буде працювати з книжкою, враховуючи, що тіні, можливо, будуть між сторінками.

Якщо сторінки зігнуті або мають тіні, у вас виникнуть проблеми з отриманням програм OCR для розпізнавання букв.
алекс

додайте кілька джерел світла для освітлення книги та усунення тіней. нахиляють книгу на 90 градусів, щоб сторінки не згорталися до палітурки посередині. Це простий здоровий глузд, ми робимо це весь час у коледжі, роблячи фотографії з бібліотечних текстів.
Калібань

3

Як я знаю, ABBYY робить найкраще програмне забезпечення для OCR, але це не безкоштовно. Спробуйте скористатися пробною версією ABBYY FineReader , можливо, це вам допоможе.


1

Вам потрібно буде якось захопити зображення. Існують різні послуги, щоб зробити це за вас. Вам також знадобиться хтось, хто знайомий зі змістом тексту, щоб прочитати, оскільки OCR ще не ідеальний. Особливо з чим завгодно рукописним.

Інші обговорюють ваше запитання тут: http://ask.metafilter.com/92506/scan-my-books

Деякі компанії зроблять це за вас: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html

Деякі безкоштовні програми: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html


1

Для великого та важливого для вас та вашого сімейного проекту, подібного до цього, може бути дороговказний сканер книг "Зробіть сам". Деякі конструкції навіть перетворюють спортивні сторінки - http://www.diybookscanner.org/ Цей оригінально не підтримує OCR , але знімає 600 сторінок на годину, і ви можете запускати його через OCR після факту http://hackaday.com/2011/07/18/diy-book-scanner-process-600-pageshour/



0

Я б рекомендував планшетний сканер, встановлений для сканування книг, або цілий сканер книг, як згадував Кріс.

Якщо ви можете, складіть свої зображення у формат TIFF як такий, що є галузевим стандартом, що стосується систем управління документами.

Для роботи з OCR я рекомендую tesseract OCR, оскільки це рамка, яку Google роз'яснив для свого проекту книг.


0

хоча це автоматично звучить заманливо, ви можете захотіти вкласти більше часу та роботи, оскільки ця книга є особистою справою. OCR зробить основну масу, але вам доведеться перечитувати сторінку за сторінкою і порівнювати з оригіналом. майте на увазі, помилки автора - це частина угоди, не виправляйте їх (створюйте виноски, якщо ви відчуваєте це так схильно). не витрачайте на себе час, не піддавайте себе тиску, сканування книг - це робота ослів, але ретельність платить, і ви закінчитеся з прекрасною цифровою копією хроніки вашої родини. удачі з вашим починанням :)


насправді, це дійсно вдалий момент. Я не думав робити оригінальний вміст книги доступним у цифровому вигляді, але поки я маю, я можу зробити версію .pdf.

чому PDF? думаю HTML. і ви також можете зберегти оригінальні сканування, хоча ви отримаєте величезну кількість даних.

Моя ідея полягала в тому, щоб у базі даних була вся інформація про народження / походження, щоб я міг зробити веб-інтерфейс, який полегшить навігацію / пошук / оновлення. Я планую опрацювати будь-які друкарські помилки з цієї версії. Також у мене є кузени, яких немає там, і було б непогано додати їх. Я думав у форматі pdf, бо було б непогано мати щось, що буде схоже на оригінальну книгу з оригінальними номерами сторінок та такою недоторканою. Цю версію я залишу в спокої і збережу всі друкарські помилки з книги.

0

У роботі ми використовуємо сканер книг Plustek Optibook 3600, який коштує близько 250 доларів .
Це в основному стандартний сканер плоскої ліжка, але скляна тарілка направляється до краю сканера, щоб сторінка книги була розміщена плоскою на тарілці. Це усуває тінь хребта і уникає пошкодження книг.

введіть тут опис зображення


Ви коли-небудь намагалися використовувати це з дійсно товстою книгою? Це як 3 дюйми завтовшки.

Якщо ви можете відкрити його на 90 °, якщо сторінка є досить рівною, це повинно бути добре. Спробуйте на краю столу.
pelms
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.