Фізичний текст до цифрового тексту


9

Дозвольте спершу зафіксувати це питання, я не маю уявлення, який сайт StackExchange був би найбільш підходящим для цього питання, але я подумав, що LifeHacks може працювати ...

У 1998 році у моєї мами в родині відбулося велике сімейне возз'єднання (у моєї прабабусі було десять дітей, тому це справді було великим збором). Один з моїх далеких дядьків написав якусь книгу з історії наших сімей для цього возз’єднання, і моя мама дала мені книгу для читання. Я не міг повірити, наскільки це велике і скільки досліджень пішло в книгу. Я хотів би знайти спосіб отримати всю книгу на веб-сайті, який я збираюся зробити там, де потім зможу поділитися нею з усіма в нашій родині, і в кінцевому підсумку збережу історію довше, ніж може ця хитра книга.

Сподіваючись, що мені не доведеться вводити слово за словом, ціла книга з 300 сторінок чи є спосіб, коли я можу просто просканувати сторінки та отримати їх у цифровому тексті? Очевидно, що я міг би просто сфотографувати та зробити веб-сайт за допомогою зображень, але я вважаю, що було б вигідніше мати його як фактичний текст, оскільки тоді він може відображатись у пошуках Google краще, коли хтось шукає прізвище членів сім'ї чи щось подібне. Крім того, якщо хтось із сім’ї коли-небудь робить, можливо, дослідницький проект нашої родини, він зможе скопіювати частину тексту та посилатися на нього простіше.

Так хтось знає найкращий спосіб, як я можу вписати цю стару сімейну книгу в цифровий текст?

Титульна сторінка книги

Книга із зазначенням товщини

Відповіді:


14

Використовуйте телефон Android та функцію " Об'єктив Google ", нещодавно додану до програми фотографій та переглянуто огляд фотоапаратів.

OCR через Google Lens є надзвичайно дивовижним та точним, ніж будь-яке програмне забезпечення для OCR, яке я коли-небудь використовував.

Нижче наведено кілька скріншотів, які описують процедуру використання дешевої (100 USD) Nokia 3, найкращого телефону, який я мав із задоволенням використовувати, оскільки мій коханий Nexus 4 відмовився від привида.

Я докладно описую зразок OCR-сканування грецької книги з етимологій, надрукованого в 1976 році, який я не наважуюся відірвати від сканування, який, схоже, має схожу щільність та шрифт.

Я створив цю оригінальну фотографію в умовах, що не відповідають ідеальному освітленню, використовуючи всі автоматичні налаштування на так званій телефонній камері, ніяких спеціальних фотографічних прийомів чи світильників для покращення результатів не використовували, можна сказати, що це просто звичайний любительський знімок телефону сторінка книги . (Переконайтеся, що текст зосереджений, жоден OCR не розшифрує розмитий текст, що не фокусується)

введіть тут опис зображення

Клацніть піктограму об’єктива Google, доступну за допомогою попереднього перегляду після фотографування або на самій фотографії за допомогою програми Google photos

введіть тут опис зображення

Ось -Skynet- ^M^M^M^M^M^Mя маю на увазі, Google Lens робить своє магічне сканування (точки трохи моторошні, але вони повинні були щось зробити, щоб ви могли знати, що AI googley робить свою справу, я думаю)

введіть тут опис зображення

Після сканування зображення ви виявите, що текстові області, знайдені на об’єктиві Google, чітко окреслені, а їх текст уже витягнутий у нижню половину екрана. якщо ви хочете лише деякі області, а не інші, просто торкніться вибору, щоб активувати / деактивувати їх.

Якщо ви торкнетеся вилученого тексту, він буде розміщений у вашому буфері обміну для копіювання / вставки в будь-яке місце вашого телефону.

введіть тут опис зображення

Після цього просто вставте текст у документ із документами Google . Там ви можете: - виправити будь-які помилки прямо там або на своєму ПК, - поділитися документом зі змістом вашого серця, - опублікувати його як веб-сторінку з оновленням ваших правових змін, або - експортувати до простого тексту, - документа слова , - документ із відкритим офісом, - сумісна електронна книга epub із розширеним текстом, або - добрий ol 'PDF, що не містить DRMD

Можна стверджувати, що це, мабуть, найкоротший шлях до публікації з найширшими можливостями виходу.

Ви можете зробити це все з одного пристрою (телефон Android з встановленими відповідними додатками), і робити це за короткий час із високою швидкістю точності, в основному безкоштовно.

Ось "Документи Google" вставили "Фрагмент"
введіть тут опис зображення

Ось поділка URL-адрес Google Документів, не соромтесь коментувати. Ви також можете допомогти комусь віддалено та одночасно редагувати документ.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

Нарешті, ось веб-сайт Google Sites, опублікований із використанням вищезазначеного документа як пов’язаного джерела

https://sites.google.com/h-lo.me/ocrsample

Це https, настільні та мобільні телефони, залежно від смаку, як правило, не болить очей. Непогано за 15 хв загальної роботи і жодного кодування.


Залишилося одне уточнення, а це створити належні абзаци в документі Google, оскільки Google Lens вставляє твердий зворот після кожного рядка вилученого тексту, що робить кожен рядок власним абзацом, і це стане проблемою, якщо ви хочете використовувати Функції Документів Google, наприклад, зміст або коли ви експортуєте свій документ до електронної книги, сумісної з розширеним електронним пабом, (сумісний текст, що переробляє текст)

Ви можете просто приєднатись до кожного рядка, де це доречно, натиснувши клавішу зворотної області на кожному запуску рядка, або це може бути автоматизовано за допомогою сценарію.

Отже, я пишу надбудову для скриптів додатків, яку незабаром опублікую для автоматизації цього процесу. Я дам вам знати, коли це буде зроблено.


Чудова деталь. Мені подобається це безкоштовне рішення. Дякую!
Кайл Бріденстін

Моє задоволення! Можливо, у вас навіть є все необхідне! :)
hlecuanda

Для товстої книги це дійсно трудомісткий підхід: вам потрібно вручну перегортати кожну сторінку, а потім фотографувати її.
Гоббс

6

Це можна робити поетапно. Почніть з розміщення всього в Інтернеті, як сканування сторінок і оновлення, як і коли можна. Пластиковий гребінець cerlox ™ дозволяє легко роз'єднати його і повернути назад у зв'язування.

Оскільки друк виглядає як звичайний серіальний тип однакового розміру, сканування можна оцифровувати за допомогою програмного забезпечення оптичного розпізнавання символів. OCR може надати вам проект текстового файлу, який ви можете прочитати та опублікувати на веб-сайті для остаточної форми.

Одночасно ви можете прибирати фотографії та інший живописний матеріал.

Ви можете це зробити, коли час / ресурси стануть доступними для проекту.


Схожа на попередню відповідь, але не настільки детальна.
Trajan Espelien

@TrajanEspelien Яка попередня відповідь? Перевірте мітку часу. Відповідь була спочатку, за два дні до подання ієкуади. :)
Stan

Так, але вона не має стільки деталей, як інша відповідь, тому я прийняв іншу за це. Це не перший прийшов перший сервер .. це найкраща відповідь.
Кайл Бріденстін

@KyleBridenstine Не жартуй! Я також прихильнив ієкуанда. Це була чудова відповідь. До речі, що робити, якщо у вас не було Android-телефону чи ви не можете отримати доступ до Glass? Я дав загальну відповідь на запитання. :)
Stan

1
@KyleBridenstine Дякую за добрі слова. Ми погоджуємось. Я думаю, ви зробили правильно, чекаючи. Перша відповідь НЕ найкраща (якщо це не з якихось причин. Зрештою, є терміни.) Я надіслав посилання на ваше запитання та чудову відповідь ієкуанда колезі, який повинен зробити те саме з величезною купою шкільних записів з Бразилія!
Стен

2

Тут є кілька хороших відповідей для того, щоб самостійно підійти до цього.

Я хотів би додати свій досвід сплати комусь іншого, щоб зробити це за вас.

Я використовував Digitize My Books у Сполученому Королівстві (я заснований у Великобританії).

Я був дуже задоволений результатами: Кожна книга повертається у форматі PDF, в якому є текст, який можна шукати (і можна скопіювати). Використовується стандартна методика PDF, при якій оригінальне зображення для кожної сторінки зберігається, але з текстовим накладом, таким чином, щоб ви могли виділити оригінальний текст на сторінці. Дуже хороше співвідношення. Оскільки за кордоном хтось із Великобританії, ви все одно можете надсилати їм книги.

Вони також пропонують можливість книги у форматі документа, що можна редагувати, за додаткову, але дуже розумну ціну.

Якщо ви не вимагаєте повернення оригіналу, найдешевшим варіантом буде вибір руйнівного сканування. Тут сторінки беруться окремо з книги та скануються. За замовчуванням оригінальна книга не повертається, хоча я вважаю, що ви можете її запросити, можливо, за додаткову плату (наприклад, повернення поштових відправлень), але сторінки будуть розпущеними, видаливши їх для сканування окремо. Деструктивне сканування - це варіант, який я вибрав для всіх своїх книг, і мені не потрібно було повертати оригінали.

Вони також пропонують неруйнівне копіювання, якщо вам потрібен оригінал, але вартість вище. Вони також приймають ваші власні цифрові сканування, якщо ви вже сканували книгу - вони можуть перетворити це в документ, який можна шукати, копіювати PDF або Word doc.

Погляньте на їхній веб-сайт. Я дійсно думаю, що це найкращий варіант: витратити гроші, щоб заощадити час, а не витрачати час на економію.

Я не працюю над "Оцифровувати свої книги", і не маю жодної фінансової зацікавленості в них (акціонера чи іншим чином).

Спочатку я сам почав "сканувати" книги, фотографуючи за допомогою DSLR-камери (фотографування відбувається швидше, ніж планшетне сканування), при цьому кожна сторінка відкривається за допомогою кліп-буфера і blu-tak. Але я вважав це досить трудомістким.

Якщо ви все ще прагнете зробити це самостійно, ScanTailor - це програма з відкритим кодом для Windows, яка буде форматувати, розділяти подвійні сторінки / пари сторінок у міру сканування на окремі сторінки, випрямляти та "знищувати їх". Так що отримані сторінки виглядають рівними та прямими за бажанням, однак це не робить OCR: результати все ще є растровими зображеннями. Але, принаймні, це певний спосіб створити автоматичне прибирання будь-яких спотворень сторінок, особливо неруйнівного копіювання, коли важко впорядкувати сторінки, щоб вони були повністю рівними для великих книг.

Оновлено

Додано більше інформації про параметри сканування, пропоновані службою. Детальніше про ScanTailor. Граматичні виправлення.


1

Найшвидший спосіб зробити це - зв’язатися зі своїм родичем і побачити, чи є у них ще оригінальні файли, які вони використовували для створення цієї книги. З фотографії на першій сторінці я б сказав, що це зроблено на комп’ютері. Перетворіть із {вставте сюди справді старий пакет текстового процесора} у поточний формат, і ви закінчите.

Другий найшвидший спосіб перетворення стопки друкованого матеріалу в цифровий документ:

  1. Видаліть палітурку.
  2. Відріжте лівий край сторінок, щоб позбутися отворів. Отвори перешкоджають подачі документів.
  3. Пройдіть книгу та розгорніть будь-які складки та інші пошкодження, які заважатимуть пристрою подачі документів.
  4. Знайдіть будь-який досить сучасний двосторонній принтер, який має пристрій подачі документів та функцію сканування. Сканувати в PDF.

Потім використовуйте будь-який пакет OCR, щоб перетворити відскановані сторінки у файл Word. Я використовую функції OCR у повній версії Adobe Acrobat для цієї мети, але навколо є багато двигунів OCR.


0

Можливо, ви захочете спробувати дуже недорогий сервіс :serve-your-memories.info. Роблячи це самостійно, я використовую сканер для сканування до OmniPage, програми OCR, а потім зберігаю як pdf-файл, який можна повністю шукати. Оскільки ваша публікація пов’язана з пластиковою гребінцем, її можна легко розділити, щоб сканувати окремі сторінки, а потім повторно вкласти. Зйомка, як викладено у вищенаведених пропозиціях, також дуже працездатна - хороша серед багатьох підходів.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.