Як я можу витягнути вміст із відсканованих файлів?

1

Раніше я використовував Preview і Automator для вилучення тексту з PDF-документів, але вони не працюють на сканованих. Як можна витягнути вміст із відсканованих файлів із збереженим форматуванням? Я не хочу платити за Adobe.

pdf conversion macos-sierra

— Роза Рейєс
джерело

0

Як уже було сказано, ваші відскановані документи - це зображення (з тексту). Щоб зрозуміти текст, вам потрібно буде запустити OCR (оптичне розпізнавання символів) над цим документом.

Існує кілька продуктів OCR, доступних для Mac, і можливо, у вашому сканері є такий продукт. Однак, запитуючи про форматування, ви вимагаєте деяких досить складних функцій, яких немає в основних продуктах. Тому, можливо, доведеться очікувати оплати за це програмне забезпечення для OCR. З цієї точки зору, ви можете переглянути Acrobat.

— Макс Вісс
джерело

Adobe коштує грошей, будь-які інші альтернативи？

— Rosa Reyes

@RosaReyes:… і? Ви хочете досить складний функціонал. Майте на увазі, ви отримуєте те, що платите…

— Max Wyss

0

Під "відсканованим" я припускаю, що ви маєте на увазі, що документ містить лише зображення тексту, а не текстові символи. У цьому випадку використовуйте програмне забезпечення для оптичного розпізнавання символів (OCR).

Для ОС Windows існують FreeOCR , a9t9 та інші . Також є програмне забезпечення для Android, Linux та Mac, а також є онлайн-сервіси на основі браузера.

— DrMoishe Pippik
джерело

Так, я спробував цей, але не такий, що задоволений результатами, трохи безладним у форматуванні, занадто багато прогалин між словами та реченнями.

— Роза Рейєс

Я знайшов, що Google OCR просто добре вирішив мою проблему.

— Роза Рейес