Раніше я використовував Preview і Automator для вилучення тексту з PDF-документів, але вони не працюють на сканованих. Як можна витягнути вміст із відсканованих файлів із збереженим форматуванням? Я не хочу платити за Adobe.
Раніше я використовував Preview і Automator для вилучення тексту з PDF-документів, але вони не працюють на сканованих. Як можна витягнути вміст із відсканованих файлів із збереженим форматуванням? Я не хочу платити за Adobe.
Відповіді:
Як уже було сказано, ваші відскановані документи - це зображення (з тексту). Щоб зрозуміти текст, вам потрібно буде запустити OCR (оптичне розпізнавання символів) над цим документом.
Існує кілька продуктів OCR, доступних для Mac, і можливо, у вашому сканері є такий продукт. Однак, запитуючи про форматування, ви вимагаєте деяких досить складних функцій, яких немає в основних продуктах. Тому, можливо, доведеться очікувати оплати за це програмне забезпечення для OCR. З цієї точки зору, ви можете переглянути Acrobat.
Під "відсканованим" я припускаю, що ви маєте на увазі, що документ містить лише зображення тексту, а не текстові символи. У цьому випадку використовуйте програмне забезпечення для оптичного розпізнавання символів (OCR).
Для ОС Windows існують FreeOCR , a9t9 та інші . Також є програмне забезпечення для Android, Linux та Mac, а також є онлайн-сервіси на основі браузера.