Але як це можливо?
В основному програма виконує OCR у вхідному файлі, а потім розміщує невидимий шар тексту над малюнком. Крім того, він також може розмістити під малюнком видимий шар тексту , даючи той же ефект.
Коли ви вибираєте щось, зображення не має значення, оскільки вибирається текстовий шар.
як це можна створити?
Існує кілька способів. Зважаючи на те, що Acrobat вже запропоновано, я додам кілька безкоштовних варіантів (і на щастя, ви не змушені мати Windows для їх використання).
PDF-XChange Viewer
Це рідна програма Windows від Tracker Software . Безкоштовна версія працює добре під Wine, якщо ви використовуєте 32-бітне видання з 32-бітовим префіксом, тому ви можете використовувати його в Windows, macOS та Linux. В останніх двох випадках вам знадобиться PlayOnMac або PlayOnLinux відповідно.
Ось картинка з цієї відповіді, яку я залишив у Ask Ubuntu:
OCRmyPDF
Це багатоплатформна програма, написана на Python , заснована на Ghostscript, Tesseract та Unpaper. З документів:
Що робить OCRmyPDF
OCRmyPDF аналізує кожну сторінку PDF-файлу, щоб визначити кольоровий простір та роздільну здатність (DPI), необхідні для збору всієї інформації на цій сторінці без втрати вмісту. Він використовує Ghostscript для растеризації сторінки, а потім виконує OCR на растрованому зображенні для створення "шару" OCR. Потім шар прищеплюється до оригінального PDF.
Його можна легко встановити на похідні Debian і Ubuntu:
apt-get install ocrmypdf
Або на macOS:
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
У Windows вам потрібно буде використовувати зображення Docker. Детальні відомості див. У офіційних документах.
Використання дуже просте, і я пропоную використовувати для отримання кращих результатів необов’язкові -d
(чисті) та -c
(чисті) параметри. Це випрямить кожну сторінку та очистить маленькі точки / недосконалості перед запуском процесу OCR.
Ви можете (і повинні) надати мову -l
.
Ось приклад із цього перекошеного документа, написаного італійською мовою:
Я використовував команду:
ocrmypdf -l ita -d -c input.pdf output.pdf
Інтернет-інструменти
Є кілька онлайн-інструментів, які роблять те саме. Помітно, що PDF24 розміщує безкоштовну веб-версію OCRmyPDF, яку можна використовувати без обмежень.
Дивись також: