Найкращий і найпростіший спосіб використання - pypdfocr
це не змінювати PDF- файл . pypdfocr - тут посилання на модуль python.
pypdfocr your_document.pdf
Зрештою, у вас з’явиться інший your_document_ocr.pdf
спосіб, як ви хочете, з текстом для пошуку. Додаток не змінює якість зображення. Трохи збільшує розмір файлу, додаючи текст накладання.
Я думаю, що команда досить проста, що їй не потрібен графічний інтерфейс. Можливо, встановлення pypdfocr є дещо докладнішим:
sudo apt install tesseract-ocr
pip install pypdfocr
Оновлення 3 листопада 2018 року:
pypdfocr
більше не підтримується з 2016 року, і я помітив деякі проблеми через те, що його не пропускають. ocrmypdf
( модуль виконує подібну роботу і може бути використаний так:
ocrmypdf in.pdf out.pdf
Щоб встановити:
pip install ocrmypdf
або
apt install ocrmypdf