23

по-перше, вибачте, якщо про це просили раніше - я деякий час шукав наявні пости, але не зміг знайти підтримку.

Мене цікавить рішення Fedora для OCR багатосторінкового pdf-запиту, який не можна шукати, і перетворити цей pdf у новий pdf-файл, який містить текстовий шар зверху зображення. На Mac OSX чи Windows ми могли б використовувати Adobe Acrobat, але на Linux, зокрема на Fedora?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/, здається, описує рішення - але, на жаль, я вже втрачаюсь при пошуку точного зображення.

command-line pdf ocr

— інглі
джерело

Існує проблема із приємним сценарієм pdfocr, який рекомендує сторінка, на яку ви посилаєтесь: вона покладається на pdftk, який по суті є застарілим (з двох причин його залежність від libgcj та iText5 +). Тож інакше потрібне інше рішення ...

— Максим

24

Найкращий і найпростіший спосіб використання - pypdfocrце не змінювати PDF- файл . pypdfocr - тут посилання на модуль python.

pypdfocr your_document.pdf

Зрештою, у вас з’явиться інший your_document_ocr.pdfспосіб, як ви хочете, з текстом для пошуку. Додаток не змінює якість зображення. Трохи збільшує розмір файлу, додаючи текст накладання.

Я думаю, що команда досить проста, що їй не потрібен графічний інтерфейс. Можливо, встановлення pypdfocr є дещо докладнішим:

sudo dnf -y install tesseract 
pip install pypdfocr

Оновлення 3 листопада 2018 року:

pypdfocrбільше не підтримується з 2016 року, і я помітив деякі проблеми через те, що його не пропускають. ocrmypdf( модуль ) виконує подібну роботу і може використовуватися так:

ocrmypdf in.pdf out.pdf

Щоб встановити:

pip install ocrmypdf

або

sudo apt install ocrmypdf  #ubuntu
sudo dnf -y install ocrmypdf #fedora

— Едуард Флорінеску
джерело

чому ви встановлюєте (використовуючи apt) ocrmypdf в ubuntu, але встановлюєте tessaract у Fedora? Я думаю, ви зробили друкарську помилку

— iuridiniz

@iuridiniz виправив це. Це була помилка, яка впала

— Едуард Флорінеску

8

Дізнавшись про те, що tesseract тепер може також створювати файли pdfs для пошуку, я знайшов сендвіч скриптів: http://www.tobias-elze.de/pdfsandwich/

після встановлення залежностей (це може бути не повний список)

sudo dnf install svn ocaml unpaper tesseract

Я слідував посібнику сценарію для збирання з джерела

Складіть із джерел

pdfsandwich - це програмне забезпечення з відкритим кодом (ліцензія: GPL). Ви можете завантажити джерела як пакет .tar.bz2 з області завантаження на веб-сайті проекту або перевірити їх за допомогою підривної роботи:

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

Якщо OCaml встановлено у вашій системі, ви можете зібрати та встановити наступним чином:

cd pdfsandwich
./configure
make
sudo make install

і це зараз дозволяє мені бігати

sandwich multipaged-non-searchable.pdf

в результаті чого можна отримати PDF-файл для пошуку.

— інглі
джерело

на відповідне, але окреме питання, спираючись на це, дивіться unix.stackexchange.com/questions/306051/…

— ingli

1

FWIW: pdfsandwich також доступний у сховищі програмних пакетів Ubuntu. Можуть бути і інші дистрибутиви.

— Лоранс Гонсальвес

unix.stackexchange.com/questions/471985/… будь-які пропозиції

— Deepak Umredkar

Щойно натрапив на fedoramagazine.org/4-cool-new-projects-try-copr-o October-2018, показуючи пакет COPR для fedora, який пакує pdfsandwich

— інглі

3

Простим інструментом, доступним в Ubuntu, є "ocrfeeder", який дозволяє створювати PDF-файли з текстом OCR, накладеним на оригінальні документи. Він використовує Tesseract плюс інші двигуни OCR (не впевнені, який), а також забезпечує обертання зображення / "папір" тощо.

— jdpipe
джерело

1

У мене була ця сама проблема, тому я написав це у вихідні. Дайте йому постріл; це чудово працює! Це проста обгортка навколо tesseract. Він використовує pdftoppmдля перетворення PDF у купу файлів TIFF, потім використовує tesseractдля виконання OCR (оптичне розпізнавання символів) на них та створює PDF, який можна шукати як вихід. Всі проміжні тимчасові файли автоматично видаляються після завершення сценарію.

Вихідний код: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF

Інструкції щодо встановлення та використання `pdf2searchablepdf`:

Тестовано на Ubuntu 18.04 11 листопада 2019 року.

Встановити:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

Використання:

pdf2searchablepdf mypdf.pdf

Тепер у вас буде pdf під назвою mypdf_searchable.pdf , який містить текст для пошуку!

Зроблено. Він не має пітонних залежностей, так як в даний час він повністю написаний в bash.

Посилання або суміжні ресурси:

PDF2SearchablePDF : https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
/ubuntu/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
/ubuntu/16268/whats-the-best-simplest-ocr-solution
/ubuntu/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
pdfsandwich : Альтернативна обгортка програмного забезпечення, яку я щойно виявив, що теж варто перевірити! http://www.tobias-elze.de/pdfsandwich/

— Габріель Степлес
джерело

як OCR PDF-файл і отримати текст, що зберігається в pdf?

Оновлення 3 листопада 2018 року:

Інструкції щодо встановлення та використання pdf2searchablepdf:

Встановити:

Використання:

Посилання або суміжні ресурси:

Інструкції щодо встановлення та використання `pdf2searchablepdf`: