як OCR PDF-файл і отримати текст, що зберігається в pdf?


23

по-перше, вибачте, якщо про це просили раніше - я деякий час шукав наявні пости, але не зміг знайти підтримку.

Мене цікавить рішення Fedora для OCR багатосторінкового pdf-запиту, який не можна шукати, і перетворити цей pdf у новий pdf-файл, який містить текстовий шар зверху зображення. На Mac OSX чи Windows ми могли б використовувати Adobe Acrobat, але на Linux, зокрема на Fedora?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/, здається, описує рішення - але, на жаль, я вже втрачаюсь при пошуку точного зображення.


Існує проблема із приємним сценарієм pdfocr, який рекомендує сторінка, на яку ви посилаєтесь: вона покладається на pdftk, який по суті є застарілим (з двох причин його залежність від libgcj та iText5 +). Тож інакше потрібне інше рішення ...
Максим

Відповіді:


24

Найкращий і найпростіший спосіб використання - pypdfocrце не змінювати PDF- файл . pypdfocr - тут посилання на модуль python.

pypdfocr your_document.pdf

Зрештою, у вас з’явиться інший your_document_ocr.pdfспосіб, як ви хочете, з текстом для пошуку. Додаток не змінює якість зображення. Трохи збільшує розмір файлу, додаючи текст накладання.

Я думаю, що команда досить проста, що їй не потрібен графічний інтерфейс. Можливо, встановлення pypdfocr є дещо докладнішим:

sudo dnf -y install tesseract 
pip install pypdfocr 

Оновлення 3 листопада 2018 року:

pypdfocrбільше не підтримується з 2016 року, і я помітив деякі проблеми через те, що його не пропускають. ocrmypdf( модуль ) виконує подібну роботу і може використовуватися так:

ocrmypdf in.pdf out.pdf

Щоб встановити:

pip install ocrmypdf

або

sudo apt install ocrmypdf  #ubuntu
sudo dnf -y install ocrmypdf #fedora

чому ви встановлюєте (використовуючи apt) ocrmypdf в ubuntu, але встановлюєте tessaract у Fedora? Я думаю, ви зробили друкарську помилку
iuridiniz

@iuridiniz виправив це. Це була помилка, яка впала
Едуард Флорінеску

8

Дізнавшись про те, що tesseract тепер може також створювати файли pdfs для пошуку, я знайшов сендвіч скриптів: http://www.tobias-elze.de/pdfsandwich/

після встановлення залежностей (це може бути не повний список)

sudo dnf install svn ocaml unpaper tesseract

Я слідував посібнику сценарію для збирання з джерела

Складіть із джерел

pdfsandwich - це програмне забезпечення з відкритим кодом (ліцензія: GPL). Ви можете завантажити джерела як пакет .tar.bz2 з області завантаження на веб-сайті проекту або перевірити їх за допомогою підривної роботи:

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

Якщо OCaml встановлено у вашій системі, ви можете зібрати та встановити наступним чином:

cd pdfsandwich
./configure
make
sudo make install

і це зараз дозволяє мені бігати

sandwich multipaged-non-searchable.pdf

в результаті чого можна отримати PDF-файл для пошуку.


на відповідне, але окреме питання, спираючись на це, дивіться unix.stackexchange.com/questions/306051/…
ingli

1
FWIW: pdfsandwich також доступний у сховищі програмних пакетів Ubuntu. Можуть бути і інші дистрибутиви.
Лоранс Гонсальвес

unix.stackexchange.com/questions/471985/… будь-які пропозиції
Deepak Umredkar

Щойно натрапив на fedoramagazine.org/4-cool-new-projects-try-copr-o October-2018, показуючи пакет COPR для fedora, який пакує pdfsandwich
інглі

3

Простим інструментом, доступним в Ubuntu, є "ocrfeeder", який дозволяє створювати PDF-файли з текстом OCR, накладеним на оригінальні документи. Він використовує Tesseract плюс інші двигуни OCR (не впевнені, який), а також забезпечує обертання зображення / "папір" тощо.


1

У мене була ця сама проблема, тому я написав це у вихідні. Дайте йому постріл; це чудово працює! Це проста обгортка навколо tesseract. Він використовує pdftoppmдля перетворення PDF у купу файлів TIFF, потім використовує tesseractдля виконання OCR (оптичне розпізнавання символів) на них та створює PDF, який можна шукати як вихід. Всі проміжні тимчасові файли автоматично видаляються після завершення сценарію.

Вихідний код: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF

Інструкції щодо встановлення та використання pdf2searchablepdf:

Тестовано на Ubuntu 18.04 11 листопада 2019 року.

Встановити:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

Використання:

pdf2searchablepdf mypdf.pdf

Тепер у вас буде pdf під назвою mypdf_searchable.pdf , який містить текст для пошуку!

Зроблено. Він не має пітонних залежностей, так як в даний час він повністю написаний в bash.

Посилання або суміжні ресурси:

  1. PDF2SearchablePDF : https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
  2. /ubuntu/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
  3. /ubuntu/16268/whats-the-best-simplest-ocr-solution
  4. /ubuntu/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
  5. pdfsandwich : Альтернативна обгортка програмного забезпечення, яку я щойно виявив, що теж варто перевірити! http://www.tobias-elze.de/pdfsandwich/
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.