Як перетворити відсканований PDF в PDF з текстом


36

Я просканував близько 80 сторінок у форматі PDF у сірій шкалі (формат зображення). Кінцевий розмір файлу становить близько 70 Мб, що дуже величезно.

Тепер я шукаю спосіб перетворення PDF-файлів на основі сірого масштабу в простий чорно-білий текстовий PDF-файл.

Я робив багато спроб, gsале без успіху (лише кілька відсотків відновлення). Якщо у якогось експерта є якась ідея, будь ласка, повідомте мене.


1
Вам потрібен інструмент OCR. Подивіться на Tesseract ubuntuforums.org/showthread.php?t=880471
Микита У.

4
Якщо ви зацікавлені в тому, щоб зберегти PDF-зображення такими, якими вони є, та додати до них текст, погляньте на питання, як додати інформацію про OCR до PDF .
колан

Якщо ви можете опублікувати посилання на (наприклад) приклад на одній сторінці, ми могли б протестувати рішення ...
Rmano

Це не рішення OCR, але askubuntu.com/a/3387/16395 дуже допомагає (хоча 72dpi - це трохи на низькій стороні, я маю кращі результати зі 120).
Рмано

Чи правильно працює YAGF з Ubuntu 16.04? Якщо я завантажую зображення або pdf-документ, програма переривається без жодного повідомлення про помилку. Під Ubuntu 14.04 у мене не було проблем. H.Roos
Hubert Roos

Відповіді:


25

gImageReader - це простий GTK + передній край tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

вибачте за німецький текст


4
Ви також повинні встановити мову документа для поліпшення OCR, з sudo apt-get install tesseract-ocr-[lang]заміною langна код мови, як deuдля Deutsch, porна португальську тощо.
estibordo

1
Це програмне забезпечення некрасиво. Користувальницькість під нулем Хоча він намагається виконати роботу, але не може прочитати звичайні таблиці, схожі на електронні таблиці. Просто пропускає сторінки, що містять їх.
Макс Юдін

9

Ви можете спробувати pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Для виконання синтаксису є

 pdfocr -i input.pdf -o output.pdf

де input.pdfім'я вхідного і output.pdfвихідного файлу.

За замовчуванням він використовує Tesseract. Щоб встановити його:

 sudo apt-get install tesseract-ocr

pdfocr створює вбудований текстовий шар.


Чудово! Цікаво, що після виконання кроків над файлом тепер можна шукати в Adobe Acrobat DC, але не в Preview.
lukeaus

2
Це сховище не підтримує xenial
Max N

Ви можете спробувати встановити стару версію pdfocr, якщо ви встановите дотепну версію на xenial, вона працює нормально. Для цього додайте "deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" та "deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" в /etc/apt/sources.list, а потім "sudo apt update" та "sudo apt-get install pdfocr"
rafmunozf

2
pdfocr - це сценарій, який автоматизує наступний процес: 1. Розбиття файлу PDF на окремі сторінки за допомогою pdftk 2. Витяг даних із зображеннями за допомогою pdfimages 3. Виконання OCR (оптичного розпізнавання символів) за допомогою клинопису PDF-файл за допомогою hocr2pdf 5. Об'єднання файлів за допомогою pdftk. (цитую з ubuntuforums.org/showthread.php?t=1456756 )
Tommy Trussell

3
pdfsandwich

Він завантажує tesseract та інші при встановленні. Це просте рішення в один крок, яке може бути написано сценарієм. Він може використовуватись hocr2pdfдля створення простого текстового PDF, але він не готовий до простого часу ... поки що. За замовчуванням використовується tesseract і створюється "заштриховане" pdf: зображення + текст під ним.

Вбудоване зображення можна видалити за допомогою таких команд:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

але текст прихований, тому він виглядає як порожня сторінка.

Завантаження PDF-файлу LibreOffice Drawвідкриває текст, а зображення можна видалити вручну.


Що ми робимо з питаннями безпеки Imagemagick / ghostscript, що призводять до таких not authorizedпомилок identify-im6.q16: imagemagick - конвертувати: не дозволено aaaa@ error / constitute.c / ReadImage / 453 - Переповнення стека
nealmcb

1

Для графічного інтерфейсу, запропонованого @AB в ubuntu 14.04, слід дотримуватися:

ocr tesseract на ubuntu 14.04

або в будь-якому випадку додайте до списку сховищ:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

перед цим працює:

sudo apt-get install gimagereader


-1

У файлі pdf клацніть правою кнопкою миші та збережіть кожну сторінку як зображення (або знайдіть інструмент, який робить усі сторінки автоматично)

Відкрийте центр програмного забезпечення Ubuntu. Шукати tesseract. Тут ви знайдете YAGF, який слід встановити. У YAGF натисніть на Файл -> Відкрити зображення та завантажте зображення. Потім натисніть на Файл -> Розпізнати.

Я мав 100% точність у своєму першому тесті.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.