Програмне забезпечення для сканування в PDF для Linux?


18

У мене є робочий процес, за допомогою якого я сканую паперові документи в PDF-файли, які можна шукати, за допомогою сканера документів Fujitsu ScanSnap S500 . Я не є великим шанувальником комплектації програмного забезпечення, але це мертвий простий у використанні: помістіть стопку паперу вгору, натисніть зелену кнопку і вийде PDF-файл для пошуку.

Тепер я хотів би зробити щось подібне на Linux (Ubuntu 10.10). Сканер підтримується поза коробкою.

Я подивився gscan2pdfі XSane:

  • XSane виглядає потужним, але насправді не підходить як рішення робочого процесу;
  • gscan2pdf трохи ближче до ідеалу "натиснути кнопку, отримати PDF", але все ще не на 100%.

Будь-яке інше програмне забезпечення, яке ви можете порекомендувати (безкоштовно чи іншим чином)?


Я використовую pdf-чашки, але це не текст, на якому можна шукати текст
RobotHumans

1
Що "не на 100% там" з gscan2pdf?
digitxp

@digitxp Мені не хотілося забивати питання переліком питань, лайків і не любить будь-який продукт. Однак, оскільки ви запитуєте, у gscan2pdfмене були дивні артефакти з "unpaper'ing", OCR був здебільшого непридатний для використання (деякі двигуни краще, ніж інші), і в цілому він був не настільки спрощений, як оригінальне рішення. Як би там не було, суть мого питання полягає в тому, щоб побачити, що ще там, щоб я міг спробувати різні рішення і побачити, що для мене найкраще працює.
NPE

@digitxp Я щойно перечитав свій попередній коментар, і це звучить досить негативно. Це був не намір. gscan2pdfнасправді досить близький до того, що я шукаю, але є сфери, в яких це, на жаль, не вистачає порівняно з оригінальним рішенням.
NPE

Відповіді:


18

Ось деякі речі, які я виявив, коли досліджував це на початку цього року. На жаль, я не можу опублікувати більше ніж одне гіперпосилання через мою обмежену оцінку, тому вам доведеться користуватися Google для посилань.

gscan2pdf

Дійсно хороша система GUI, яка може використовувати різні двигуни OCR для бекенда. Це, ймовірно, буде відповідати вашому рішенню в один дотик (і digitxp вже згадував про це).

Tesseract OCR Engine

Можна використовувати з gscan2pdf.

Окроп

Я не дуже далеко з окропом, оскільки не розпізнавав текст без широкої підготовки. Це, мабуть, було б дуже добре для книг, але не спрацювало для мене з векселями тощо. YMMV.

Клинопис

Я мав найкращий успіх у Cuneiform і зміг створити PDF-файли для пошуку за допомогою створення скриптів, подібних до наступного робочого процесу:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

Вам також потрібно буде встановити пакет точного зображення.

Різні проекти з відкритим кодом для використання PDF у форматі OCR'i Cuniform та hocr2pdf :

  • WatchOCR
  • Архівіста

Дайте мені знати, що ви дізнаєтесь!

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.