Яке найкраще, найпростіше рішення для OCR?


77

Я хотів би просканувати гарну кількість паперів, які я лежу навколо, з найменшими можливостями. Я хотів би перетворити їх у зображення за допомогою простого сканування, а потім перетворити їх у текст за допомогою OCR. Чи є хороша програма OCR з графічним інтерфейсом, яка дасть мені хороші результати при натисканні кнопки?


Нам дійсно потрібно багато переробити в цій темі. Стільки старих / знецінених / ... речей. Немає однолінійних тестів. Тут в основному копіюються вкладені результати / списки. Відсутня гарантія якості.
Лео Леопольд Герц 준영

У 2018 році найпростішим рішенням OCR є використання онлайн-apr api : Google Vision OCR, Azure OCR або безкоштовний OCR.space OCR API - всі високоякісні результати OCR - звичайно, лише якщо ваш додаток / використання дозволяє використовувати хмарне рішення .
Нік Ендо

Відповіді:


70
  • GOCR від є OCR (оптичне розпізнавання символів) program.It перетворює відскановані зображення тексту назад в текстові файли.

  • CLARA - ще один хороший графічний варіант.

  • OCRAD from - це OCR, може використовуватися як окремий консольний додаток, або як доповнення до інших програм.

  • KOOKA from - це додаток KDE, але він прекрасно працює, крім того, вам потрібно встановити фактичні програми OCR, такі як GOCR та OCRAD. конвертувати JPEG в текст.

  • OCRFeeder з є аналіз макета документа і системи оптичного розпізнавання символів.

  • Тессеракт з утиліта командного рядкаі це дуже просто use.You може встановити мовний пакет Тессеракт-OCr-Інг з тут .

Подивіться на цю сторінку .

Примітка.
Щоб запустити tesseract goto-термінал і введіть наступне

tesseract imagefile.tif outputfile.txt

Tesseract може читати лише файл TIFF - якщо у вас є JPEG або PDF або будь-що інше, вам доведеться його конвертувати. Крім того, розширення імені файлу повинно бути .tif, а не .tiff, інакше тесеракт помилок виходить.


1
Якщо ваша розмовна мова не англійська? чи є розширення для іншої мови?
Василіс

3
@Vassilis: Системи OCR не залежать від мови, оскільки вони розпізнають символи, а не слова. Однак якщо ваш алфавіт не має латинських символів (наприклад, кирилиця), він може пропустити ці символи.
OpenNingia

2
@OpenNingia: Мова може бути важливою навіть у системах письма, використовуючи лише латинські літери. Це допомагає OCR розрізняти неоднозначні букви.
Frédéric Grosshans

13
Такі питання / відповіді справді псують askubuntu. Людина запитала "Що найкраще, найпростіше рішення OCR", а не "які всі програми OCR доступні для Linux". Це рішення не слід було приймати! Дійсно заплутаний і не корисний.
Алін Андрій

1
Поточний Ubuntu tesseract(3.04.00 на Ubuntu 15.10) не має проблем із PNGвхідними файлами. він приймає JPGфайли, але дає гірший результат для них, як можна було б очікувати від додаткових артефактів стиснення.
Волкер Зігель

10

Є кілька популярних інструментів командного рядка OCR, якими ви можете скористатися (я не впевнений, чи є у них графічний інтерфейс):

  • Tesseract ( ReadMe , FAQ ) (Python)

    Також доступний для: Tesseract .NET , Tesseract iOS

    Система OCR, розроблена в лабораторіях HP між 1985 і 1995 роками ... і тепер у Google. Tesseract - це, мабуть, найбільш точний доступний OCR з відкритим кодом.

    Використання:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    Розпізнавання символів з відкритим кодом. Він перетворює скановані зображення тексту назад в текстові файли. GOCR можна використовувати з різними передніми частинами, що робить його дуже легким для порту на різні ОС та архітектури. Він може відкривати безліч різних форматів зображень, і його якість щодня покращується.

  • OCRopus ™ ( FAQ ) (написано на Python, NumPy та SciPy)

    Система OCR, орієнтована на використання широкомасштабного машинного навчання для вирішення проблем в аналізі документів, що включає аналіз підключення макетів, розпізнавання символів, що підключаються, статистичне моделювання природної мови та багатомовні можливості.

    Основа двигуна OCRopus базується на двох дослідницьких проектах: високоефективний розпізнавальний почерк, розроблений в середині 90-х і розгорнутий Бюро перепису США, та нові високоефективні методи аналізу верстки.

    OCRopus спонсорується розробкою, спонсорується компанією Google і спочатку призначений для великої пропускної спроби з великим обсягом перетворення документів. Ми очікуємо, що це також буде чудовою системою OCR для багатьох інших застосувань.

  • Tessnet2 (Open Source, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

    Tesseract - це C ++ з відкритим кодом OCR. Tessnet2 - це .NET збірка, яка розкриває дуже прості методи для OCR. Tessnet2 має ліцензію Apache 2 (наприклад, tesseract), тобто ви можете користуватися нею, як хочете, включеною в комерційну продукцію.

Небагато інших: ABBYY CLI OCR для Linux , Asprise OCR

Щоб отримати більш повний список, перевірте: Список програмного забезпечення для оптичного розпізнавання символів у Вікіпедії

Дивіться також: wanghaisheng/awesome-ocr- Кураторний список багатообіцяючих ресурсів OCR на GitHub.


9

Linux-інтелектуально-ocr-рішення

відмова від відповідальності - Я тісно пов'язаний з розробкою цього рішення з відкритими джерелами

Lios може конвертувати друк у текст за допомогою сканера або камери.

Він також може створювати текст із відсканованих зображень з інших джерел, таких як Pdf, Image або Folder, що містять зображення.

Програмі надається повна доступність для людей із вадами зору.

Оскільки я тісно пов’язаний - я хотів би отримати відгук.


Де документація щодо використання? Ліос не такий інтуїтивний, як я сподівався.
кодер

Проект перемістився сюди .
Сузана

Чи можливо запустити його через командний рядок лише в безголовому режимі на сервері?
Тупик

8

Gscan2PDF

OCR на багатосторінкових PDF або сканованих документах

Це, мабуть, найпростіший спосіб. Gscan2pdf - це графічний інструмент, який дозволяє не тільки сканувати файли, але й імпортувати файли та виконувати OCR на них. Встановіть gscan2pdf звідси Встановіть gscan2pdf , з програмного центру Ubuntu або запустивши цю команду в терміналі:

sudo apt-get install gscan2pdf
  • Запустіть gscan2pdf
  • Імпорт pdf (Ctrl + O)
  • Необов’язково: Інструменти> Очищення
  • Виберіть Інструменти> Зберегти OCR (Ctrl + S)

Gscan2PDF може використовувати настроювані двигуни OCR, за замовчуванням є tesseract-ocr

Ви можете подумати про вибір відповідної мови. У такому випадку вам потрібно буде встановити tesseract-ocr-LANGпакет, де LANGє трибуквенний код мови ISO 639-2. Зараз у вас є 108 мов на 16.04 репо.


Я нічого не можу зробити з цим програмним забезпеченням. Немає достатнього виявлення взагалі. Було б чудово отримати будь-які тестові зразки про додатки до їх рекомендацій.
Лео Леопольд Герц 준영

gscan2pdf для 16.04 принаймні не містить ярлика параметра Ctrl + i. Відкриваючи pdf-файл, правильно ідентифікуються "сторінки для вилучення", але вибір "ОК" нічого не робить.
user75505

3

Я щойно мав успіх (до 16.04) з pdfocr.rb . Це вказано на вікі Ubuntu

Ось ppa, але сховище на 16.04 не оновлюється. Рубіновий сценарій вище від github, хоча й досі працює з 16.04.

Ви можете завантажити його з Github. Вам знадобляться наступні встановлені пакети:

ruby tesseract-ocr pdftk exactimage

потім зробив pdfocr.rb виконуваним і запустив:

./pdfocf.rb -i source.pdf -o output.pdf

За бажанням можна скористатися -l LANGпараметром. У такому випадку вам потрібно буде встановити tesseract-ocr-LANGпакет, де LANGє трибуквенний код мови ISO 639-2. Зараз у вас є 108 мов на 16.04 репо.


3

Найкращий і найпростіший спосіб використання - pypdfocrце не змінювати PDF- файл . pypdfocr - тут посилання на модуль python.

pypdfocr your_document.pdf

Зрештою, у вас з’явиться інший your_document_ocr.pdfспосіб, як ви хочете, з текстом для пошуку. Додаток не змінює якість зображення. Трохи збільшує розмір файлу, додаючи текст накладання.

Я думаю, що команда досить проста, що їй не потрібен графічний інтерфейс. Можливо, встановлення pypdfocr є дещо докладнішим:

sudo apt install tesseract-ocr 
pip install pypdfocr 

Оновлення 3 листопада 2018 року:

pypdfocrбільше не підтримується з 2016 року, і я помітив деякі проблеми через те, що його не пропускають. ocrmypdf( модуль виконує подібну роботу і може бути використаний так:

ocrmypdf in.pdf out.pdf

Щоб встановити:

pip install ocrmypdf

або

apt install ocrmypdf

Це дуже цікавий інструмент, хоча я думаю, що ОП хотів, щоб інструмент GUI створив текстовий файл, а не сендвіч PDF. Було б добре, якби ви могли включити веб-сайт проекту.
Андреа Лацаротто

@AndreaLazzarotto Так, я бачив, але оскільки команда така проста, я думаю, що багато людей можуть використовувати для цього термінал. тому я хотів включити сюди рішення
Едуард Флоринеску

1
За збігом обставин, нещодавно я виявив "ocrmypdf". Ви це перевірили? Це дуже приємно. :)
Андреа Лацаротто

@AndreaLazzarotto здається гарною альтернативою, на яку ви можете написати відповідь;) Я спробую це зрозуміти, як це працює :)
Едуард Флоринеску

@AndreaLazzarotto Здається, не так просто встановити ocrmypdf на ubuntu 16.04 github.com/jbarlow83/OCRmyPDF/isissue/118
Eduard Florinescu

3

Просто тому, що вона працює дуже красиво і обов'язково повинна бути в списку:


Приклад gimageReader зі знімка екрана:

введіть тут опис зображення

Він знаходиться у репост (відповів 18.10, але використовував його протягом століть)


Коли я вперше запустив gimageReader, він дав мені повідомлення "Немає мов" для tesseract. Відповідь " Як встановити новий мовний пакет для tesseract " не вказуєтьсяeng як варіант ... але я це розробив! :) Біг sudo apt install tesseract-ocr-engу терміналі зробив свою справу. Було б добре, якби це було зафіксовано у довідковому файлі gimageReader або "README" на github ... чи десь. Як тут, мабуть.
Dɑvïd

1

gscan2pdf включає 3 різні системи двигунів. Ви можете сканувати право на програму або імпортувати свій PDF-файл у програму. Я виявив, що двигун Tesseract працює чудово і дуже просто у використанні

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.