Як вибрати між Tesseract та OpenCV? [зачинено]

Question 1

Закрито . Це питання ґрунтується на думках . Наразі відповіді не приймаються.

Хочете покращити це питання? Оновіть питання, щоб на нього можна було відповісти фактами та цитатами, відредагувавши цю публікацію .

Закрито минулого року .

Удосконалюйте це питання

Нещодавно я зіткнувся з Tesseract та OpenCV . Схоже, Tesseract - це повноцінний механізм OCR, і OpenCV може бути використаний як основа для створення програми / послуги OCR.

Я спробував використовувати Tesseract на деяких своїх зображеннях, і його точність видається пристойною. Пізніше я натрапив на дуже простий підручник з використання OpenCV для виконання OCR за допомогою Python і був вражений. За кілька хвилин я закінчив навчання системі, і її точність була хорошою. Але, звичайно, такий підхід означає, що мені потрібно широко тренувати свою систему, використовуючи великий навчальний набір.

Мої конкретні запитання такі:

Як вибрати між Tesseract та використанням OpenCV для створення власної програми OCR?
Для Tesseract доступні набори навчальних даних для різних мов. Чи є у OpenCV щось подібне, щоб мені не довелося починати грунтову роботу для досягнення OCR?
Який із них краще для комерційного застосування?

Будь-які пропозиції?

Question 2

Tesseract - це механізм OCR. Він використовується, працює і фінансується Google спеціально для зчитування тексту із зображень, виконання базової сегментації документів та оперування певними введеннями зображень (окремим словом, рядком, абзацом, сторінкою, обмеженими словниками тощо).
З іншого боку, OpenCV - це бібліотека комп'ютерного зору, яка включає функції, що дозволяють виконувати деякі функції вилучення та класифікації даних. Ви можете створити простий сегментатор літер та класифікатор, який виконує базовий OCR, але це не дуже хороший механізм OCR (я вже робив його в Python з нуля. Це дійсно неточно для введення, яке відхиляється від ваших навчальних даних).

Якщо ви хочете отримати базове розуміння того, наскільки важким є OCR, спробуйте OpenCV. Tesseract - це справжнє OCR.

Question 3

Я є автором того підручника з розпізнавання цифр, про який ви згадали, і я б сказав, що це жодним чином не замінить tesseract.

Tesseract - справді хороший механізм розпізнавання текстів, можливо, найкращий механізм розпізнавання текстів OpenSource.

Підручник, про який ви згадали, - це лише спроба зрозуміти найбільш просту роботу OCR.

Отже, якщо ви шукаєте програму OCR, я рекомендую вам використовувати OpenCV для попередньої обробки зображення, а потім застосувати механізм tesseract.

Question 4

Вони можуть доповнювати один одного. Якщо ви читаєте статтю на OpenCV: https://github.com/tesseract-ocr/docs/blob/master/tesseracticdar2007.pdf

У ній підкреслюється, що "Оскільки HP розробила самостійно розроблену технологію аналізу макета сторінки, яка використовувалась у продуктах (і, отже, не випускалася для відкритого коду), Tesseract ніколи не потребував власного аналізу макета сторінки. Тому Tesseract припускає, що його вхідними даними є двійкове зображення з необов'язкові визначені області полігонального тексту. "

Цей тип завдання може виконувати OpenCV, а отримане зображення передавати Tesseract. Ви можете знайти зразок коду цього типу в репозиторії Git: https://github.com/Itseez/opencv_contrib/tree/master/modules/text/samples Зразки використовують API Tesseract для перетворення зображення в текст.

Question 5

OpenCV - це бібліотека для резюме , яка використовується для аналізу та обробки зображень загалом. Tesseract - це бібліотека для OCR , яка є спеціалізованою підмножиною резюме, призначеною для вилучення тексту із зображень.

З OpenCV.org

..... використовується для виявлення та розпізнавання облич, ідентифікації об'єктів, класифікації людських дій у відео, відстеження рухів камери, відстеження рухомих об'єктів, вилучення 3D-моделей об'єктів, створення 3D-хмар точок зі стереокамер, зшивання зображень для отримання високого роздільна здатність зображення цілої сцени, знайти подібні зображення з бази даних зображень, видалити червоні очі із зображень, зроблених за допомогою спалаху, стежити за рухами очей, розпізнавати декорації та встановлювати маркери, щоб накласти їх на доповнену реальність тощо.

Від Tesseract Github :

..... може використовуватися безпосередньо, або (для програмістів) за допомогою API для вилучення набраного, рукописного або друкованого тексту із зображень. Він підтримує широкий спектр мов.