Хороший безкоштовний OCR з графічним інтерфейсом для виправлення помилок? (для Windows)

Я використовував SimpleOCR , який має приємний графічний інтерфейс для виправлення помилок. На жаль, це робить багато помилок! (і страждає від інших помилок та обмежень)

З іншого боку, Tesseract є більш точним, але зовсім не має графічного інтерфейсу.

Моє запитання: чи існує безкоштовна програма OCR для Windows, яка має приємний графічний інтерфейс і низький показник помилок? Я хочу, щоб він виділив підозрілі слова (через невизначеність OCR, а не лише перевірку орфографії) та показав оригінальне (растрове) слово, коли я редагую слово OCRed, подібне до того, що робить SimpleOCR.

Відкритим кодом було б найкраще, за ним слід безкоштовно, а потім пробна / демонстраційна / криптовалюта далеко позаду.

Скріншот SimpleOCR, що показує графічний інтерфейс для виправлення помилок

windows gui ocr

— Х'ю Аллен
джерело

можливий дублікат безкоштовного програмного забезпечення для OCR

— Sathyajith Bhat

@Sathya: мої конкретні вимоги відрізняють це від цього питання.

— Х'ю Аллен

Не зовсім безкоштовно, але ви заглянули в Microsoft Office? Він поставляється з OCR. (Шукайте в налаштуваннях функцію «Документи зображень Microsoft Office».)

— Vivelin

@horsedrowner: Я просто спробував це. Його точність порівнянна з Tesseract, але для цього потрібен файл TIFF з відповідним налаштуванням DPI або він не працює, і він не має інтерфейсу для виправлення помилок OCR.

— Х'ю Аллен

@Hugh Allen: Це? Це спрацювало досить добре, коли я натрапив на функцію контекстного меню в OneNote 2007. І я використовував файл випадкових зображень, скопійований із копії веб-сайту ...

— Vivelin

Відповіді:

Ви спробували gimagereader , фронт gui для Tesseract?

— укант
джерело

Я просто спробував це (під Windows), і він не працює для мене - процес виходить негайно без повідомлення про помилку :( У будь-якому випадку, дивлячись на знімки екрана, воно, схоже, не підкреслює слово, яке ви редагуєте. Чи намагалися ви це?

— Х'ю Аллен

OCRopus :

Частково програмне забезпечення базується на Tesseract, найкращому на сьогоднішній день відкритим кодом OCR. Очікується, що проект буде випущений наприкінці наступного року та буде використовуватися для проекту сканування книг Google, команда має на увазі кілька цікавих додатків:

інтерфейс веб-сервісу

PDF, камера та OCR на екрані

інтеграція з інструментами пошуку на робочому столі: Beagle, Spotlight, Google Desktop

OCRopus (tm) - це найсучасніший аналіз документів та система OCR, що включає аналіз підключення макетів, розпізнавання символів, що підключаються, статистичне моделювання природної мови та багатомовні можливості.

Двигун OCRopus базується на двох дослідницьких проектах: високоефективний розпізнавальний почерк, розроблений в середині 90-х і розгорнутий Бюро перепису США, та нові високоефективні методи аналізу верстки.

OCRopus спонсорується розробкою, спонсорується Google і спочатку призначений для великої пропускної спроби з великим обсягом перетворення документів. Ми очікуємо, що це також буде чудовою системою OCR для багатьох інших програм. Посилання:

GOCR

GOCR - програма OCR (оптичне розпізнавання символів), розроблена за ліцензією GNU Public. Він перетворює скановані зображення тексту назад в текстові файли. Йорг Шуленбург запустив програму, і зараз очолює команду розробників. GOCR може використовуватися з різними передніми частинами, що робить його дуже легким для порту на різні ОС та архітектури. Він може відкривати безліч різних форматів зображень, і його якість щодня покращується.

Посилання:

GOCR

— Krazy_Kaos
джерело

Чи має хтось із них гідний графічний інтерфейс, щоб разом з ними?

— Х'ю Аллен

Відредаговані відповідають на ваше запитання .... але я б сказав: "Ні, вони не роблять", але я чую, що abiword підтримує OCRopus ( arstechnica.com/open-source/news/2007/08/… )

— Krazy_Kaos

+1 для додавання скріншотів для відповіді, а також для міні-перегляду двох пропонованих програм ...

— Kurt Pfeifle

Існує також TOPOCR (він же SnapReader), що містить перевірку орфографії після обробки після 11 мов:

SnapReader можна використовувати для створення власних записів щодо пошуку практично з будь-якого зображення документа. Або ви можете використовувати його як авторський інструмент і створювати власний редагований вміст за допомогою сканера або камери та зберігати результати у форматі HTML або PDF. SnapReader також може перетворити текст у дуже якісний аудіо за допомогою Audrey. Тож не тільки ви можете використовувати сканер або камеру для зйомки документів, тепер ви також можете використовувати свій портативний музичний плеєр чи смартфон, щоб "прочитати" їх.

зображення

— harrymc
джерело