Частково програмне забезпечення базується на Tesseract, найкращому на сьогоднішній день відкритим кодом OCR. Очікується, що проект буде випущений наприкінці наступного року та буде використовуватися для проекту сканування книг Google, команда має на увазі кілька цікавих додатків:
- інтерфейс веб-сервісу
- PDF, камера та OCR на екрані
- інтеграція з інструментами пошуку на робочому столі: Beagle, Spotlight, Google Desktop
OCRopus (tm) - це найсучасніший аналіз документів та система OCR, що включає аналіз підключення макетів, розпізнавання символів, що підключаються, статистичне моделювання природної мови та багатомовні можливості.
Двигун OCRopus базується на двох дослідницьких проектах: високоефективний розпізнавальний почерк, розроблений в середині 90-х і розгорнутий Бюро перепису США, та нові високоефективні методи аналізу верстки.
OCRopus спонсорується розробкою, спонсорується Google і спочатку призначений для великої пропускної спроби з великим обсягом перетворення документів. Ми очікуємо, що це також буде чудовою системою OCR для багатьох інших програм.
Посилання:
GOCR - програма OCR (оптичне розпізнавання символів), розроблена за ліцензією GNU Public. Він перетворює скановані зображення тексту назад в текстові файли. Йорг Шуленбург запустив програму, і зараз очолює команду розробників. GOCR може використовуватися з різними передніми частинами, що робить його дуже легким для порту на різні ОС та архітектури. Він може відкривати безліч різних форматів зображень, і його якість щодня покращується.