Фільтрація свого роду "напівтонованим" зображенням для обробки OCR


10

У мене є сканований PDF-матеріал, до якого я хочу додати прихований текстовий шар, щоб я міг проіндексувати документ. Я використовував пристрій виведення чорно-білих зображень тифу (tiffg4) для витягу сторінок у вигляді зображень tiff, і ось приклад того, як вони виглядають:

введіть тут опис зображення

Обробка цього зображення тессерактом не дає хороших результатів.
Зміна виходу ghostscript DPI (600, 300, 150, 96) показує, що зображення в 96 DPI дає найкращий результат від tesseract, але це все ще незадовільно.

Тепер я подумав попросити поради, який фільтр покращить це зображення для обробки OCR.

Я можу використовувати imagemagick або numpy / scipy / ndimage

Відповіді:


9

Те, що вам справді потрібно, - це, ймовірно, якась морфологічна операція, наприклад дилатація з ерозією. Це називається операцією закриття . Можливо, у вашому випадку - саме розширення може бути гарним.

Раніше було задано подібне запитання - яке може допомогти в інших аспектах.

монохромне (1-бітне чорно-біле) перетворення зображення

Як реконструювати текст із зображення, використовуючи лише морфологічні операції?


2

ви можете видалити це за допомогою фільтра низьких частот. це або робиться в частотному просторі, або просто беруть (різницю) гаусса зображення.

гауссова низька прохідність, то різниця гауссів загострюватися

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.