Фільтрація свого роду "напівтонованим" зображенням для обробки OCR

10

У мене є сканований PDF-матеріал, до якого я хочу додати прихований текстовий шар, щоб я міг проіндексувати документ. Я використовував пристрій виведення чорно-білих зображень тифу (tiffg4) для витягу сторінок у вигляді зображень tiff, і ось приклад того, як вони виглядають:

введіть тут опис зображення

Обробка цього зображення тессерактом не дає хороших результатів.
Зміна виходу ghostscript DPI (600, 300, 150, 96) показує, що зображення в 96 DPI дає найкращий результат від tesseract, але це все ще незадовільно.

Тепер я подумав попросити поради, який фільтр покращить це зображення для обробки OCR.

Я можу використовувати imagemagick або numpy / scipy / ndimage

image-processing ocr

— зета
джерело

9

Те, що вам справді потрібно, - це, ймовірно, якась морфологічна операція, наприклад дилатація з ерозією. Це називається операцією закриття . Можливо, у вашому випадку - саме розширення може бути гарним.

Раніше було задано подібне запитання - яке може допомогти в інших аспектах.

монохромне (1-бітне чорно-біле) перетворення зображення

Як реконструювати текст із зображення, використовуючи лише морфологічні операції?

— Діпан Мехта
джерело

2

ви можете видалити це за допомогою фільтра низьких частот. це або робиться в частотному просторі, або просто беруть (різницю) гаусса зображення.

— Крістоф Раквіц
джерело