У мене є сканований PDF-матеріал, до якого я хочу додати прихований текстовий шар, щоб я міг проіндексувати документ. Я використовував пристрій виведення чорно-білих зображень тифу (tiffg4) для витягу сторінок у вигляді зображень tiff, і ось приклад того, як вони виглядають:
Обробка цього зображення тессерактом не дає хороших результатів.
Зміна виходу ghostscript DPI (600, 300, 150, 96) показує, що зображення в 96 DPI дає найкращий результат від tesseract, але це все ще незадовільно.
Тепер я подумав попросити поради, який фільтр покращить це зображення для обробки OCR.
Я можу використовувати imagemagick або numpy / scipy / ndimage