Я використовував tesseract для перетворення документів у текст. Якість документів дико коливається, і я шукаю поради щодо того, яка обробка зображень може покращити результати. Я помітив, що дуже сильно піксельний текст - наприклад, створений факс-машинами - особливо важко обробляти tesseract - імовірно, всі ці зазубрені краї символів змішують алгоритми розпізнавання форми.
Які способи обробки зображень підвищили б точність? Я використовував розмиття Гаусса, щоб згладити піксельні зображення і побачив невелике поліпшення, але сподіваюся, що існує більш конкретна техніка, яка дасть кращі результати. Скажіть фільтр, налаштований на чорно-білі зображення, які згладжуватимуть нерівні краї, а потім фільтр, який збільшуватиме контрастність і робить символи більш чіткими.
Якісь загальні поради для того, хто є початківцем у обробці зображень?