У мене є кількість відсканованих документів у форматі pdf, і я хочу мати можливість їх пошуку. Як я можу це зробити?
По суті, я повинен OCR pdf, а потім змішати витягнутий текст назад у новий pdf. Я безуспішно спробував декілька різних рішень (включаючи ті, що знайдені в Доданні інформації про OCR до PDF ).
- pdfocr (що дає мені це питання: https://github.com/gkovacs/pdfocr/isissue/7 )
- pdfsandwich (про який у центрі програмного забезпечення йдеться про поганий пакет, і я не повинен його встановлювати)
- OCRfeeder (в центрі програмного забезпечення) добре експортує у odt, але не реагує при експорті в pdf.
- Gscan2pdf експортує все чорне (але доступне для пошуку) зображення, як повідомлялося в цій дискусії .
- Я не думаю, що переглядач Pdfxchange може впоратися з тим, що виконуватиме ocr на льоту на файлах понад 500 сторінок.
Чи є програмний пакет, про який я не знаю? Або сценарій, який робить це?
pdf2searchablepdf
. Це спирається на tesseract
. Це добре працює. Супер простий у використанні. Дивіться тут. askubuntu.com/a/1187881/327339