У мене є PDF сканованої книги.
Я шукаю безкоштовне програмне забезпечення, яке виконуватиме OCR, а потім надає можливість зберегти його як PDF або документ знову.
Є такий?
У мене є PDF сканованої книги.
Я шукаю безкоштовне програмне забезпечення, яке виконуватиме OCR, а потім надає можливість зберегти його як PDF або документ знову.
Є такий?
Відповіді:
Ви можете завантажити 30-денну пробну версію Adobe Acrobat Pro та скористатися функцією "Розпізнавання тексту OCR" ("Документ> Розпізнавання тексту OCR> Розпізнати текст за допомогою OCR ..."). У діалоговому вікні налаштувань виберіть "Видимий образ" як стиль виводу. Це дозволить зберегти зображення сторінки, але вбудувати текст OCR'ед, таким чином, документ буде шукати і дозволяти вибирати, копіювати та вставляти текст.
Після запуску OCR вам потрібно буде підтвердити або виправити слова, що OCR не впевнений у використанні функцій "Знайти підозрюваних у OCR".
Якщо у вас є обліковий запис Google, Google Docs тепер включає функцію завантаження файлу PDF та виконання OCR на ньому.
Я сам спробував це, і він робить справедливий удар у добре визнаний формат PDF.
Форматування в значній мірі зруйноване, але текст, здається, вижив.
Наступні товари були знайдені в Інтернеті, але я не використовував їх.
Інтернет OCR
OCR Terminal - це онлайн-послуга OCR, яка виконує оптичне розпізнавання символів (OCR) на відсканованих зображеннях та pdf-файлах та перетворює їх у редаговані та текстові документи.
Free-OCR.com - це безкоштовний онлайн-інструмент OCR (оптичне розпізнавання символів). Ви можете використовувати це для виконання відеомагнітофона на будь-якому зображенні, яке ви надаєте.
Ця послуга безкоштовна, реєстрація не потрібна. Нам також не потрібна ваша електронна адреса.
Просто завантажте свої файли зображень. Free-OCR бере або JPG, GIF, TIFF BMP або PDF ( лише перша сторінка ). Єдине обмеження полягає в тому, що зображення не повинні бути більшими за 2 Мб, не ширшими або вищими за 5000 пікселів, і існує обмеження на 10 завантажень зображень на годину.
Сервер розпізнавання Maestro є комерційним, але має демонстраційну версію в Інтернеті.
Безкоштовне програмне забезпечення
FreeOCR - лише для зображень.
FreeOCR - програма для сканування та OCR, включаючи двигун вільного окр Tesseract, також відомий як графічний інтерфейс Tesseract. Він включає в себе інсталятор Windows, і він дуже простий у використанні і підтримує багатосторінкові тиффи, факсимільні документи, а також більшість типів зображень, включаючи стиснуті Tiff, які Tesseract двигун самостійно не може прочитати. Тепер він має сканування Твена.
pdfsandwich - pdf -> pdf перетворювач.
pdfsandwich - це інструмент командного рядка для сканованих книг чи журналів на OCR. Він здатний розпізнавати макет сторінки навіть для багатоколонного тексту.
По суті, pdfsandwich - це сценарій обгортки, який викликає такі двійкові файли: convert, клинопис, gs та hocr2pdf. Він, як відомо, працює на системах Unix і був протестований на Linux і MacOS X. Він підтримує паралельну обробку в багатопроцесорних системах.
Клінопис + hocr2pdf + Ghostscript : Зроблено з відкритим кодом.
Я опублікував відповідь, де викладено рішення, що включає версію теперішньої системи Cuneiform OCR з відкритим кодом та hocr2pdf разом з Ghostscript для розміщення сторінок PDF.
Це було спеціально для Linux, але ви також можете придбати Cuneiform та Ghostscript для Windows. Я не впевнений, що стосується hocr2pdf або іншого подібного.
Встановіть Imagemagick . Відкрийте вікно або термінал cmd:
convert myfile.pdf myfile-%02d.jpg
Вихід буде 1 jpg-файл для кожної сторінки у вашому pdf, myfile-00.jpg, myfile-01.jpg тощо.
Передайте кожне зображення через програму ocr. Я не маю великого досвіду з цим, але, здається, є багато варіантів.
Перетворіть кожну сторінку тексту назад у формат PDF. Ви можете зробити це знову за допомогою Imagemagick, але є й інші способи:
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
Ваш запит здається складним рішенням проблеми, хоча я, можливо, не правильно зрозумів проблему. У будь-якому випадку:
Чому б не отримати PDF-програму, яка дозволить вам вводити дані безпосередньо на сторінку pdf?
Спробуйте PDFCubed.com Нічого не встановлювати, це все робиться в Інтернеті. Ви можете надіслати ваші документи для обробки через Інтернет, електронну пошту чи скриньку. Скановані PDF-файли та TIF-файли перетворюються на текстові файли pdfs та можуть бути відновлені через Інтернет, електронну пошту чи папку.