Як я можу конвертувати відскановані зображення у форматі PDF в PDF-файл, який можна шукати? [зачинено]


19

У мене є PDF сканованої книги.

Я шукаю безкоштовне програмне забезпечення, яке виконуватиме OCR, а потім надає можливість зберегти його як PDF або документ знову.

Є такий?


Ви маєте на увазі, що хочете перетворити зображення в PDF у текст?
DaveParillo

так, але я не хочу, щоб файл txt був вихідним. Я хочу побачити той самий pdf, але з можливістю натиснути Ctrl + F і позначити слова тощо.

вам буде дуже важко перетворити цей PDF, не втрачаючи форматування тексту та стилю. мені ще потрібно знайти програмне забезпечення для OCR, здатне належним чином зберегти документ від сканованих зображень. підготуйтеся до роботи з ослами (наприклад, коректура тощо) :)

Відповіді:


5

Ви можете завантажити 30-денну пробну версію Adobe Acrobat Pro та скористатися функцією "Розпізнавання тексту OCR" ("Документ> Розпізнавання тексту OCR> Розпізнати текст за допомогою OCR ..."). У діалоговому вікні налаштувань виберіть "Видимий образ" як стиль виводу. Це дозволить зберегти зображення сторінки, але вбудувати текст OCR'ед, таким чином, документ буде шукати і дозволяти вибирати, копіювати та вставляти текст.

Після запуску OCR вам потрібно буде підтвердити або виправити слова, що OCR не впевнений у використанні функцій "Знайти підозрюваних у OCR".


Хоча Adobe не є безкоштовним, на сьогоднішній день це найбільш здібне рішення OCR
James Healy

4

Якщо у вас є обліковий запис Google, Google Docs тепер включає функцію завантаження файлу PDF та виконання OCR на ньому.

Я сам спробував це, і він робить справедливий удар у добре визнаний формат PDF.

Форматування в значній мірі зруйноване, але текст, здається, вижив.


4

Наступні товари були знайдені в Інтернеті, але я не використовував їх.

Інтернет OCR

Термінал OCR

OCR Terminal - це онлайн-послуга OCR, яка виконує оптичне розпізнавання символів (OCR) на відсканованих зображеннях та pdf-файлах та перетворює їх у редаговані та текстові документи.

Безкоштовний OCR

Free-OCR.com - це безкоштовний онлайн-інструмент OCR (оптичне розпізнавання символів). Ви можете використовувати це для виконання відеомагнітофона на будь-якому зображенні, яке ви надаєте.
Ця послуга безкоштовна, реєстрація не потрібна. Нам також не потрібна ваша електронна адреса.
Просто завантажте свої файли зображень. Free-OCR бере або JPG, GIF, TIFF BMP або PDF ( лише перша сторінка ). Єдине обмеження полягає в тому, що зображення не повинні бути більшими за 2 Мб, не ширшими або вищими за 5000 пікселів, і існує обмеження на 10 завантажень зображень на годину.

Сервер розпізнавання Maestro є комерційним, але має демонстраційну версію в Інтернеті.

Безкоштовне програмне забезпечення

FreeOCR - лише для зображень.

FreeOCR - програма для сканування та OCR, включаючи двигун вільного окр Tesseract, також відомий як графічний інтерфейс Tesseract. Він включає в себе інсталятор Windows, і він дуже простий у використанні і підтримує багатосторінкові тиффи, факсимільні документи, а також більшість типів зображень, включаючи стиснуті Tiff, які Tesseract двигун самостійно не може прочитати. Тепер він має сканування Твена.

pdfsandwich - pdf -> pdf перетворювач.

pdfsandwich - це інструмент командного рядка для сканованих книг чи журналів на OCR. Він здатний розпізнавати макет сторінки навіть для багатоколонного тексту.

По суті, pdfsandwich - це сценарій обгортки, який викликає такі двійкові файли: convert, клинопис, gs та hocr2pdf. Він, як відомо, працює на системах Unix і був протестований на Linux і MacOS X. Він підтримує паралельну обробку в багатопроцесорних системах.


Я щойно використовував pdfsandwich. Це працює і це безкоштовно! :) Це, безумовно, допоможе в моїй тезі, дякую!
Едді

Схоже, pdfsandwich перемістився? tobias-elze.de/pdfsandwich
піото

@pioto: Ви не додали pdfsandwich вище, але я виправив посилання так, як ви запропонували.
harrymc

2

Клінопис + hocr2pdf + Ghostscript : Зроблено з відкритим кодом.

Я опублікував відповідь, де викладено рішення, що включає версію теперішньої системи Cuneiform OCR з відкритим кодом та hocr2pdf разом з Ghostscript для розміщення сторінок PDF.

Це було спеціально для Linux, але ви також можете придбати Cuneiform та Ghostscript для Windows. Я не впевнений, що стосується hocr2pdf або іншого подібного.


1

Ось дуже дивний метод, який передбачає надання індексу Google та OCR для вас на веб-сайті, а потім його отримання.


так, я бачив це теж ... дивно Дійсно :) Я можу в кінцевому підсумку зробити це ...

0

Встановіть Imagemagick . Відкрийте вікно або термінал cmd:

convert myfile.pdf myfile-%02d.jpg

Вихід буде 1 jpg-файл для кожної сторінки у вашому pdf, myfile-00.jpg, myfile-01.jpg тощо.

Передайте кожне зображення через програму ocr. Я не маю великого досвіду з цим, але, здається, є багато варіантів.

Перетворіть кожну сторінку тексту назад у формат PDF. Ви можете зробити це знову за допомогою Imagemagick, але є й інші способи:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf

0

Ваш запит здається складним рішенням проблеми, хоча я, можливо, не правильно зрозумів проблему. У будь-якому випадку:

Чому б не отримати PDF-програму, яка дозволить вам вводити дані безпосередньо на сторінку pdf?


0

Спробуйте PDFCubed.com Нічого не встановлювати, це все робиться в Інтернеті. Ви можете надіслати ваші документи для обробки через Інтернет, електронну пошту чи скриньку. Скановані PDF-файли та TIF-файли перетворюються на текстові файли pdfs та можуть бути відновлені через Інтернет, електронну пошту чи папку.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.