Як видалити OCR з PDF?


14

Я деякий час шукав Google, але не можу знайти відповіді на моє запитання.

У мене є небажані шари OCR в документі, який я нещодавно сканував за допомогою Adobe Acrobat. Це не було зареєстровано належним чином, і я хочу редагувати деяку інформацію, але OCR робить стерту потрібної інформації. Я перетворив файли в TIF, але помітив (дуже) значну втрату якості. Я чув, що друк в інший PDF або зберігає текст, або знижує якість зображення.

Я вдячний за будь-яку допомогу у вирішенні цього питання якомога швидше.

Дякую.

Відповіді:


6

У програмі Acrobat Pro DC відповідна команда - «Видалити приховану інформацію», яка доступна як через інструменти «Захист», так і «Повторити».

При виконанні команди він просто шукає приховану інформацію, але не змінює документ. Потім потрібно сказати Acrobat, яку інформацію видалити. У цьому випадку виберіть "Прихований текст" на панелі "Результати", потім натисніть кнопку "Видалити" та збережіть змінений документ.


Я використав "видалити приховану інформацію", але мені чомусь просто видаляє частини зображення на певних сторінках. Дякуємо за вашу відповідь.
Сануо

Це не вірно. Якось (ймовірно, помилки macOS PDFKit) мій текст ABBYY FineReader-OCRed зіпсувався, і при перевірці "Прихований текст" у розділі Redact → Remove Hidden видалено текст без проблем; Тоді мені вдалося успішно використовувати вдосконалене сканування → розпізнати текст для виконання OCR у самому Acrobat.
Ніколас Райлі

Проблема для мене полягає в тому, що після видалення прихованого тексту я все ще не можу запустити OCR з "ClearScan" (тобто "Редагований текст і зображення"). Це дивно, тому що текстовий шар, схоже, відсутній, проте запущений OCR видає помилку "Acrobat не міг виконати розпізнавання, оскільки: сторінка містить текст, що передається".
користувач1125483

1

Після багатьох експериментів я виявив, що друк на Adobe PDF від Adobe Acrobat друкує документ без OCR та без втрати якості (непомітна на перший погляд роздільна здатність втрачається).

Однак багато сайтів стверджують, що це не працює. Я також спробував інші принтери, такі як Foxit Reader та OneNote, але якість знизилася. JPEG теж був таким же.

Майте на увазі, що ваш пробіг може відрізнятися.

Примітка. Я залишаю цю тему позначеною як без відповіді, сподіваючись знайти кращу відповідь, ніж моя.


1

(рік тому...)

Якщо, як ви кажете, документи скануються, а не надрукуються у PDF, наприклад, з Word, ви можете легко їх видалити за допомогою Adobe:

Виберіть Документ, Вивчіть документ і тепер ви можете видалити прихований текст (OCR).


Дякуємо за Ваш відповідь. Я перевірю це, як тільки зможу, і повідомлю вас. Дякую за відповідь!
Сануо

Я думав, що вже прокоментував це, але проблема в тому, що у мене є Acrobat DC Pro, і ці меню видалено. Дякуємо за вашу відповідь.
Сануо

1

В Acrobat Pro: використовуйте «видалити приховану інформацію» (під «захистом»). Виділіть усі, виконайте, OCR пішов


1

У програмі Acrobat X під захистом є кнопка Sanitize Document, яка видаляє ВСЕ, але те, що можна побачити (включаючи текстовий шар OCR), перетворюючи документ у сплюснуту бітову карту.


1

Я вирішив це, експортувавши в JPEG, потім з JPEG 'комбінувати файли в акробат'. Це з doc, який спочатку був слово doc і був перетворений у PDF. OCR пішов.


0

Я створив інструмент для створення цього безкоштовного PDF Redactor . Якщо ви завантажите зображення та просто натисніть кнопку "Відредагувати", це згладить ваш pdf та видалить OCR. Якщо ви хочете, ви також можете намалювати редакційні позначки і на документі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.