Як видалити OCR з PDF?

14

Я деякий час шукав Google, але не можу знайти відповіді на моє запитання.

У мене є небажані шари OCR в документі, який я нещодавно сканував за допомогою Adobe Acrobat. Це не було зареєстровано належним чином, і я хочу редагувати деяку інформацію, але OCR робить стерту потрібної інформації. Я перетворив файли в TIF, але помітив (дуже) значну втрату якості. Я чув, що друк в інший PDF або зберігає текст, або знижує якість зображення.

Я вдячний за будь-яку допомогу у вирішенні цього питання якомога швидше.

Дякую.

— Саноо
джерело

6

У програмі Acrobat Pro DC відповідна команда - «Видалити приховану інформацію», яка доступна як через інструменти «Захист», так і «Повторити».

При виконанні команди він просто шукає приховану інформацію, але не змінює документ. Потім потрібно сказати Acrobat, яку інформацію видалити. У цьому випадку виберіть "Прихований текст" на панелі "Результати", потім натисніть кнопку "Видалити" та збережіть змінений документ.

— user1125483
джерело

Я використав "видалити приховану інформацію", але мені чомусь просто видаляє частини зображення на певних сторінках. Дякуємо за вашу відповідь.

— Сануо

Це не вірно. Якось (ймовірно, помилки macOS PDFKit) мій текст ABBYY FineReader-OCRed зіпсувався, і при перевірці "Прихований текст" у розділі Redact → Remove Hidden видалено текст без проблем; Тоді мені вдалося успішно використовувати вдосконалене сканування → розпізнати текст для виконання OCR у самому Acrobat.

— Ніколас Райлі

Проблема для мене полягає в тому, що після видалення прихованого тексту я все ще не можу запустити OCR з "ClearScan" (тобто "Редагований текст і зображення"). Це дивно, тому що текстовий шар, схоже, відсутній, проте запущений OCR видає помилку "Acrobat не міг виконати розпізнавання, оскільки: сторінка містить текст, що передається".

— користувач1125483

1

Після багатьох експериментів я виявив, що друк на Adobe PDF від Adobe Acrobat друкує документ без OCR та без втрати якості (непомітна на перший погляд роздільна здатність втрачається).

Однак багато сайтів стверджують, що це не працює. Я також спробував інші принтери, такі як Foxit Reader та OneNote, але якість знизилася. JPEG теж був таким же.

Майте на увазі, що ваш пробіг може відрізнятися.

Примітка. Я залишаю цю тему позначеною як без відповіді, сподіваючись знайти кращу відповідь, ніж моя.

— Саноо
джерело

1

(рік тому...)

Якщо, як ви кажете, документи скануються, а не надрукуються у PDF, наприклад, з Word, ви можете легко їх видалити за допомогою Adobe:

Виберіть Документ, Вивчіть документ і тепер ви можете видалити прихований текст (OCR).

— Фран
джерело

Дякуємо за Ваш відповідь. Я перевірю це, як тільки зможу, і повідомлю вас. Дякую за відповідь!

— Сануо

Я думав, що вже прокоментував це, але проблема в тому, що у мене є Acrobat DC Pro, і ці меню видалено. Дякуємо за вашу відповідь.

— Сануо

1

В Acrobat Pro: використовуйте «видалити приховану інформацію» (під «захистом»). Виділіть усі, виконайте, OCR пішов

— джаз
джерело

1

У програмі Acrobat X під захистом є кнопка Sanitize Document, яка видаляє ВСЕ, але те, що можна побачити (включаючи текстовий шар OCR), перетворюючи документ у сплюснуту бітову карту.

— Дейв
джерело

1

Я вирішив це, експортувавши в JPEG, потім з JPEG 'комбінувати файли в акробат'. Це з doc, який спочатку був слово doc і був перетворений у PDF. OCR пішов.

— рандо кал
джерело

0

Я створив інструмент для створення цього безкоштовного PDF Redactor . Якщо ви завантажите зображення та просто натисніть кнопку "Відредагувати", це згладить ваш pdf та видалить OCR. Якщо ви хочете, ви також можете намалювати редакційні позначки і на документі.

— левінологія
джерело