Видалення нетекстового тексту зі сканованого PDF у форматі OCRd

У мене є PDF, створений із відсканованого документа. OCR використовується для розпізнавання тексту. Якщо я вибираю текст і натискаю "скопіювати з форматуванням", в Acrobat я можу вставити відформатований текст у Word, тому здається, що шрифти та кольори також вбудовані в документ, крім простого тексту та, можливо, розміру.

Чи є можливість використовувати цю інформацію для створення PDF-файлу, що містить лише відформатований текст OCRd, без сканованого зображення. Наразі мій документ показує лише відскановані зображення, а текст - на невидимому шарі. Я хотів би створити документ PDF, який видаляє зображення, яке було відскановано, та відображає відформатований текст, який зараз приховано.

У наступному дописі є розділ на тему "Як ми можемо зробити невидимий текст видимим?" Після запуску через Ghostscript у PDF є додатковий пробіл у всіх словах

Однак це не показує правильне форматування тексту (яке зберігається під час вставки в Word), і я також хотів би видалити відскановане зображення, щоб остаточний PDF-файл просто містив форматизовані (кольори, шрифти, розміри) векторні шрифти та немає зображень.

pdf ocr

— Даніель С.
джерело

-3

Чи всі зараз роблять все важко, тому що програми складніші, ніж потрібно. Я прочитав, що ви зробили, ви освоїли повний контроль відсканованого тексту тексту, за винятком незначного переформатування.

Ціле питання я просто не розумію. Коли у нас є OCR з найпростішим безкоштовним програмним забезпеченням, яке постачається зі сканером, воно може дати мені 3 простих речі.

Текст , сирий текст так, як я цього найбільше хотів, ні форматування, ні кольори, ні багато обгортання слів, це просто "код", які букви він побачив. Його не потрібно повторно вводити і повторно перевіряти написання. Цей текст можна повторно передати та відформатувати, змінити розмір та переоформити. Людина просто щасливий, що не потрібно її повторно вводити. Це дуже м'який регульований і крихітний, це просто код для символів.

Програмне забезпечення для OCR, яке розміщує пробіли між усіма літерами, слід або переналаштувати, або перекинути. Якщо він розмістить пробіли там, оскільки вони існували, то так до нього знову існуватиме Пропустити, що я залишаю їх. Можливо, трохи реКернінгу (натискання літер разом) у програмі word / pdf, щоб вичавити його.
Форматований текст насичений колом, параграфи, загортання і може бути кольоровим або розміром, але змінити це легко. Цей вибір OCR корисний для того, щоб скинути його попередньо відформатований AS-IS і повторно роздрукувати / використовувати його чистою, як було . це ще дуже маленький розмір, без графіки чи зображень. ЯКЩО я використовую відформатований текст і хочу переформатувати його для іншого макета / форматування, я також міг би просто OCRed текст тільки (1), використовував текст RAW і швидко повторно перетікав, переформатував його та повторно розфарбували його.
Графіка - речі, які неможливо розпізнати, оскільки він не може розпізнати літери, це може бути вся сторінка або частини сторінки, як-от підпис, або деякі заплутані області або елементи зображення.

Цей сканований розділ можна використовувати з (1) або (2) для ручного розміщення графіки в переформатованих документах або просто вставки вставленої у форматизовану область. Якщо "графічний" або фоновий шум сторінки не потрібний, програмне забезпечення OCR налаштоване робити лише (1) або (2), що найкраще робить OCR. (1) з'ясуйте, що таке текст, і проігноруйте все інше. Або (2) зобразити текст та форматування та макет тексту.

Це (3) зображення не може перетворити його на "буфер копіювання" стандартних матеріалів для Windows, із сирим текстом або відформатованим текстом одночасно для звичайної крос-програми для копіювання програми. Це не просто текст або просто RTF, це не просто зображення, це безладний комбо. Це може бути вставка для копіювання "спеціальних даних".

Це може бути надруковано з програмного забезпечення для OCR, або "друк" у форматі PDF можна зробити з програмного забезпечення OCR (де воно все ще збирається). В основному буфер копіювання комп'ютера / програми може робити (1) текст, може (2) текст з форматуванням. Але робити зображення і Rich Text також, хіба що "змішування даних" для інших програм для його розпізнавання?

Вибравши текст ТІЛЬКИ у документі PDF, який містив текст, він перемістить текст у буфер вставки для копіювання. Ви можете вставити цей текст у що завгодно, і вже є, змінивши будь-який інтервал або абзаци та вкладки, можна зробити в програмі Wurd.

PDF може бути лише текстом, текстом із форматуванням, текстом і зображенням, і все це можна розділити за один швидкий хід, якщо він не захищений. Копіювати Вставити. Вставте лише текст (який ви вже змогли вставити в Word) у PDF та зробіть з простого тексту лише PDF.

ЯКЩО це контур тексту вектор (точки та криві)? Невидима, чия геніальна ідея: це було те, що було в наявності, коли робили такі прості речі? Деякий програміст, який не може залишити достатньо добре в спокої. Потрібно було б переосмислитись, це вже не сирий текстовий код. Не вдалося скопіювати вставити векторний текст / графіку як текстові символи.

За допомогою векторів у Photoshop ви можете його повторно стилізувати, згинати, щоб він знову підходив, це вектори, але не текстові символи, дуже важко перезапустити або переформатувати зараз. Розмір різко збільшується, якщо це вектори.

ЯКЩО це растризовано (зробило його Малюнком замість векторів), яке на зразок доопрацьовує контур, то не «обводить» контур вектора і не стилізує його. Знову перетворюючи його на "малюнок / графіку", замість тексту RTF або Vectors, блокується простота перебігу, повторне обгортання, переформатування. Розмір був би найбільшим розміром, коли він був розсіяний.

І у вас виникли проблеми з їх перенесенням у PDF або WORD, вони збираються повторно кодувати PDF, тому ви задаєте питання, і я дивлюся на це, думаючи:

ти маєш це
ви маєте головний контроль над цим, більше ніж потрібно
ви змогли з нею що завгодно зробити
як ви могли загубитися, ви освоїли його перетворення
у вас є і малюнки, і текст
ви змогли скопіювати вставити текст
у вас це все є.

_{Це було відредаговано після публікації коментарів.}

— Психогек
джерело

Я не сканував документи, тому не маю доступу до цих трьох варіантів. Вони були відскановані сервісом під назвою 1DollarScan ( 1dollarscan.com ), і я не впевнений, які варіанти вони мали, але тепер у мене є документи PDF, і я хотів би мати можливість витягнути відформатований текст, щоб документи займали менше кімната (деякі з них - сотні мегабайт), і я можу читати їх на Kindle (який може відображати PDF-зображення, але я вважаю за краще текст, щоб мені не довелося збільшувати та прокручувати PDF).

— Даніель С.

Але знову ж таки ваше запитання вказує на те, що ВАМ? що я пропускаю? скопіюйте текст з PDF за допомогою вибору тексту та вставте його в найнижчу форму блокнота. і що ти бачиш? У мене є наручний годинник, який міг би прочитати те, що ви описали у запитанні, я не розумію, як ви не можете його отримати у читачах на $ 300 ???

— Psycogeek

Я хочу зберегти форматування. Альтернативним варіантом є те, що я можу зберегти як слово, яке зберігає форматування. Однак, якщо можливо видалити зображення з PDF та зберегти відформатований текст, я хотів би порівняти цей метод із збереженням у форматі Word, щоб побачити, чи вони обидва випускають однакову якість. Мені також цікаво, чи є утиліта, яка могла б це зробити, оскільки я могла використовувати її для інших редагувань PDF.

— Даніель С.

Гаразд, я розумію, я читаю більше інших болючих ниток :-). Отже, справжнє запитання може бути чимось на кшталт: "Як я можу скриптувати видалення відсканованого графічного зображення, підтримувати форматування текстового шару OCR, Розкривати прихований текст OCR та колорис за бажанням". або Як я можу зменшити цю подвійну функцію PDF І зі сканованим зображенням, і з текстовим шаром, щоб він не

— мав

Я розмістив це посилання, оскільки воно було відправною точкою для відображення тексту. Я не перевірив усіх подробиць у пості. Це правильний спосіб переформулювати моє запитання: "Як я можу скриптувати видалення відсканованого графічного зображення ..." Щодо способів зменшення файлу, я спробував деякі, і вони принесли в жертву занадто багато якості, до чого призвело Мені до думки про те, як зберегти лише векторні відформатовані шрифти.

— Даніель С.