Вирізання та вставка в'єтнамських символів з PDF


2

Я намагаюся скопіювати / вставити купу в'єтнамського тексту з PDF-документа в Блокнот ++ (або що-небудь, нічого не працює). Вставлений текст відрізняється від вихідного тексту. Що було б найкращим способом вирішити це?

Наприклад:

Текст джерела: (Див. Скріншот для вихідного тексту) введіть тут опис зображення

Вставлений текст: Салат з папайї ~ GÕi ñu ñû Tôm

Дуже дякую.

Редагувати: Схоже, якщо джерелом є документ Word, він копіює та вставляє, як очікувалося. PDF - це проблема тут.


Чи може шрифт, використаний у PDF, відрізнятись випадково, через що декілька символів визначатимуться по-різному?
Джей

@jay Це було б цікаво .. На жаль, це PDF, що надається клієнтом, я не можу змінити шрифт. Час вимагати текстових документів у майбутньому ... Спасибі
Махді.Монтгомері

Спробуйте перетворення PDF в Слово і подивитися , що вийде
сойка

Відповіді:


6

Це тому, що кодування, яке використовується в PDF, є довільним.

Властивості файлу Acrobat

З деяких PDF-файлів на в'єтнамській мові я знайшов інтертуби

" Кодування: Спеціальне ", ймовірно, означає (випадкове, здавалося б) кодування, складене для власної зручності програмою, яка створила цей PDF.

" Вбудована підмножина " означає, що програмі не потрібно було величезної кількості символів з цього шрифту, тому вона просто вибрала кілька потрібних і впорядкувала їх у, здавалося б, випадковому порядку (можливо, порядок, з яким програма стикалася з ними в тексті) та щойно винайдений кодування засноване на такому впорядкуванні.

Це насправді не "персонажі". В основному, PDF вже не має загальнозначущої інформації про те, "який характер" він має. Він просто має індексовану купу фігур та список позицій та розмірів, де відображає ці індексовані фігури.


У Вікіпедії йдеться

Шрифти, що керуються CID, можуть бути зроблені без посилання на колекцію символів, використовуючи кодування "ідентичність", наприклад Identity-H (для горизонтального запису) або Identity-V (для вертикалі). Кожен з таких шрифтів може мати унікальний набір символів, і в таких випадках номер CID гліфа не є інформативним; як правило, замість цього використовується кодування Unicode, можливо, додаткова інформація.

Тож ви можете спробувати перевірити, чи є сенс сказати кодування UTF-16 BE.


Ну це незручно. У моєму PDF є: "Кодування: Ansi", "Кодування: Ansi", "Кодування: Identity-H". Я припускаю, що немає можливості змінити це в складеному PDF? Дякую!
Mahdi.Montgomery

@ Mahdi.Montgomery: Це незручно. Якщо ви можете розробити, що таке "Identity-H" (і чи відповідає він від PDF до PDF), ви, ймовірно, могли б розробити визначення, яке ви могли б подати на конвертер кодування, такий як iconv, який потім міг би перетворити витягнутий текст. Більшість із нас, мабуть, не вважатиме це вартим.
RedGrittyBrick

Я вважаю, що набагато ефективніше надсилати докучливий електронний лист. Знову дякую.
Махді.Монтгомери

-1

Я знайшов рішення, яке працювало для мене - хоча не можу пояснити, чому. Коли я відкрив PDF в Acrobat, мені не вдалося скопіювати та вставити в'єтнамські символи. Однак, якщо я відкрив PDF у версії Preview App (у мене версія 5.5.3 (719.31)) на своєму Mac, я можу копіювати та вставляти без проблем.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.