Це тому, що кодування, яке використовується в PDF, є довільним.
З деяких PDF-файлів на в'єтнамській мові я знайшов інтертуби
" Кодування: Спеціальне ", ймовірно, означає (випадкове, здавалося б) кодування, складене для власної зручності програмою, яка створила цей PDF.
" Вбудована підмножина " означає, що програмі не потрібно було величезної кількості символів з цього шрифту, тому вона просто вибрала кілька потрібних і впорядкувала їх у, здавалося б, випадковому порядку (можливо, порядок, з яким програма стикалася з ними в тексті) та щойно винайдений кодування засноване на такому впорядкуванні.
Це насправді не "персонажі".
В основному, PDF вже не має загальнозначущої інформації про те, "який характер" він має. Він просто має індексовану купу фігур та список позицій та розмірів, де відображає ці індексовані фігури.
У Вікіпедії йдеться
Шрифти, що керуються CID, можуть бути зроблені без посилання на колекцію символів, використовуючи кодування "ідентичність", наприклад Identity-H (для горизонтального запису) або Identity-V (для вертикалі). Кожен з таких шрифтів може мати унікальний набір символів, і в таких випадках номер CID гліфа не є інформативним; як правило, замість цього використовується кодування Unicode, можливо, додаткова інформація.
Тож ви можете спробувати перевірити, чи є сенс сказати кодування UTF-16 BE.