file
повідомляє вам "Текст без розширеного ISO-ASCII", оскільки він виявляє, що це:
- швидше за все, «текстовий» файл із відсутністю контрольних символів (значення байтів 0–31), крім розривів рядків;
- "Розширений ASCII", оскільки знаки знаходяться поза діапазоном ASCII (значення байтів ≥128);
- "Не ISO", оскільки є символи в діапазоні 128–159 ( ISO 8859 залишає цей діапазон для контрольних символів).
Ви повинні з'ясувати, в якому кодуванні цей файл, здається, знаходиться. Ви можете спробувати автоматичне розпізнавання Enca . Можливо, вам потрібно буде підштовхнути його в потрібному напрямку, розповівши якою мовою текст.
enca x.txt
enca -L polish x.txt
Щоб конвертувати файл, перейдіть до -x
параметра:enca -L polish x.txt -x utf8 >x.utf8.txt
Якщо ви не можете або не хочете використовувати Enca, ви можете вгадати кодування вручну. Трохи озирнувшись, мені сказали, що це польський текст, а слова trwały, stały, usuważ, тому ми шукаємо переклад, де ³
→ ł
і æ
→ ż
. Це виглядає як latin-2 або latin-10 або більш імовірна (з урахуванням "не-ISO" CP1250, який ви переглядаєте як latin1 . Для перетворення файлу в UTF-8 можна використовувати recode або iconv .
recode CP1250..utf8 <x.txt >x.utf8.txt
iconv -f CP1250 -t UTF-8 <x.txt >x.utf8.txt