UTF-8 не є діаграмою, а лише кодуванням для Unicode. Перші 128 символів такі ж, як ASCII, але відрізняються високими 128 байтами. Байт з високим набором бітів (або> = 0x80) є розширеним символом в ASCII, тоді як в UTF-8 він вказує на початковий байт багатобайтової послідовності. Це справа 0x93 або 0x94 вище. Однак у файлі я не бачу нічого дивного. Це розумні цитати або цитати з різними формами для відкриття та закриття цитат, які ви часто бачите при використанні редактора ситного тексту, такого як MS Word
Редагувати
Питання відредаговано. Я думаю, це тому, що ви вибрали неправильний інструмент. У encode
пунктах меню для зміни кодування , якщо у вас є неправильні прояви характеру. Він просто обробляє ту саму послідовність байт, яку читає з диска, як і інше кодування. Оскільки ASCII і UTF-8 різні, у вас буде неправильна послідовність байтів UTF-8 і побачите результат вище. Вам потрібно вибрати convert to UTF-8
для зміни цілих вхідних байтів
Ви також плутали ANSI та ASCII. ANSI часто посилається на Windows-1252, який є набором символів, який використовується в англійській мові Windows та деяких мовах Західної Європи. Це суперсет ISO 8859-1, хоча ISO 8859-1 також може вважатися ANSI. ISO 8859-1 - це також перші 256 кодових точок Unicode, тому це підмножина Unicode, але вона не сумісна з кодуванням UTF-8. ASCII - це 7-бітний набір символів і є підмножиною ANSI, кодованим 8 бітами, але іноді його також називають ANSI, хоча не дуже коректно
https://en.wikipedia.org/wiki/ANSI_character_set
Загалом взаємозв'язок між наборами символів такий
ASCII < ISO 8859-1 < Windows-1252
^
Unicode