У моїй файловій системі (Windows 7) у мене є деякі текстові файли (це файли скриптів SQL, якщо це має значення).
При відкритті з Notepad ++ , в меню «Кодування» деякі з них , як повідомляється, кодування «UCS-2 Little Endian» і деякі «UTF-8 без BOM».
Яка тут різниця? Всі вони, здається, є абсолютно дійсними сценаріями. Як я можу сказати, які кодування мають цей файл без Notepad ++?
encaта chardetдля POSIX систем.
iconvзокрема корисно для цієї мети. По суті, ви повторюєте пошкоджені рядки / текст символів через різні кодування, щоб побачити, який з них працює. Ви виграєте, коли персонажі більше не зіпсовані. Я б хотів відповісти тут, на прикладі програми. Але це, на жаль, захищене питання.
chardetабо chardetectнемає, то ви можете встановити пакунок через менеджер пакунків (наприклад, apt search chardetна ubuntu / debian пакет зазвичай викликається python-chardetабо python3-chardet) або через pip з pip install chardet(або pip install cchardetдля швидшої версії, оптимізованої c).