Запитання з тегом «character-encoding»

Питання, що стосуються різних зображень символів та наборів символів, таких як: ASCII, UTF-8, EBCDIC, серед інших. Часто виникає при переміщенні файлів між операційними системами, що кодують нові рядки з поверненнями каретки та / або символами нового рядка.

4
Як змінити кодування з розширеного ASCII тексту без ISO, за допомогою лінійних термінаторів CRLF на UTF-8?
У мене є файл txt: $ file -i x.txt x.txt: text/plain; charset=unknown-8bit $ file x.txt x.txt: Non-ISO extended-ASCII text, with CRLF line terminators І є деякі символи, які неправильно закодовані: trwa³y, sta³y, usuwaæ Як я можу змінити кодування цього файлу на UTF-8? Досі я намагався таким чином: $ iconv -f …

4
масове перейменування (або правильне відображення) файлів із спеціальними символами
У мене є маса каталогів і підкаталогів, які містять файли зі спеціальними символами, як, наприклад, цей файл: robbie@phil:~$ ls test�sktest.txt test?sktest.txt Знайти виявляє послідовність втечі: robbie@phil:~$ find test�sktest.txt -ls 424512 4000 -rwxr--r-x 1 robbie robbie 4091743 Jan 26 00:34 test\323sktest.txt Єдина причина, за якою я навіть можу вводити їх імена …

2
Перетворіть .docx у .pdf за допомогою pandoc
Я намагаюся перетворити .docx, отриманий поштою, у правильний pdf за допомогою pandoc (я використовую GNU / Linux). У мене помилка щодо кодування символів: $ pandoc file.docx -o file.pdf pandoc: Cannot decode byte '\x87': Data.Text.Encoding.decodeUtf8: Invalid UTF-8 stream Я спробував визначити кодування: $ file -i file .docx file.docx: application/vnd.openxmlformats-officedocument.wordprocessingml.document; charset=binary Я …

2
Команда для отримання списку символів у заданому класі символів у поточному мові
Що може бути спосіб , щоб отримати список всіх символів в заданому класі символів (як blank, alpha, digit...) в поточній локалі. Наприклад, LC_ALL=en_GB.UTF-8 that-command blank в ідеалі на моїй системі Debian було б відображено щось на кшталт: 09 U+0009 HORIZONTAL TAB 20 U+0020 SPACE e1 9a 80 U+1680 OGHAM SPACE …

3
Кодування символів підтримується більше, кішка та менше
У мене текстовий файл закодований таким чином file: Текст ISO-8859 з терміналами CRLF Цей файл містить текст французької мови з наголосами. Моя оболонка здатна відображати акценти, а emacsв консольному режимі здатна правильно відображати ці акценти. Моя проблема полягає в тому , що more, catі lessінструменти не відображати цей файл правильно. …

6
Як я можу правильно розпакувати ZIP-архів файлів із івритськими іменами?
Хтось надіслав мені файл ZIP, що містить файли з івритськими іменами (і створений у Windows, не впевнений, за допомогою якого інструменту). Я використовую LXDE на Debian Stretch. Менеджеру архівів Gnome вдається розпакувати файл, але єврейські символи є прихованими. Я думаю, я отримую октети UTF-8, розширені на символи Unicode, наприклад, у …

1
Іноземні символи не відображатимуться в SSH
У мене є проблеми з використанням sshі віддаленим сервером (до якого я не маю доступу адміністратора) - Зокрема, там є кілька папок з текстом корейської та кирилиці. Коли я показую вміст батьківської папки із lsсимволами, символи залишаються як "?". Можливо, слід зазначити, що корейські символи, схоже, врятуються набагато більше, ніж …

2
кодування ssh та символів
Коли я перебуваю sshу своєму VPS, у мене irssiпрацює екран. Коли хтось надсилає символ unicode (наприклад, © або €), він irssiвідображає сміття, коли я використовую його через екран під час sshсеансу. Якщо я irssiпідключуюсь до цього за допомогою проксі-модуля irssi, із irssi, що працює на моєму локальному комп'ютері, він відображається …

3
Як конвертувати смайлик, вказаний кодом U + xxxxx, у utf-8?
Смайлики, схоже, задаються у форматі U + xxxxx, де кожен x - шістнадцятковий розряд. Наприклад, U + 1F615 є офіційним кодом консорціуму Unicode для "плутаного обличчя" 😕 Оскільки мене часто плутають, у мене є сильна спорідненість до цього символу. Представлення U + 1F615 мене бентежить, тому що я вважав, що …

3
Не можете використовувати `cut -c` (` --символи`) з UTF-8?
У команді cutє можливість -cпрацювати над символами, а не байтами з цим параметром -b. Але це, схоже, не працює, на en_US.UTF-8мові: Другий байт дає другий символ ASCII (який закодований точно так само в UTF-8): $ printf 'ABC' | cut -b 2 B але не дає другого з трьох грецьких символів, …

3
Друкуючи десяткові символи до символів ascii, моя команда не виводиться за призначенням
Я хотів вивести рядок усіх символів ascii за допомогою наступної команди for i in `seq 32 127`; do printf "%c" $i; done Вихід з вищевказаної команди: 33333334444444444555555555566666666667777777777.............. Це перша (зліва) цифра кожного числа. Переглядаючи цей сайт, я натрапив на відповідь на свою проблему Як надрукувати всі друковані символи ASCII в …

2
незаконна послідовність введення iconv - чому?
Під час спроби конвертувати текстовий файл у його еквівалент ASCII, я отримую повідомлення про помилку iconv: illegal input sequence at position. Команда, якою я користуюся, є iconv -f UTF-8 -t ascii//TRANSLIT file Образливий персонаж є æ. Тут же присутній сам текстовий файл . Чому це говорить незаконна послідовність? Символ введення …

2
Чи може vim відображати лише символи ASCII та обробляти інші байти як бінарні дані?
Я вже знаю vim -b, однак, залежно від використовуваної мови, він відображає багатобайтові символи (наприклад, UTF-8) у вигляді окремих літер. Як я можу попросити vimвідображати лише символи для друку ASCII, а решта розглянути як бінарні дані, незалежно від шаблону?

2
Wget повертає бінарний замість html?
Я використовую wget, щоб завантажити статичну сторінку HTML. Валідатор W3C повідомляє мені, що сторінка закодована в UTF-8. Але коли я завантажую файл після завантаження, я отримую купу бінарних дурниць. Я на Ubuntu, і я думав, що за замовчуванням кодування було UTF-8? Ось так виглядає мій файл локалів. Чому це відбувається …

5
Як встановити резервне кодування до UTF-8 у Firefox?
Я написав норвезький документ про розмітку: $ file brukerveiledning.md brukerveiledning.md: UTF-8 Unicode text Я перетворив його в HTML за допомогою markdownкоманди: $ markdown > brukerveiledning.html < brukerveiledning.md $ file brukerveiledning.html brukerveiledning.html: UTF-8 Unicode text Однак Firefox наполягає на використанні кодування "windows-1252", порушуючи символи , що не належать до ASCII. Я …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.