Запитання з тегом «unicode»

Unicode - стандарт для кодування, подання та обробки тексту з метою підтримки всіх символів, необхідних для написаного тексту, що включає всі системи письма, технічні символи та пунктуацію.

12
Видаліть діакритичні знаки (ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ) із символів Unicode
Я розглядаю алгоритм, який може зіставляти символи з діакритикою ( тильда , циркумфлекс , карет , умлаут , карон ) та їх "простий" характер. Наприклад: ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n á --> a ä --> a ấ --> …

5
Дійсно добре, погано UTF-8 приклади даних тесту [закрито]
Зачинено. Це питання не відповідає вимогам щодо переповнення стека . Наразі відповіді не приймаються. Хочете покращити це питання? Оновіть питання, щоб воно було актуальним для переповнення стека. Закрито 3 роки тому . Удосконалюйте це питання Отже, у нас є шпаргалка XSS для тестування нашої фільтрації XSS - але крім прикладу …
88 unicode  utf-8 

8
Як я можу замінити символи Unicode, що не друкуються, у Java?
Наступне замінить символи керування ASCII (скорочення для [\x00-\x1F\x7F]): my_string.replaceAll("\\p{Cntrl}", "?"); Далі буде замінено всі недруковані символи ASCII (скорочення для [\p{Graph}\x20]), включаючи символи з наголосом: my_string.replaceAll("[^\\p{Print}]", "?"); Однак жоден з них не працює для рядків Unicode. Хтось має хороший спосіб видалити символи, що не друкуються, із рядка Unicode?
88 java  string  unicode 

12
Чи залишається актуальним TCHAR?
Я новачок у програмуванні Windows, і після прочитання книги Петцольда мені цікаво: чи все ще є гарною практикою використовувати TCHARтип і _T()функцію для оголошення рядків, або якщо я повинен просто використовувати рядки wchar_tі L""в новому коді? Я націлюся лише на Windows 2000 та новіші версії, і мій код буде i18n …
87 c++  c  windows  unicode  wchar-t 


6
Використання 'use utf8;' дає мені "Широкий характер у друці"
Якщо я запустив таку програму Perl: perl -e 'use utf8; print "鸡\n";' Я отримую таке попередження: Wide character in print at -e line 1. Якщо я запустив цю програму Perl: perl -e 'print "鸡\n";' Я не отримую попередження. Я вважав, що use utf8потрібно використовувати символи UTF-8 у сценарії Perl. Чому …
86 perl  unicode  utf-8 

2
Що “не так” у C ++ wchar_t та wstrings? Які альтернативи широким персонажам?
Я бачив, як багато людей у ​​спільноті C ++ (зокрема ## c ++ на freenode) обурюються використанням wstringsта wchar_tта їх використанням у вікні api. Що саме "неправильно" в wchar_tі wstring, і якщо я хочу підтримати інтернаціоналізацію, які є деякі альтернативи широким символам?

2
Regex: що таке InCombiningDiacriticalMarks?
Наступний код добре відомий для перетворення наголошених символів у звичайний текст: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); Я замінив свій "рукотворний" метод цим, але мені потрібно зрозуміти "регулярний вираз" частини replaceAll 1) Що таке "InCombiningDiacriticalMarks"? 2) Де знаходиться його документація? (і подібні дані?) Дякую.
86 java  regex  unicode 

4
Де знаходиться база даних "найкращого ASCII для цього Unicode" на Python?
У мене є текст, який використовує розділові знаки Unicode, такі як ліва подвійна лапка, права одинарна лапка для апострофа тощо, і мені це потрібно в ASCII. Чи є у Python база даних цих символів з очевидними замінниками ASCII, щоб я міг зробити краще, ніж перетворити їх усіх на "?" ?
85 python  unicode  ascii 

1
WebClient.DownloadString призводить до неправильних символів через проблеми з кодуванням, але браузер у порядку
Наступний код: var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); призводить до змінної, textяка містить, серед іншого, рядок "$ κ $ -простір Міньковського, скалярне поле та проблема інваріантності Лоренца" Однак, коли я відвідую цю URL-адресу у Firefox, я отримую $ κ $ -простір Міньковського, скалярне поле та проблема інваріантності Лоренца що насправді правильно. …

1
Кодування Unicode для рядкових літералів в C ++ 11
Після відповідного запитання я хотів би запитати про нові типи символів і рядкових літералів у C ++ 11. Здається, що зараз у нас є чотири типи символів і п’ять типів рядкових літералів. Типи персонажів: char a = '\x30'; // character, no semantics wchar_t b = L'\xFFEF'; // wide character, no …

5
Довжини MySQL VARCHAR та UTF-8
У MySQL, якщо я створюю нове VARCHAR(32)поле в таблиці UTF-8, це означає, що я можу зберігати 32 байти даних у цьому полі або 32 символи (багатобайтові)?
84 mysql  unicode  utf-8  varchar 

21
Як перетворити рядок із кодуванням Unicode у рядок літер
У мене є рядок із екранованими символами Unicode ,\uXXXX , і я хочу перетворити його на звичайні літери Unicode. Наприклад: "\u0048\u0065\u006C\u006C\u006F World" має стати "Hello World" Я знаю, що коли я друкую перший рядок, це вже відображається Hello world. Моя проблема полягає в тому, що я читаю імена файлів із …
84 java  unicode  encoding 

3
Використання функцій unicode () та encode () у Python
У мене проблема з кодуванням змінної шляху та її вставкою до бази даних SQLite . Я намагався вирішити це за допомогою функції encode ("utf-8"), яка не допомогла. Потім я використав функцію unicode (), яка дає мені тип unicode . print type(path) # <type 'unicode'> path = path.replace("one", "two") # <type …

6
Скільки символів можна зіставити за допомогою Unicode?
Я прошу підрахувати всі можливі допустимі комбінації в Unicode з поясненнями. Я знаю, що символ може бути закодований як 1,2,3 або 4 байти. Я також не розумію, чому в байтах продовження є обмеження, хоча початковий байт цього символу очищає, як довго він повинен бути.
83 unicode  utf-8  utf 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.