Який повний асортимент китайських ієрогліфів у Unicode?


95

U + 4E00..U + 9FFF є частиною комплектації, але не всією


3
Я хотів би просто зв’язати тут статтю wikipedia, оскільки діапазон блоків час від часу оновлювався, тому краще пов’язати щось динамічно мінливе Ratger tgan, даючи статичну відповідь ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067

Відповіді:


104

Можливо, ви знайдете повний перелік у розділі поширених запитань про CJK Unicode (який містить "китайські, японські та корейські" символи)

У документі " Східноазійський сценарій " згадується:

Блоки, що містять ідеографії Хана

Ідеографічні символи хань містяться у п’яти основних блоках стандарту Unicode, як показано в таблиці 12-2

Таблиця 12-2. Блоки, що містять ідеографії Хана

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

Примітка: діапазони блоків можуть еволюціонувати з часом: останнє - в CJK Unified Ideographs .

Дивіться також Вікіпедію:


Можливо, ви також захочете включити U + AC00 - U + D7AF (хангульські склади).
Flimm

12
@Flimm: хангул не є частиною китайського стандарту; Хангул - корейська. Корейська мова робить види застосування Hanja ( «китайський сценарій»), але навряд чи і тільки для деяких традиційних речей (наприклад , останніх назви, пам'ятники, місця ...) , які не можуть бути переписані хангиль. ОП запитував про китайську мову, тому відповідач не міг включати хангул. :-)
omninonsense

1
Здається, список не охоплює пунктуації ("。").
Міхал Волинський

1
@ MichałWoliński CJK Символи та пунктуація діапазон 3000-303F
Маріано

Я довідався, що розширення CJK Unified Ideographs A становить від 3400 до 4dbf, а не від 3400 до 4dff.
Лернер Чжан,

48

Наразі Unicode містить 74605 символів CJK. Символи CJK включають не тільки символи, що використовуються китайцями, але також японську кандзі, корейську ханджу та в'єтнамську чу ном . Деякі символи CJK не є китайськими символами.

1) 20941 символ із блоку CJK Unified Ideographs .

Кодові точки U + 4E00 до U + 9FCC.

  1. U + 4E00 - U + 62FF
  2. U + 6300 - U + 77FF
  3. U + 7800 - U + 8CFF
  4. U + 8D00 - U + 9FCC

2) 6582 символів з блоку CJKUI зовн A .

Кодові точки U + 3400 - U + 4DB5 . Unicode 3.0 (1999).

3) 42711 символів з блоку CJKUI зовн B .

Кодові точки U + 20000 до U + 2A6D6. Юнікод 3.1 (2001).

  1. U + 20000 - U + 215FF
  2. U + 21600 - U + 230FF
  3. U + 23100 - U + 245FF
  4. U + 24600 - U + 260FF
  5. U + 26100 - U + 275FF
  6. U + 27600 - U + 290FF
  7. U + 29100 - U + 2A6DF

3) 4149 символів з блоку CJKUI зовн C .

Кодові точки U + 2A700 - U + 2B734 . Unicode 5.2 (2009).

4) 222 символів з блоку CJKUI зовн D .

Кодові точки U + 2B740 - U + 2B81D . Unicode 6.0 (2010).

5) Блок CJKUI Ext E.

Незабаром

Якщо вищезазначене недостатньо спагетті, погляньте на відомі проблеми . Веселіться =)


1
Привіт, ти можеш навести приклад ідеографа CJK (бажано з базової площини), який не є китайським символом? Я думав, що символи з інших мов (японської, корейської), які також не є китайськими символами, з'являються в іншому блоці (наприклад, блок Хангюл Джамо, у випадку з корейською) ...
Адам Берлі, 02

Спробуйте подивитися на "Gukja", "Kokuji" та "Chữ Nôm". U + 4E44, 乄, є лише японським символом CJK.
Ṃųỻịgǻňạcểơửṩ

21

Точні діапазони для китайських символів (крім розширень) складають [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].

  1. [\u2e80-\u2fd5]

Додаток до радикалів CJK - це блок Unicode, що містить альтернативні, часто позиційні форми радикалів Кансі. Вони використовуються у заголовках в індексах словників та інших колекціях ідеографів CJK, організованих радикальним інсультом.

  1. [\u3190-\u319f]

Kanbun - це блок Unicode, що містить символи анотацій, що використовуються в японських копіях класичних китайських текстів для позначення порядку читання.

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A - це блок Unicode, що містить рідкісні ідеографи хана.

  1. [\u4E00-\u9FCC]

CJK Unified Ideographs - це блок Unicode, що містить найпоширеніші ідеографи CJK, що використовуються в сучасній китайській та японській мовах.

  1. [\uF900-\uFAAD]

Ідеографи сумісності CJK - це блок Unicode, створений для того, щоб містити символи Han, які були закодовані в декількох місцях в інших встановлених кодуваннях символів, на додаток до їх призначень CJK Unified Ideographs, щоб зберегти сумісність в обидва кінці між Unicode і цими кодуваннями.

Детальніше див. Тут , а розширення наведені в інших відповідях.


Чи може той, хто підтримав цю відповідь, сказати мені причину?
Лернер Чжан,

2
Я не голосував проти, але як щодо розширень B, C, D та E?
Сурагч

@Suragch Ці розширення були правильно вказані в інших відповідях, отже, мені не потрібно їх переписувати. Я лише чітко розділив діапазони між ними.
Лернер Чжан,

1. асортимент добавки до радикалів CJK становить 2E80—2EFF. 2. Радікали Kangxi - це не китайські ієрогліфи, це графічна складова китайських символів, вона спеціально використовується для вираження радикалів, напр. ⼻ (U + 2F3B) та 彳 (U + 5F73 ), ⻜ (U + 2EDC) та 飞 (U + 98DE) 3. Якщо ви вважаєте, що канбун - це китайські символи, чому б не ідеографії сумісності CJK? Чому б не включити листи та місяці CJK?
Вояджер

@rambler Дякую за пораду. Думаю, коли ми обробляємо персонажа китайців, нам слід врахувати радикали Кансі та Канбун. Ідеографи сумісності CJK хороші, але вкладені листи CJK і місяці надто рідкісні, і я не думаю, що ми повинні їх розглядати.
Лернер Чжан

10

Версія Unicode 11.0.0

У Unicode китайські, японські та корейські (CJK) сценарії мають спільне тло, спільно відоме як символи CJK.

Ці діапазони часто містять неприсвоєні або зарезервовані кодові точки (наприклад, U + 2E9A , U + 2EF4 - 2EFF),

Китайські ієрогліфи

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • У блоці CJK Unified Ideographs я помічаю, що в багатьох відповідях використовується верхня межа 9FCC, але U + 9FCD (鿍) справді є китайським символом. І всі символи в цьому блоці є китайськими (також використовуються японською чи корейською мовами тощо).
  • Більшість символів у CJK Unified Ideograohs Ext (окрім Ext F, лише 17% у Ext F є китайськими символами), є традиційними китайськими символами, які рідко використовуються в Китаї.
  • 〇 є нульовою формою китайського символу, яка використовується і сьогодні

Тому діапазон є

[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]

Символи CJK, але ніколи не використовуються в китайській мові

Вони звичайні хани використовуються лише для сумісності.

Побачити їх у жодній китайській книзі, статті, працях тощо неможливо.

усі символи тут мають один відповідний гліф-ідентичний китайський символ. Такі як 金 (U + F90A) та 金 (U + 91D1), вони однакові в гліфі.

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

CJK пов'язані символи

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • деякі блоки, такі як Hangul Compatibility Jamo , відмовляються через відсутність відношення до китайської мови.
  • Kangxi Radicals - це не китайські ієрогліфи, це графічна складова китайських символів, вона спеціально використовується для вираження радикалів, наприклад, ⼻ (U + 2F3B) та 彳 (U + 5F73), ⻜ (U + 2EDC) та 飞 (U + 98DE)

Інші поширені розділові знаки з’являються в китайській мові

Це широкий діапазон, деякі розділові знаки, можливо, ніколи не використовувались, деякі розділові знаки, такі як ……”“часто використовуються в китайській мові.

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

Існує також багато символів, пов’язаних з китайською мовою, таких як символи гексаграм Іцзінь чи Канбун , але це все одно не тематично. Я пишу некитайські символи на CJK, щоб краще пояснити, що таке китайські символи. І діапазони вище вже охоплюють майже всі символи, що з’являються в китайській писемності, крім математики та інших спеціальних позначень.

Додаткові

Символи CJK та пунктуація

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

Форми напівширини та повної ширини

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

Посилання

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (китайською мовою, зверніть увагу на праву бічну панель)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 % 84% 8F% E6% 96% 87% E5% AD% 97 (зверніть увагу на нижню таблицю)
  3. http://www.unicode.org

2

Блоки коду Unicode, на які давали інші відповіді, безумовно, охоплюють більшість китайських символів Unicode, але перевірте також деякі з цих інших блоків коду.

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

Побачте мою повнішу дискусію тут . І цей сайт зручний для перегляду Unicode.


1

Підводячи підсумок, це звучить так:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.