Які абсолютні, мінімальні вимоги до вмісту SE-азіатських графік для вбудованого системного проекту?


14

Я працюю в компанії, яка почала інтегрувати вбудовані комп'ютерні системи в наші продукти, які ми виробляємо. У нас досить широкий асортимент продукції, і вони поширюються по всьому світу. Крім того, ми розробили кілька інтегрованих плат, які можуть виконувати різні цілі, залежно від прошивки, яка прошита в систему. Таким чином, нам не потрібно переробляти наш комп’ютерний апарат для різних наших продуктів - все, що нам потрібно зробити, - це переписати рівень прошивки для задоволення конкретних потреб продукту.

Через ці обмеження обладнання, зміна нашого обладнання вимагає конгресу, але писати нове програмне забезпечення набагато простіше.

Один з наших продуктів має нову вимогу, яку нам раніше не доводилося реалізовувати, а це потреба у введеному користувачем тексті.

Наразі нам вдалося зберігати міжнародний текст у ресурсах, і лише необхідні символи шрифту збираються для розбиття бітових зображень. Це означає, що нам вдалося зберігати високоідеологічні мови, такі як китайський та японський текст, у мінімальній кількості простору, оскільки ми використовуємо лише дуже невеликий відсоток усього набору мов.

Оскільки цей новий продукт вимагатиме, щоб наші користувачі вводили текст, нам доведеться реалізувати широкий набір символів. Як перш за все розробник ПК, я досить добре знайомий з ASCII, Unicode, UTF-8 тощо, однак реалізація повного набору символів будь-якої з цих мов недоцільна, тому що у нас на платі обмежена кількість ОЗУ для зберігання даних про шрифт.

Моє керівництво сподівається, що існує мінімальний набір символів, який можна використовувати для високоідеологічних мов. Я вважаю, що для японців (хірагани?) Є фонетичний алфавіт, чи є подібні фонетичні алфавіти і для китайської, корейської, в'єтнамської та ін. Можливо, чи могли б мовці цих мов спілкуватися з таким вузьким набором символів? Я впевнений, що відповідь на це питання "абсолютно ні", але це питання, яке варто задати.

Керівництво встановило "м'яку" вимогу, згідно з якою ми можемо мати обмежений набір символів близько 8000 символів, що охоплює всі основні мови спільного використання. Якщо це неможливо, нам потрібно шукати якусь альтернативну методику задоволення наших потреб, виходячи з наших обмежених апаратних ресурсів.

Я впевнений, що цю проблему потрібно було вирішити раніше. Хтось має досвід роботи в таких обмеженнях, потребуючи розгалуженої системи кодування шрифтів та символів? Якщо так, то які самородки мудрості ви можете запропонувати?


Ні Корея, ні Японія не є частиною Південно-Східної Азії. Вони належать до E Asia. Звичайно, якщо ви маєте на увазі S, SE та E Asia, будь ласка, напишіть так.
lalala

Відповіді:


25

Це відмінне запитання.

Вирішувати свою відповідь однією мовою;

В’єтнамці

В'єтнамці вже не використовують ідеографічних символів, але його латинський набір досить широкий: подивіться на приклад, щоб побачити, скільки діакритики він використовує:

Tiếng Việt, hay Việt ngữ, là ngôn ngữ của người Việt (người Kinh) và là ngôn ngữ chính thức tại Việt Nam. Đây là tiếng mẹ đẻ của khoảng 85% dân cư Việt Nam, cùng với gần ba triệu người Việt hải ngoại, mà phần lớn là người Mỹ gốc Việt. Tiếng Việt còn là ngôn ngữ thứ hai của các dân tộc thiểu số tại Việt Nam.

Причина полягає в тому, що кожен склад в'єтнамських має один із шести тонових знаків, які впливають на вимову - крім того, що мають один нестандартний приголосний гліф та шість нестандартних голосних.

Unicode складає тонові позначки над голосними; якщо у вас є можливість скласти гліфи, вам потрібно всього лише 13 додаткових гліфи для в'єтнамців, але якщо ні, то вам потрібно 1 додаткових приголосні + 12 голосні * 6 тонів + 6 нових голосні безбарвних = 79 додаткових гліфів , в downcase і великі літери.

Корейська

Корейська - погані новини. Корейська мова написана хоч алфавітом під назвою Хангул , який, хоча технічно є алфавітом всього 68 букв (називається джамо), насправді пишеться з блоків, що складаються зі складу, побудовані з джамо.

Приклад того, як виглядає корейський текст:

한글 또는 조선 글 은 한국어 의 문자 로서, 1443 년 조선 제 4 대 임금 세종 이 訓 (訓 民 正音) 이라는 이름 으로 창제 46 1446 년 에 반포 하였다. 이후 한문 을 고수 하는 사대부 들 에게는 경시 되기도 하였으나, 조선 왕실 과 일부 양반층 서민층 을 중심 으로 이어 지다가 지다가 94 94 1894 94 갑오 개혁 에서 한국 의 공식적인 나라 가 가 되었고 19, 1910 년대 에 이르러 한글 학자 인 한글 이 이 '이' 이름 을 사용 하였다.

Unicode має 11 172 завершених символів блоку - але якщо ви готові кодувати логіку, щоб самостійно скласти остаточні "блоки", ви можете значно заощадити на наборі символів.

В основному всі склади можна розділити на дві категорії - приголосний + голосний і приголосний + голосний + заключний, де кінцевим може бути голосний, приголосний або складений. CV склади побудовані з C ліворуч та V справа; Приголосні CVF складаються з блоку CV вгорі (зліва направо) та остаточного знизу.

Отже, в основному вам потрібно:

  • 19 ініціалів, у двох формах
  • 21 медіа, у двох формах
  • 28 фіналів

загалом 108 символів . (Я не зовсім впевнений, що в корейській мові немає «лігатур», тому іноді побудований блок виглядає інакше, ніж комбінація компонентів, але це найкраще, що ми отримаємо зараз).

Японці

Як ви правильно помітили, у японців є фонетичний алфавіт - але насправді не один, а два! Хірагана і Катакана - це склади, обидва з 48 однакових складів, але використовуються в різних контекстах (катакана використовується для іншомовних слів, хірагана використовується для граматики).

На жаль (для наших цілей) японським майже неможливо повністю писати, використовуючи лише ці два алфавіти - китайські символи або кандзі , як вони відомі в цьому контексті, є важливими для будь-якого японського тексту.

Обов’язковий приклад написання:

仮 名 (か な) と は 、 漢字 を も と し て 日本 で 作 ら れ た 文字 の こ。 現在 一般 に は 平 仮 名 と 片 名 が で 基本 表音文字 表音文字 表音文字 表音文字 表音文字 表音文字 表音文字 表音文字あ ら わ す 音節 文字 に 分類 さ れ る。 漢字 に し て 和 字 (わ じ と も 言 う。 た だ し 和 字 は 和 製 漢字 意味 す る 事 も あ る る

Окрім канджі, вам знадобиться 103 гліфи для картографування двох фонетичних алфавітів + ​​7 звичайних канджі, які не існують китайською мовою.

Пунктуація CKJ

Не експерт у цьому, але і китайці, і японці використовують класичну, східноазіатську пунктуацію. Unicode має 64 символи, присвячені пунктуації та символам CJK.

Китайці

Отже, у нас у бюджеті залишилось 7631 символів. Чи буде достатньо, щоб прикрити китайські символи?

00 為 上古 時代 的 華夏族 人 所 發明 創製 並 作 改進 目前 确切 歷史 可 追溯 至 公元前 1300 00 商朝 的 甲骨文 、 籀文 金文。 再到 秦朝 的 小篆 , 發展 至 漢朝 隸 變 變至 唐代 楷 化為 今日 所 用 的 手寫 字體 標準 —— 正楷。 汉字 是 连续 使用 时间 最长 的 主要 文字 , 上古 时期 各大 文字 体系 中 唯一 传承 至今 的 文字 期間 東亞 諸國 都有 一定 程度 程度 地 自行創製 漢字。

Маючи понад 100 000 символів, повністю неможливо повністю покрити китайський набір символів, активно використовуваний підмножина значно менша. 2000-3000 символів, як кажуть, достатньо для загальної грамотності (тест, схожий на TOEFL мандаринською китайською мовою, для його найвищого рівня потрібні знання 2800 символів, HSK Advanced), для освіченої людини достатньо 4000-5000 символів.

Маючи на увазі, що є спрощені та традиційні символи (перші використовуються в КНР, другі - на Тайвані), які розрізняються для багатьох символів, а 7600 символів, я б сказав, було б достатньо, щоб охопити більшість випадків використання для обидва набори символів.

Сміливо запитайте, чи є у вас якісь питання!


5
Ого. Це, можливо, найкраща відповідь, яку я коли-небудь отримував на будь-які запитання, які я опублікував на SO. Я змінив це питання раніше сьогодні, тому що він залишився невирішеним. Наші вимоги дещо змінилися, але я також знаю природу нашої продукції, і я передбачаю, що це буде потребою в майбутньому у невідомий час. Ви отримуєте +1 та відповідь. Я б хотів, щоб я міг дати вам більше балів, ніж це. Дякую 1 000 000!
RLH

Немає любові до тайця?
lalala
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.