Порядок словника Північної Кореї

Мета

Подавши рядок складів Хангул, сортуйте символи в порядку словника Північної Кореї.

Вступ до складів Хангул

Хангул (한글) - корейська система письма, винайдена Седжонгом Великим. Склади Hangul виділяються в точці Unicode U + AC00 - U + D7A3. Склад Hangul складається з початкового приголосного, голосного та необов'язкового кінцевого приголосного.

Початкові приголосні:

ㄱ ㄲ ㄴ ㄷ ㄸ ㄹ ㅁ ㅂ ㅃ ㅅ ㅆ ㅇ ㅈ ㅉ ㅊ ㅋ ㅌ ㅍ ㅎ

Голосні звуки:

ㅏ ㅐ ㅑ ㅒ ㅓ ㅔ ㅕ ㅖ ㅗ ㅘ ㅙ ㅚ ㅛ ㅜ ㅝ ㅞ ㅟ ㅠ ㅡ ㅢ ㅣ

Кінцевими приголосними є:

(none) ㄱ ㄲ ㄳ ㄴ ㄵ ㄶ ㄷ ㄹ ㄺ ㄻ ㄼ ㄽ ㄾ ㄿ ㅀ ㅁ ㅂ ㅄ ㅅ ㅆ ㅇ ㅈ ㅊ ㅋ ㅌ ㅍ ㅎ

Наприклад, 뷁має початковий приголосний ㅂ, голосний ㅞта кінцевий приголосний ㄺ.

Порядок словника Південної Кореї

Вищезгадані приголосні та голосні впорядковуються в порядку словника Південної Кореї. Склади спочатку сортуються за початковими приголосними, по-друге за голосними, і, нарешті, за (необов'язково) кінцевими приголосними.

Блок Unicode для складів Hangul містить усі комбінації приголосних / голосних і повністю відсортований у порядку словника Південної Кореї.

Блок Unicode можна побачити тут, і перші 256 символів показані для ілюстративних цілей:

가각 갂 갃간 갅갆 갇갈 갉갊 갋갌 갍갎 갏감 갑값 갓갔 강갖 갗갘 갛개 객갞 갟갠 갡갢 갣갤 갥갦 갧갨 갩갪 갭갮 갯갰 갱갲 갳갴 갵갶 갷갸 갹갺 갽갾 갿걀 갿걀 걁걂 걃걄 걇걈 걉걊 걋걌 걍걎 걏걐 걑걒 걓걔 걕걖 걗걘 걙걚 걙걚 걙걚 걣걤 걥걦 걧걨 걩걪 걫걬 걭걮 걯거 걱걲 걳건 걵걶 걷걸 걹걺 걻걼 걿검 겁겂 것 겄겅 겆겇 겈겉 겊겋 게겍 겐겑 겐겑 겒겓 겖겗 겘겙 겚겛 겜겝 겞겟 겠겡 겢겣 겤겥 겦겧 겨격 겪겫 겮겯 결겱 겲겳 겴겵 겶겷 겸겹 겺겻 겼경 곀곁 겾겿 계곅 곆곇 곈곉 곊곋 곌곍 곎곏 곐곑 곒곓 곔곕 곖곗 곘곙 곚곛 곜곝 곞곟 곢곣 곤곥 곦곧 골곩 곪곫 곬곭 곮곯 곰곱 곲곳 곶곷 곸곹 곺곻 과 곽 곾곿

Наприклад, таке речення (без пробілів і розділових знаків):

키스의고유조건은입술끼리만나야하고특별한기술은필요치않다

сортується за:

건고고기끼나다리만별술술스않야요유은은의입조치키특필하한

У C ++, якщо рядок є std::wstring, сортування вище є простим std::sort.

Порядок словника Північної Кореї

Північнокорейський словник має різний приголосний / голосний порядок.

Початкові приголосні сортуються так:

ㄱ ㄴ ㄷ ㄹ ㅁ ㅂ ㅅ ㅈ ㅊ ㅋ ㅌ ㅍ ㅎ ㄲ ㄸ ㅃ ㅆ ㅉ ㅇ

Голосні звуки сортуються так:

ㅏ ㅑ ㅓ ㅕ ㅗ ㅛ ㅜ ㅠ ㅡ ㅣ ㅐ ㅒ ㅔ ㅖ ㅚ ㅟ ㅢ ㅘ ㅝ ㅙ ㅞ

Кінцеві приголосні сортуються так:

(none) ㄱ ㄳ ㄴ ㄵ ㄶ ㄷ ㄹ ㄺ ㄻ ㄼ ㄽ ㄾ ㄿ ㅀ ㅁ ㅂ ㅄ ㅅ ㅇ ㅈ ㅊ ㅋ ㅌ ㅍ ㅎ ㄲ ㅆ

Як і на південь, склади сортуються спочатку за приголосними, по-друге за голосними, і, нарешті, за (необов'язково) кінцевими приголосними.

Якщо подано речення вище, вихід повинен бути:

건고고기나다리만별술술스조치키특필하한끼않야요유은은입의

Правила

Якщо вхід містить символ, який не знаходиться в межах U + AC00 - U + D7A3, він потрапляє в ситуацію, що не хвилює .
Оскільки це код-гольф, виграє найкоротший код у байтах.

— Данью Н.Дос
джерело

Частково пов'язані .

— Арнольд

Якщо це має сенс, я пропоную додати тестовий випадок, коли символи сортуються по-різному через виключно кінцевий приголосний (використовуючи ㄲ або ㅆ з тим самим початковим приголосним і тим самим голосним).

— Арнольд

(Взагалі кажучи, додавання ще декількох тестових випадків було б чудово.)

— Арнольд

Запропоновані тестові випадки: 가까나다따라마바빠사싸아자짜차카타파(усі початкові приголосні), 가개갸걔거게겨계고과괘괴교구궈궤귀규그긔기(усі голосні), 가각갂갃간갅갆갇갈갉갊갋갌갍갎갏감갑값갓갔강갖갗갘같갚갛(усі зворотні приголосні).

— Grimmy

Ну, так багато для цього ... 86 різних корейських SQL-зібрань; всі вони сортуються у "південнокорейському" порядку. Приємне (жорстке) запитання.

— BradC

Відповіді:

05AB1E , 47 45 38 байт

Σ•¡®šúIтÝ„Š’#„λ†x!·“•4B33¡€.ā`ââyÇ68+è

Спробуйте в Інтернеті!

Σ                        # sort characters of the input by:
 •...•                   #  compressed integer 13096252834522000035292405913882127943177557
      4B                 #  converted to base 4: 211211121231211111033010101010231002310010331121111111111111111121111111
        33¡              #  split on 33: [2112111212312111110, 010101010231002310010, 1121111111111111111121111111]
           €.ā           #  enumerate each (pairs each digit with its index)
              `ââ        #  reduce by cartesian product (yields a list with 11172 elements)
                 yÇ      #  codepoint of the current character
                   68+   #  + 68
                      è  #  index into the large list (with wraparound)

— Гріммі
джерело

JavaScript (ES6), 150 148 137 байт

Збережено 10 байт завдяки @Grimy

I / O: масиви символів.

a=>a.map(c=>"ANBCODEFPGQSHRIJKLM"[(n=c.charCodeAt()-44032)/588|0]+"AKBLCMDNERTOFGSUPHIQJ"[n/28%21|0]+~(n%28%18==2)+c).sort().map(s=>s[4])

Спробуйте в Інтернеті!

Розбиття складів Хангул

Дано характер Хангула кодової точки 0xAC00 + $n$ , початковий приголосний $I$ , голосний $V$ і заключний приголосний $F$ даються:

I = ⌊ \frac{n}{588} ⌋, V = ⌊ \frac{n}{28} ⌋ mod 21, F = n mod 28

$I=\left\lfloor\frac{n}{588}\right\rfloor,\ V=\left\lfloor\frac{n}{28}\right\rfloor\bmod 21,\ F=n\bmod 28$

Прокоментував

a => a.map(c =>                  // for each character c in the input:
  "ANBCODEFPGQSHRIJKLM"[         //   start with a letter from 'A' to 'S'
    (n = c.charCodeAt() - 44032) //   for the initial consonant
    / 588 | 0                    //
  ] +                            //
  "AKBLCMDNERTOFGSUPHIQJ"[       //   append a letter from 'A' to 'U'
    n / 28 % 21 | 0              //   for the vowel
  ] +                            //
  ~(                             //   append "-2" for ㄲ or ㅆ (the only North
    n % 28 % 18 == 2             //   Korean final consonants that are sorted
  ) +                            //   differently) or "-1" otherwise
  c                              //   append the original character
)                                // end of map()
.sort()                          // sort in lexicographical order
.map(s => s[4])                  // isolate the original characters

— Арнольд
джерело

Вугілля деревне , 80 байт

Ｆ”&→∧⁶⍘⎚%γD¦ρJG”Ｆ”E⎇↓Ｎη⊙��⭆Ｗs@}4”Ｆ”E↖hＹ9 t⟧⊙γIO↶5ε∧¬⁶⦃”Φθ⁼℅μΣ⟦⁴⁴⁰³²×⌕βι⁵⁸⁸⍘⁺κλ²⁸

Спробуйте в Інтернеті! Посилання на багатослівну версію коду. Пояснення: Працює, генеруючи всі склади 11172 Hangul у порядку словника Північної Кореї та перевіряючи, які з них є у вхідних даних (тому всі інші символи видаляються; також дещо повільно: займає 18 секунд на TIO). Пояснення:

Ｆ”&→∧⁶⍘⎚%γD¦ρJG”

Петля над стислим рядком acdfghjmopqrsbeiknl. Це відображає список південнокорейських початкових приголосних (пронумерованих за допомогою західного малого алфавіту) у північнокорейському словниковому порядку.

Ｆ”E⎇↓Ｎη⊙��⭆Ｗs@}4”

Петля над стислим рядком 02468cdhik1357bgj9eaf. Це відображає список південнокорейських голосних (пронумеровано за допомогою ASCII цифр і рядкових алфавітів) у порядку словника північнокорейської мови.

Ｆ”E↖hＹ9 t⟧⊙γIO↶5ε∧¬⁶⦃”

Петля над стислим рядком 013456789abcdefghijlmnopqr2k. Це відображає перелік кінцевих приголосних південнокорейських (використовуючи ту саму нумерацію, що й голосні) у порядку словника північнокорейської мови.

Φθ⁼℅μΣ⟦⁴⁴⁰³²×⌕βι⁵⁸⁸⍘⁺κλ²⁸

З’єднайте голосний та кінцевий приголосний і декодуйте як базове 28 число, потім додайте на 588 разів початковий голосний і 0xAC00. Роздрукуйте всі символи з введення, які мають їх як порядковий.

— Ніл
джерело

Чи є символи заміни дійсним синтаксисом?

— Dannyu NDos

@DannyuNDos Він представляє значення байту \xFFна кодовій сторінці Charcoal.

— Ніл