Редагувати: Питання тепер говорить про "мільйони нових символів". Це дозволяє легко відповісти:
Ні . Utf-8 - це кодування Unicode. У Unicode є кодове простір, який дозволяє 1114,112 різних кодових точок , а менше мільйона наразі не призначено. Тому неможливо підтримати мільйони нових символів в Unicode. За визначенням, кодування Unicode не може підтримувати більше символів, ніж те, що визначено Unicode. (Звичайно, ви можете обдурити, кодуючи рівень далі - будь-який тип даних може бути представлений лише двома символами.)
Щоб відповісти на початкове запитання:
Unicode не підтримує мови як такі, він підтримує символи - символи, які використовуються для представлення мови в письмовій формі.
Не всі людські мови мають письмове представлення, тому не всі людські мови можуть підтримуватися Unicode. Крім того, багато тварин спілкуються, але не володіють письмовою мовою. Наприклад, кити мають форму спілкування, яка є досить складною для виклику мови, але не має жодної письмової форми (і не може бути захоплена існуючими фонетичними позначеннями). Тому Unicode не може підтримувати навіть усі мови на землі.
Ще гірше - це щось на зразок мови бджіл. Він не тільки не має письмової форми, але не може змістовно бути представлений у письмовій формі. Мова - це вид танцю, який в основному вказує в напрямку, але покладається на поточне положення сонця. Тому танець має лише інформаційну цінність у конкретному місці та часі, де він виконується. Символічне або текстове зображення повинно містити інформацію (місце розташування, положення сонця), яку мова бджіл наразі не може виразити.
Навіть письмова або символічна форма спілкування може бути неможливою для представлення в Unicode. Наприклад, ілюстрації або безслівні комікси не можуть підтримуватися Unicode, оскільки набір гліфів не є кінцевим. Ви помітите багато образотворчого спілкування в таких міжнародних умовах, як аеропорт, тому немислимо, що гонка космічних подорожніх еволюціонерів розвинеться з використанням живописної мови.
Навіть якщо інопланетна раса мала мову із системою письма з обмеженим набором символів, цю систему, можливо, неможливо підтримати в Unicode. Unicode очікує, що запис буде лінійною послідовністю символів. Нотація музики - це приклад системи запису, яка не може бути повністю представлена в Unicode, оскільки значення кодується як у виборі символів, так і у вертикальному та горизонтальному розміщенні. (Unicode підтримує окремі музичні символи, але не може кодувати партитуру.) Чужа раса, яка спілкувалася за допомогою поліфонічної музики (не рідкість) або каналу спілкування подібної складності, може дуже мати систему письма, схожу на оркестрову партитуру, і Unicode не може це підтримати.
Але давайте заради аргументу припустимо, що всі мови, навіть чужі мови, можуть бути виражені у вигляді лінійної послідовності символів, вибраних з кінцевого набору. Чи Unicode достатньо великий для вторгнення прибульців? Наразі Unicode має менше мільйона непризначених кодових точок. Китайська мова містить сто тисяч символів відповідно до найвичерпнішого китайського словника (не всі вони в даний час підтримуються Unicode як окремі символи). Отже, лише десять мов зі складною мовою китайської використовували б усі Unicode. На землі у нас сотні різних систем письма, але, на щастя, більшість бувають алфавітними, а не ідеографічними, тому містять невелику кількість символів. Якби всі письмові мови використовували такі ідеограми, як китайська, Unicode навіть не був би достатньо великим для землі. Використання алфавітів походить від мови, яка використовує лише обмежену кількість фонем, але це особливо для фізіології людини. Тож навіть одна чужа планета, яка має лише десяток ідеографічних систем письма, може перевищити те, що може підтримувати Unicode. Тепер поміркуйте, чи цей інопланетянин вже вторгся до інших планет перед землею і включив їхні системи письма в набір символів, які потрібно підтримувати.
Розширення або модифікація поточних кодувань або введення нових кодувань це не вирішить, оскільки обмеження полягає в кількості кодових точок, що підтримуються Unicode.
Тож відповідь, швидше за все, ні.