Загальні
Ці символи призначені не для звичайного латинського алфавіту, а для фонетики, кириличного тексту, для використання в якості математичних символів (представляють змінні) або подібних. Єдиний сумісний з Unicode спосіб кодування тексту в основному латинському алфавіті - це використання символів, які переважно використовуються для цієї мети (тобто з блоку базового латинського Unicode).
Як і у багатьох інших стандартах, вам слід подумати про порушення Unicode. Більше того, Unicode містить стільки систем письма, випадків використання та інших матеріалів, які існують лише для зворотної сумісності з іншими стандартами 1, що повністю розуміючи всі його мотивації - це наука сама по собі. Довга історія, якщо ви дійсно не знаєте, чим займаєтесь, то надзвичайно ймовірно, що щось зламається, про що ви навіть не віддалено думали.
Конкретні приклади
Доступність
Зашифрований текст існує не лише для того, щоб відображатися певним шрифтом. Він також може бути інтерпретований, наприклад, читачами екрану. І зчитувачу екрана не потрібно гадати, чи є
𝓽𝓱𝓮
мається на увазі певна стаття або математичний добуток 2 змінних 𝓽, 𝓱 і 𝓮 - для чого створені ці символи. Таким чином, найкращою поведінкою буде те, що він розписує цих символів, наприклад, говорячи буквально про наступне:
жирний скрипт малий t, жирний сценарій малий h, жирний сценарій малий e
Він не повинен просто говорити “the”, тому що тоді він не буде правильно читати математичні тексти, символи яких трапляються у формі вимовляючого слова. 3
Переносність
Якщо ваш текст добре відображений на вашій машині, це не означає, що він буде і на читацькому. Найбільш очевидний приклад - читач не має жодного шрифту, що підтримує ці символи, або текст надається програмним забезпеченням, яке не підтримує резервні шрифти. Справді, це стає все рідше. Майте на увазі, що деякі люди, як дислексики, потребують спеціальних шрифтів, які мають меншу ймовірність підтримувати цих символів.
Але навіть якщо машина читача використовує лише інший шрифт, це може зробити текст значно менш читабельним. Для першого прикладу це відображається з двома різними шрифтами:
Безкоштовний Serif надає текст так, як ви, мабуть, хочете, щоб він був виведений, використовуючи спеціальні символи для імітації тексту, а саме моделювання рукописного тексту безперервним штрихом. Однак ці символи зроблені для використання в якості математичних символів, з'єднувати які немає сенсу. Отже, візуалізація за допомогою STIX , яка спеціально розроблена для математичних цілей, більше відповідає тому, як ці символи призначені для використання.
У другому прикладі , припустимо, ви або читач чомусь курсивують «сᴜт мій вᴀʀ». З хорошим шрифтом ви отримаєте 4 :
Причиною цього є те, що маленькі ковпачки були (частково) змодельовані кириличними літерами, а кирилиця курсивом часом виглядає дуже відмінною від їх вертикальних аналогів . Отже, знову ж таки, це правильна поведінка.
Пошук
В якості першого прикладу розгляньте, що ви хочете, щоб розумний пошук робився з символом 𝒲 (математичний сценарій W ). Припустимо, що пошук має два режими: режим за замовчуванням і точний режим (зазвичай його називають регістровим ). Цей символ повинен бути:
знайдений під час пошуку w або W у режимі за замовчуванням - для тих, хто не хоче заважати вводити чи копіювати спеціальний символ у поле пошуку;
знайдений при пошуку 𝒲 у точному режимі - для тих, хто хоче шукати, де відповідна змінна згадується в математичному документі³;
не знайдено під час пошуку 𝓌, w або W у точному режимі за рахунок порушення пошуку, аналогічного вище.
Однак якщо ви використовуєте цей символ для імітації звичайного тексту, його слід знайти під час пошуку W або 𝒲 у точному режимі, що суперечить вищезазначеному.
В якості другого прикладу розглянемо, що кириличні символи ніколи не можна знаходити при пошуку латинських символів і навпаки, оскільки вони абсолютно різні речі. Однак якщо використовувати символи кирилиці для імітації маленьких латинських літер, вам це потрібно, якщо ви не хочете, щоб пошук був порушений. Це призведе до того, що люди знайдуть багато непотрібних речей, якщо вони шукають рідкісне слово з латинським алфавітом, яке так само відповідає, щоб вони відповідали штучним маленьким ковпачкам якогось популярного кириличного алфавіту (і навпаки).
Точний варіант пошуку не може вирішити цю проблему, оскільки це зарезервовано для інших цілей у цих алфавітах.
Взагалі неможливо побудувати пошук (без шаленої кількості варіантів), який не порушується за допомогою спеціальних символів для імітації стильового латинського тексту.
1 Ви знаєте, що XKCD про неминучий провал уніфікаційних стандартів ? Ну, Unicode досяг успіху.
2 або все, що є порожнім оператором у відповідній умові
3. Я знаю, що в даний час дуже мало математичних текстів підтримують це кодування або щось сумісне з ним, але справа в тому, що вони, як сподіваються, це роблять. Ваш текст, який зловживає кодом Unicode, все ще може бути поруч і прочитаний.
4 Якщо ви не локалізуєте македонську чи сербську, в результаті ви отримаєте різний, але все-таки небажаний результат.