Що в цих Unicode, що поєднують символи, і як ми можемо їх відфільтрувати?

Question 1

กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ ก็็็็็็็็็็็็็็็็็็็็ ก็็็็็็็็็็็็็็็็็็็็ กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ ก็็็็็็็็็็็็็็็็็็็็ กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ ก็็็็็็็็็็็็็็็็็็็็ ก็็็็็็็็็็็็็็็็็็็็ กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ ก็็็็็็็็็็็็็็็็็็็็ กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้

Вони нещодавно з’явились у розділах коментарів на Facebook.

Як ми можемо продезінфікувати це?

Question 2

Що з цими символами Unicode?

Це персонаж із низкою поєднання символів . Оскільки об'єднані символи, про які йдеться, хочуть перевищувати базовий символ, вони складаються (буквально). Наприклад, справа

ก้้้้้้้้้้้้้้้้้้้้

... це ก (тайський символ ko kai ) ( U + 0E01 ), за яким слідують 20 копій тайського поєднуючого символу mai tho ( U + 0E49 ).

Як ми можемо продезінфікувати це?

Ви можете попередньо обробити текст і обмежити кількість поєднаних символів, які можна застосувати до одного символу, але зусилля можуть не вартувати винагороди. Вам знадобляться аркуші даних для всіх поточних символів, щоб ви знали, чи вони поєднуються, чи що, і вам потрібно бути впевненим, що дозволили хоча б кілька, оскільки деякі мови написані з кількома діакритичними знаками на одній основі . Тепер, якщо ви хочете обмежити коментарі латинським набором символів, це було б простіше перевірити діапазон, але, звичайно, це лише варіант, якщо ви хочете обмежити коментарі лише кількома мовами. Більше інформації, таблиць кодів тощо на сайті unicode.org .

ДО ВСЬОГО , якщо ви коли-небудь захочете дізнатися, як був складений якийсь персонаж, для іншого питання зовсім недавно я закодував швидко-брудну сторінку "Unicode Show Me" на JSBin. Ви просто копіюєте та вставляєте текст у текстову область, і він показує вам усі кодові точки (~ символи), з яких складається текст, з посиланнями, такими як наведені вище, на сторінку, що описує кожен символ. Він працює лише для кодових точок в діапазоні U + FFFF і менше, оскільки він написаний на JavaScript, і для обробки символів вище U + FFFF в JavaScript вам потрібно зробити більше роботи, ніж я хотів зробити для цього питання (оскільки в JavaScript "персонаж" - це завжди 16 біт, що означає, що для деяких мов символ можна розділити на два окремі "символи" JavaScript, і я цього не враховував), але це зручно для більшості текстів ...

Question 3

Якщо у вас є механізм регулярних виразів з пристойною підтримкою Unicode, дезінфікувати такий тип рядків просто. Наприклад, у Perl ви можете видалити всі позначки, крім першого, з кожного символу, що сприймається користувачем:

#!/usr/bin/perl
use strict;
use utf8;

binmode(STDOUT, ':utf8');

my $string = "กิิ ก้้ ก็็ ก็็ กิิ ก้้ ก็็ กิิ ก้้ กิิ ก้้ ก็็ ก็็ กิิ ก้้ ก็็ กิิ ก้้";
$string =~ s/(\p{Mark})\p{Mark}+/$1/g; # Strip excess combining marks
print("$string\n");

Буде надруковано:

กิ ก้ ก็ ก็ กิ ก้ ก็ กิ ก้ กิ ก้ ก็ ก็ กิ ก้ ก็ กิ ก้

Question 4

"Як ми можемо це продемонструвати", найкраще відповідає вище TJ Crowder

Однак я думаю, що санітарія - це неправильний підхід, і Крісті це правильно з overflow:hiddenелементом, що містить css.

Принаймні, я так це вирішую.

Question 5

Гаразд, це зайняло у мене деякий час, щоб зрозуміти, у мене склалося враження, що поєднання символів для створення залго обмежується цими . Тож я очікував, що після регулярного виразу піймаю виродків.

([\u0300–\u036F\u1AB0–\u1AFF\u1DC0–\u1DFF\u20D0–\u20FF\uFE20–\uFE2F]{2,})

і це не спрацювало ...

Суть у тому, що список у вікі не охоплює повний спектр поєднання символів.

Що дало мені підказку, це "ก้้้้้้้้้้้้้้้้้้้้".charCodeAt(2).toString(16)= "e49", який, не в межах діапазону об'єднання, потрапляє у "приватне використання".

У C # вони потрапляють під, UnicodeCategory.NonSpacingMarkі наступний скрипт видаляє їх:

    [Test]
    public void IsZalgo()
    {
        var zalgo = new[] { UnicodeCategory.NonSpacingMark };

        File.Delete("IsModifyLike.html");
        File.AppendAllText("IsModifyLike.html", "<table>");
        for (var i = 0; i < 65535; i++)
        {
            var c = (char)i;
            if (zalgo.Contains(Char.GetUnicodeCategory(c)))
            {


                File.AppendAllText("IsModifyLike.html", string.Format("<tr><td>{0}</td><td>{1}</td><td>{2}</td><td>A&#{3};&#{3};&#{3}</td></tr>\n",  i.ToString("X"), c, Char.GetUnicodeCategory(c), i));

            }
        }
        File.AppendAllText("IsModifyLike.html", "</table>");
    }

Переглянувши створену таблицю, ви зможете побачити, які з них складаються в стек. Одного діапазону, якого бракує у вікі, є 06D6-06DCінший 0730-0749.

ОНОВЛЕННЯ:

Ось оновлений регулярний вираз, який повинен виловлювати всі залго, включаючи ті, які обійшли в "нормальному" діапазоні.

([\u0300–\u036F\u1AB0–\u1AFF\u1DC0–\u1DFF\u20D0–\u20FF\uFE20–\uFE2F\u0483-\u0486\u05C7\u0610-\u061A\u0656-\u065F\u0670\u06D6-\u06ED\u0711\u0730-\u073F\u0743-\u074A\u0F18-\u0F19\u0F35\u0F37\u0F72-\u0F73\u0F7A-\u0F81\u0F84\u0e00-\u0eff\uFC5E-\uFC62]{2,})

Найскладніше - ідентифікувати їх, як тільки ви це зробите - є безліч рішень, включаючи декілька хороших вище.

Сподіваюся, це заощадить ваш час.