Виходячи з отриманих коментарів, я детально розглядав це. Схоже, на даний момент найкращою практикою є відмовитися від використання HTML-сутностей та використовувати фактичний символ UTF-8 . Перелічені причини такі:
- Кодування UTF-8 легше читати та редагувати тим, хто розуміє, що означає символ і знає, як його набрати.
- Кодування UTF-8 настільки ж незрозумілі, як кодування HTML-сутності для тих, хто їх не розуміє, але вони мають перевагу в тому, що вони відображаються як спеціальні символи, а не важко зрозуміти десятковий або шістнадцятковий кодування.
Поки для кодування вашої сторінки правильно встановлено UTF-8, слід використовувати фактичний символ замість сутності HTML. Я прочитав кілька документів на цю тему, але найбільш корисними були:
З статті UTF-8: Секрет кодування символів :
Wikipedia - чудовий тематичний приклад для програми, яка спочатку використовувала ISO-8859-1, але перейшла на UTF-8, коли вона стала занадто громіздкою для підтримки іноземних мов. Тепер боти фактично переглядатимуть статті та перетворять сутності персонажів у відповідні їм реальні символи задля зручності та зручності пошуку .
Ця стаття також дає хороший приклад, що стосується китайського кодування. Ось скорочений приклад заради ліні:
UTF-8:
這兩個字是甚麼意思
HTML-об'єкти :
這兩個字是甚麼意思
Кодування UTF-8 та HTML сутності для мене безглузді, але принаймні кодування UTF-8 можна розпізнати як іноземну мову , і воно візуалізується належним чином у вікні редагування. У статті йдеться про наступну версію, кодовану HTML-сутністю:
Надзвичайно незручно для тих із нас, хто насправді знає, що таке сутність характеру, абсолютно незрозумілий для бідних користувачів, які цього не роблять! Навіть трохи зручніші користувачі, "зрозумілі" об'єкти характеру, такі як & theta; залишить користувачів, які не зацікавлені у вивченні HTML, чухаючи голову. З іншого боку, якщо вони побачать θ у вікні редагування, вони дізнаються, що це особливий символ, і ставляться до нього відповідно, навіть якщо вони не знають, як написати цей символ самостійно.
Як зазначали інші, ви все ще повинні використовувати сутності HTML для зарезервованих символів XML (амперсанд, менший, більший, ніж).