Чи є BOM (марка порядку байтів) контрольним символом?


3

Я знаю, що в комп'ютерах є 4 типи символів:

  1. Регулярні символи (цифри або типові літери мови).
  2. Контрольні символи (символи, які використовуються для здійснення аналізу документально зафіксованого роботом або програмою), наприклад, Line FInish (LF) або Carriage Return (CR).
  3. Мета-символи (будь-який персонаж, що репресує щось інше, ніж сам).

Чи можемо ми сказати, що символи BOM також є керуючим символом, таким як LF або CR?


Ви кажете "є 4 типи символів", а потім перерахуйте лише 3 ...
DavidPostill

Відповіді:


2

Чи можемо ми сказати, що символи BOM також є керуючим символом, таким як LF або CR?

Ні. Це більше схоже на підпис:

З: Що таке BOM?

A: Марка порядку байтів (BOM) складається з символьного коду U + FEFF на початку потоку даних, де він може використовуватися як підпис, що визначає порядок байтів і форму кодування, насамперед, немаркованих файлів прямого тексту. Згідно з деякими протоколами вищого рівня, використання BOM може бути обов'язковим (або забороненим) у потоці даних Unicode, визначеному в цьому протоколі.

Поширені запитання про джерела - UTF-8, UTF-16, UTF-32 та BOM


У своєму запитанні ви заявляєте:

Контрольні символи (символи, які використовуються для здійснення аналізу документально зафіксованого роботом або програмою), наприклад, Line FInish (LF) або Carriage Return (CR).

Це вище невірно.

  1. LFозначає " Подача лінії", а не "Оздоблення лінії".

  2. Символи управління не мають нічого спільного з тим, як аналізується документ:

Контрольний або недрукувальний символ - це кодова точка (число) у наборі символів, яка не представляє записаного символу. Вони використовуються як вбудована сигналізація, щоб викликати інші ефекти, крім додавання символу до тексту.

Символ управління джерелом


1

Під BOM, я припускаю, що ви маєте на увазі кодову точку позначення порядку байтів Unicode.

Ви вигадуєте власні визначення, тому визначте BOM будь-якого типу.

У дизайнерів Unicode Standard є свої визначення. Див . Unicode Standard , версія 9.0.0, розділ 3.4 Символи та кодування . Визначення D10a визначає "Тип точки коду" як "сім основних класів кодових точок у стандарті: Графіка, Формат, Керування, Приватне використання, Сурогат, Нехарактерні, Зарезервовані". Ці типи пояснюються детально в главі 23 Спеціальні області та символи формату . Розділ 23.8 Спеціалісти визначає U + FEFF, "марку порядку байтів", як тип кодової точки "Спеціальний".

Так, у дизайнерів Unicode Standard є список із 7 типів кодових точок, а марка порядку байтів типу "Special". Включіть це у власне визначення, як би ви хотіли.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.