Чи визначено поведінку віднімання двох покажчиків NULL?

Question 1

Чи визначено різницю двох змінних показників, що не є порожніми (для C99 та / або C ++ 98), якщо вони обидва NULLоцінюються?

Наприклад, скажімо, у мене є буферна структура, яка виглядає так:

struct buf {
  char *buf;
  char *pwrite;
  char *pread;
} ex;

Скажімо, ex.bufвказує на масив або якусь помилкову пам’ять. Якщо мій код завжди забезпечує це pwriteта preadвказує на цей масив або на один із нього, то я впевнений, що ex.pwrite - ex.preadце завжди буде визначено. Однак, що якщо pwriteі preadє NULL. Чи можу я просто розраховувати, що віднімання двох визначається як (ptrdiff_t)0або чи потрібно суворо сумісний код для перевірки покажчиків на NULL? Зауважте, що єдиний випадок, який мене цікавить, - це коли обидва вказівники мають значення NULL (що представляє буфер, не ініціалізований регістр). Причина пов’язана з повністю сумісною «доступною» функцією, враховуючи попередні припущення:

size_t buf_avail(const struct s_buf *b)
{     
    return b->pwrite - b->pread;
}

Question 2

У C99 це технічно невизначена поведінка. C99 §6.5.6 говорить:

7) Для цілей цих операторів вказівник на об'єкт, який не є елементом масиву, поводиться так само, як покажчик на перший елемент масиву довжиною один із типом об'єкта як типом його елемента.

[...]

9) Коли віднімаються два вказівники, обидва вказують на елементи одного і того ж об'єкта масиву або одного минулого останнього елемента об'єкта масиву; результат - різниця індексів двох елементів масиву. [...]

І § 6.3.3.3 / 3 говорить:

Цілочисельний константний вираз зі значенням 0, або такий вираз, приведений до типу void *, називається константою нульового покажчика. ⁵⁵⁾ Якщо константа нульового вказівника перетворюється на тип вказівника, отриманий вказівник, який називається нульовим вказівником , гарантовано порівнює нерівне з покажчиком будь-який об'єкт або функцію.

Отож, оскільки нульовий покажчик нерівний для будь-якого об’єкта, він порушує передумови 6.5.6 / 9, тож це невизначена поведінка. Але на практиці я хотів би поспоритись, що майже кожен компілятор поверне результат 0 без жодних побічних ефектів.

У C89 це також невизначена поведінка, хоча формулювання стандарту дещо інше.

З іншого боку, C ++ 03 має визначену поведінку в цьому випадку. Стандарт робить спеціальний виняток для віднімання двох нульових покажчиків. C ++ 03 §5.7 / 7 говорить:

Якщо значення 0 додається або віднімається від значення покажчика, результат порівнюється рівним вихідному значенню покажчика. Якщо два вказівники вказують на один і той же об'єкт або обидва вказують один за одним кінцем одного масиву або обидва є нульовими, а два вказівники віднімаються, результат порівнюється рівним значенню 0, перетвореному на тип ptrdiff_t.

C ++ 11 (як і останній проект C ++ 14, n3690) має ідентичне формулювання до C ++ 03, лише з незначною зміною std::ptrdiff_tзамість ptrdiff_t.

Question 3

Я знайшов це у стандарті C ++ (5.7 [expr.add] / 7):

Якщо два вказівники [...] обидва є нульовими, а два вказівники віднімаються, результат порівнюється рівним значенню 0, перетвореному в тип std :: ptrdiff_t

Як сказали інші, C99 вимагає додавання / віднімання між 2 покажчиками на один і той же об'єкт масиву. NULL не вказує на дійсний об'єкт, тому ви не можете використовувати його для віднімання.

Question 4

Редагувати : Ця відповідь дійсна лише для C, я не бачив тегу C ++, коли відповідав.

Ні, арифметика покажчика дозволена лише для вказівників, які вказують на один і той же об’єкт. Оскільки за визначенням стандартних нульових покажчиків C не вказують на будь-який об'єкт, це невизначена поведінка.

(Хоча, я гадаю, що будь-який розумний компілятор повернеться саме 0до цього, але хто знає.)

Question 5

Стандарт C не встановлює жодних вимог щодо поведінки в цьому випадку, але багато реалізацій вказують поведінку арифметики покажчика у багатьох випадках, що перевищує мінімальні мінімуми, які вимагає Стандарт, включаючи цей.

Для будь-якої відповідної реалізації С та майже всіх (якщо не всіх) реалізацій С-подібних діалектів, для будь-якого вказівника p, який *pабо *(p-1)ідентифікує якийсь об'єкт, діятимуть такі гарантії :

Для будь-якого цілочисельного значення, zяке дорівнює нулю, значення покажчика (p+z)і (p-z)буде еквівалентним у будь-якому випадку p, за винятком того, що вони будуть постійними лише в тому випадку, якщо обидва pі zє постійними.
Для будь- qякого, що еквівалентно p, вирази p-qі q-pдадуть нуль.

Наявність таких гарантій для всіх значень покажчика, включаючи null, може усунути необхідність деяких перевірок нуля в коді користувача. Крім того, на більшості платформ генерація коду, який підтримує такі гарантії для всіх значень покажчика без урахування того, чи є вони нульовими, була б простішою та дешевшою, ніж спеціальне лікування нульових значень. Однак деякі платформи можуть захоплювати спроби виконати арифметику покажчиків за допомогою нульових покажчиків, навіть коли додають або віднімають нуль. На таких платформах кількість згенерованих компілятором нульових перевірок, які потрібно було б додати до операцій вказівника для підтримання гарантії, у багатьох випадках значно перевищує кількість створених користувачем нульових перевірок, які в результаті можуть бути опущені.

Якби існувало таке впровадження, де витрати на підтримку гарантій були б великими, але небагато, якщо будь-яка програма отримала б від них якусь вигоду, мало б сенс дозволити їй захоплювати обчислення "нуль + нуль" і вимагати, щоб код користувача для така реалізація включає ручну перевірку нуля, яку гарантії могли б зробити непотрібною. Очікувалось, що така надбавка не вплине на інші 99,44% реалізацій, де вартість підтримання гарантій перевищує вартість. Такі реалізації повинні підтримувати такі гарантії, але їх авторам не потрібно, щоб автори Стандарту повідомляли їм це.

Автори C ++ вирішили, що відповідні реалізації повинні підтримувати вищезазначені гарантії будь-якою ціною, навіть на платформах, де вони можуть істотно погіршити ефективність арифметики покажчика. Вони вирішили, що вартість гарантій навіть на платформах, на яких їх буде дорого підтримувати, перевищує вартість. На таке ставлення могло вплинути бажання розглядати С ++ як мову вищого рівня, ніж С. Програміст змінного струму міг би знати, коли певна цільова платформа незвично обробляє такі випадки, як (нуль + нуль), але програмісти С ++ не очікували, що вони турбуватимуться про такі речі. Гарантування послідовної поведінкової моделі, таким чином, було визнано вартим витрат.

Звичайно, сьогодні питання про те, що «визначено», рідко мають щось спільне з тим, яку поведінку може підтримувати платформа. Натомість зараз модно для компіляторів - в ім'я "оптимізації" - вимагати, щоб програмісти вручну писали код для обробки кутових випадків, з якими платформи раніше обробляли правильно. Наприклад, якщо код, який повинен виводити nсимволи, починаючи з адреси p, записується як:

void out_characters(unsigned char *p, int n)
{
  unsigned char *end = p+n;
  while(p < end)
    out_byte(*p++);
}

старіші компілятори генерували б код, який надійно нічого не видавав би, без побічних ефектів, якщо p == NULL та n == 0, без потреби в спеціальному випадку n == 0. Однак на новіших компіляторах потрібно було б додати додатковий код:

void out_characters(unsigned char *p, int n)
{
  if (n)
  {
    unsigned char *end = p+n;
    while(p < end)
      out_byte(*p++);
  }
}

від якого оптимізатор може позбутися, а може і не вдасться. Якщо не включити зайвий код, деякі компілятори можуть зрозуміти, що оскільки p "не може бути нульовим", будь-які подальші перевірки нульових покажчиків можуть бути опущені, що призведе до того, що код зламається в місці, не пов'язаному з фактичною "проблемою".