Оголошення змінних дороге?

Question 1

Під час кодування на мові C я зіткнувся з наведеною нижче ситуацією.

int function ()
{
  if (!somecondition) return false;

  internalStructure  *str1;
  internalStructure *str2;
  char *dataPointer;
  float xyz;

  /* do something here with the above local variables */    
}

Враховуючи, що ifоператор у наведеному вище коді може повернутися з функції, я можу оголосити змінні в двох місцях.

Перед ifтвердженням.
Після ifзаяви.

Як програміст, я хотів би зберегти декларацію змінної після ifStatement.

Місце декларації щось коштує? Або є якась інша причина віддавати перевагу одному шляху перед іншим?

Question 2

У C99 та пізніших версіях (або із загальним відповідним розширенням до C89) ви можете змішувати оператори та декларації.

Так само, як і в попередніх версіях (лише тим більше, що компілятори стають розумнішими та агресивнішими), компілятор вирішує, як розподілити регістри та стек, або виконати будь-яку кількість інших оптимізацій, що відповідають правилу як-якщо-якщо.
Це означає, що з точки зору продуктивності жодної різниці не очікується.

У будь-якому випадку, це не була причиною дозволу такого:

Це було для обмеження сфери застосування, а отже, і для зменшення контексту, про який людина повинна пам’ятати, інтерпретуючи та перевіряючи ваш код.

Question 3

Робіть все, що має сенс, але поточний стиль кодування рекомендує розміщувати оголошення змінних якомога ближче до їх використання

Насправді оголошення змінних безкоштовні практично на кожному компіляторі після першого. Це пояснюється тим, що практично всі процесори управляють своїм стеком за допомогою вказівника стека (і, можливо, вказівника на кадр). Наприклад, розглянемо дві функції:

int foo() {
    int x;
    return 5; // aren't we a silly little function now
}

int bar() {
    int x;
    int y;
    return 5; // still wasting our time...
}

Якби я скомпілював їх на сучасному компіляторі (і сказав би, щоб він не був розумним та оптимізував мої невикористані локальні змінні), я б побачив це (приклад збірки x64 .. інші подібні):

foo:
push ebp
mov  ebp, esp
sub  esp, 8    ; 1. this is the first line which is different between the two
mov  eax, 5    ; this is how we return the value
add  esp, 8    ; 2. this is the second line which is different between the two
ret

bar:
push ebp
mov  ebp, esp
sub  esp, 16    ; 1. this is the first line which is different between the two
mov  eax, 5     ; this is how we return the value
add  esp, 16    ; 2. this is the second line which is different between the two
ret

Примітка: обидві функції мають однакову кількість кодів операцій!

Це пояснюється тим, що практично всі компілятори виділяють весь необхідний простір заздалегідь (за винятком вигадливих речей, таких як allocaякі обробляються окремо). Насправді на x64 обов’язково робити це таким ефективним способом.

(Редагувати: Як зазначав Форсс, компілятор може оптимізувати деякі локальні змінні в регістри. Більш технічно, я повинен аргументувати, що перший змінний, який "переливається" в стек, коштує 2 операційні коди, а решта безкоштовні)

З тих самих причин компілятори збиратимуть усі декларації локальних змінних та виділятимуть для них простір. C89 вимагає, щоб усі оголошення були попередніми, оскільки він був розроблений як однопрохідний компілятор. Щоб компілятор C89 знав, скільки місця потрібно виділити, йому потрібно було знати всі змінні перед тим, як видавати решту коду. У сучасних мовах, таких як C99 та C ++, компілятори, як очікується, будуть набагато розумнішими, ніж у 1972 році, тому це обмеження послаблюється для зручності розробників.

Сучасна практика кодування пропонує пропонувати змінні близько до їх використання

Це не має нічого спільного з компіляторами (яким, очевидно, так чи інакше було байдуже). Було виявлено, що більшість програмістів-людей краще читають код, якщо змінні розміщуються близько до місця їх використання. Це лише керівництво стилем, тому сміливо не погоджуйтеся з ним, але серед розробників існує надзвичайний консенсус, що це „правильний шлях”.

Тепер для кількох кутових випадків:

Якщо ви використовуєте C ++ з конструкторами, компілятор виділить простір спереду (оскільки це швидше зробити і не зашкодить). Однак змінна не буде побудована в цьому просторі, поки не буде правильно розміщено в потоці коду. У деяких випадках це означає, що наближення змінних до їх використання може бути навіть швидшим, ніж розміщення їх спереду ... контроль потоку може направити нас навколо оголошення змінної, і в цьому випадку конструктор навіть не потрібно викликати.
allocaобробляється на шарі над цим. Для тих, хто цікавиться, allocaреалізації, як правило, мають ефект переміщення покажчика стека вниз на якусь довільну величину. Функції, які використовуються alloca, потрібні для того, щоб так чи інакше відстежувати цей простір, а також переконайтеся, що вказівник стека переналаштовано вгору перед виходом.
Може трапитися так, що зазвичай вам потрібно 16 байт простору стека, але за однієї умови вам потрібно виділити локальний масив 50 кБ. Незалежно від того, куди ви вкладаєте свої змінні в код, практично всі компілятори виділяють 50 кБ + 16 Б місця в стеку кожного разу, коли функцію викликають. Це рідко має значення, але в нав'язливо рекурсивному коді це може переповнити стек. Вам або потрібно перенести код, що працює з масивом 50 кБ, у власну функцію, або використовувати alloca.
Деякі платформи (наприклад: Windows) потребують спеціального виклику функції в пролозі, якщо ви виділяєте більше місця на стосі. Це не повинно дуже сильно змінити аналіз (у реалізації це дуже швидка функція листа, яка просто тисне 1 слово на сторінку).

Question 4

У C я вважаю, що всі оголошення змінних застосовуються так, ніби вони перебувають у верхній частині оголошення функції; якщо ви оголосите їх у блоці, я думаю, що це просто обсяг (не думаю, що це те саме в C ++). Компілятор виконує всі оптимізації змінних, а деякі можуть навіть ефективно зникати в машинному коді при більш високих оптимізаціях. Потім компілятор вирішить, скільки місця потрібно змінним, а потім, під час виконання, створить простір, відомий як стек, де живуть змінні.

Коли викликається функція, усі змінні, які використовуються вашою функцією, поміщаються в стек разом із інформацією про функцію, яка викликається (тобто адреса повернення, параметри тощо). Не має значення, де була оголошена змінна, а лише те, що вона оголошена - і вона буде виділена в стек, незалежно.

Оголошення змінних як таке не є "дорогим"; якщо досить просто не використовуватись як змінну, компілятор, ймовірно, видалить її як змінну.

Заціни:

Da стек

Вікіпедія на стеках дзвінків , Деякі інші місця на стеку

Звичайно, все це залежить від реалізації та системи.

Question 5

Так, це може коштувати ясності. Якщо є випадок, коли функція не повинна взагалі нічого робити за якихось умов (як, наприклад, при пошуку глобальної помилки у вашому випадку), тоді розміщення чека вгорі, де ви його показуєте вище, зрозуміло простіше зрозуміти - щось важливе під час налагодження та / або документування.

Question 6

Врешті-решт це залежить від компілятора, але зазвичай усі місцеві жителі виділяються на початку функції.

Однак вартість розподілу локальних змінних дуже мала, оскільки вони поміщаються в стек (або вносяться в реєстр після оптимізації).

Question 7

Найкраща практика - адаптувати лінивий підхід, тобто заявляти про них лише тоді, коли вони вам справді потрібні;) (а не раніше). Це призводить до наступних переваг:

Код є більш читабельним, якщо ці змінні оголошені якомога ближче до місця використання.

Question 8

Зберігайте декларацію якомога ближче до місця, де вона використовується. В ідеалі всередині вкладених блоків. Тож у цьому випадку не було б сенсу оголошувати змінні над ifтвердженням.

Question 9

Якщо у вас є це

int function ()
{
   {
       sometype foo;
       bool somecondition;
       /* do something with foo and compute somecondition */
       if (!somecondition) return false;
   }
   internalStructure  *str1;
   internalStructure *str2;
   char *dataPointer;
   float xyz;

   /* do something here with the above local variables */    
}

тоді простір стека, зарезервований fooі someconditionможе бути очевидно повторно використаний для str1тощо, тому, оголосивши після if, ви можете заощадити простір стека. Залежно від можливостей оптимізації компілятора, економія місця у стеку може також мати місце, якщо ви згладжуєте функцію, видаляючи внутрішню пару фігурних дужок або якщо ви оголошуєте str1тощо перед if; однак для цього потрібно, щоб компілятор / оптимізатор зауважив, що сфери дії "насправді" не збігаються. Розміщуючи декларації після, ifви полегшуєте цю поведінку навіть без оптимізації - не кажучи вже про покращену читабельність коду.

Question 10

Кожного разу, коли ви виділяєте локальні змінні в області дії C (наприклад, функції), вони не мають коду ініціалізації за замовчуванням (наприклад, конструктори C ++). І оскільки вони не розподіляються динамічно (це просто неініціалізовані вказівники), ніяких додаткових (і потенційно дорогих) функцій не потрібно викликати (наприклад,malloc для їх підготовки / розподілу не ).

Завдяки тому, як працює стек , виділення змінної стека просто означає зменшення покажчика стека (тобто збільшення розміру стека, оскільки на більшості архітектур він зростає вниз), щоб звільнити місце для нього. З точки зору центрального процесора, це означає виконання простої інструкції SUB:SUB rsp, 4 (у випадку, якщо ваша змінна має 4 байти - наприклад, звичайне 32-бітове ціле число).

Більше того, коли ви оголошуєте кілька змінних, ваш компілятор досить розумний, щоб насправді згрупувати їх в одну велику SUB rsp, XXінструкцію, де XXє загальний розмір локальних змінних області. Теоретично. На практиці трапляється щось трохи інше.

У таких ситуаціях я вважаю, що GCC Explorer є безцінним інструментом, коли справа доходить до виявлення (з надзвичайною легкістю) того, що відбувається "під капотом" компілятора.

Тож давайте подивимось, що відбувається, коли ви насправді пишете таку функцію: посилання GCC Explorer .

Код С

int function(int a, int b) {
  int x, y, z, t;

  if(a == 2) { return 15; }

  x = 1;
  y = 2;
  z = 3;
  t = 4;

  return x + y + z + t + a + b;
}

У результаті складання

function(int, int):
    push    rbp
    mov rbp, rsp
    mov DWORD PTR [rbp-20], edi
    mov DWORD PTR [rbp-24], esi
    cmp DWORD PTR [rbp-20], 2
    jne .L2
    mov eax, 15
    jmp .L3
.L2:
    -- snip --
.L3:
    pop rbp
    ret

Як виявляється, GCC ще розумніший за це. Він навіть не виконує інструкцію SUB для розподілу локальних змінних. Він просто (внутрішньо) припускає, що простір "зайнятий", але не додає жодних інструкцій щодо оновлення вказівника стека (наприклад SUB rsp, XX). Це означає, що покажчик стека не оновлюється, але, оскільки в цьому випадку після використання простору стека більше PUSHне виконуються інструкції (і відсутні rspвідносні пошуки), проблем немає.

Ось приклад, коли не оголошуються додаткові змінні: http://goo.gl/3TV4hE

Код С

int function(int a, int b) {
  if(a == 2) { return 15; }
  return a + b;
}

У результаті складання

function(int, int):
    push    rbp
    mov rbp, rsp
    mov DWORD PTR [rbp-4], edi
    mov DWORD PTR [rbp-8], esi
    cmp DWORD PTR [rbp-4], 2
    jne .L2
    mov eax, 15
    jmp .L3
.L2:
    mov edx, DWORD PTR [rbp-4]
    mov eax, DWORD PTR [rbp-8]
    add eax, edx
.L3:
    pop rbp
    ret

Якщо ви подивитесь на код перед передчасним поверненням ( jmp .L3який переходить до коду очищення та повернення), ніяких додаткових інструкцій для "підготовки" змінних стека не буде використано. Єдина відмінність полягає в тому, що параметри функції a і b, які зберігаються в регістрах ediand esi, завантажуються в стек за вищою адресою, ніж у першому прикладі ( [rbp-4]і[rbp - 8] ). Це пов’язано з тим, що додатковий простір не виділено для локальних змінних, як у першому прикладі. Отже, як бачите, єдиною "накладними витратами" для додавання цих локальних змінних є зміна терміна віднімання (тобто навіть не додавання додаткової операції віднімання).

Отже, у вашому випадку фактично відсутні витрати на просто оголошення змінних стека.

Question 11

Я вважаю за краще зберігати умову "передчасного виходу" у верхній частині функції, крім того, щоб документувати, чому ми це робимо. Якщо ми ставимо його після купи оголошень змінних, хтось, хто не знайомий з кодом, може легко його пропустити, якщо не знає, що йому потрібно його шукати.

Документування лише умови "раннього виходу" не завжди достатньо, краще також пояснити це в коді. Розміщення умови попереднього виходу у верхній частині також полегшує синхронізацію документа з кодом, наприклад, якщо пізніше ми вирішимо видалити умову попереднього виходу або додати більше таких умов.

Question 12

Якщо це насправді мало значення, єдиним способом уникнути розподілу змінних, швидше за все, буде:

int function_unchecked();

int function ()
{
  if (!someGlobalValue) return false;
  return function_unchecked();
}

int function_unchecked() {
  internalStructure  *str1;
  internalStructure *str2;
  char *dataPointer;
  float xyz;

  /* do something here with the above local variables */    
}

Але на практиці, я думаю, ви не знайдете жодної переваги в роботі. Якщо що, незначні накладні витрати.

Звичайно, якщо ви кодували C ++ і деякі з цих локальних змінних мали нетривіальні конструктори, вам, ймовірно, потрібно було б розмістити їх після перевірки. Але навіть тоді я не думаю, що це допомогло б розділити функцію.

Question 13

Якщо ви оголошуєте змінні після оператора if і негайно повертаєтеся з функції, компілятор не виділяє пам'ять у стек.