"Змінна манекена" проти "змінної індикатора" для номінальних / категоричних даних


15

"Змінна манекен" та "змінна індикатора" - це мітки, що часто використовуються для опису належності до категорії з кодуванням 0/1; зазвичай 0: Не є членом категорії, 1: Член категорії.

26.11.2014 швидкий пошук на scilar.google.com (із додаються цитатами) виявляє, що "фіктивна змінна" використовується приблизно в 318000 статтях, а "змінна показник" використовується приблизно в 112 000 статей. Термін "фіктивна змінна" також має значення в нестатистичній математиці " пов'язаної змінної ", що, ймовірно, сприяє більшому використанню "манекенної змінної" в індексованих статтях.

Мої актуальні питання:

  1. Чи завжди ці терміни є синонімами (в межах статистики)?
  2. Є небудь з цих термінів ніколи НЕ річ приємна стосовно до інших видів категоріальних кодування (наприклад , ефект кодування , Helmert кодування і т.д. )?
  3. Які статистичні чи дисциплінарні причини є для того, щоб віддати перевагу одному терміну над іншим?

4
Я схильний використовувати "змінну індикатора" для двійкових умов, наприклад, секс може бути кодований як maleзі значеннями 1або 0. Якщо є категоріальна змінна з більш ніж двома категоріями, яка потім розширюється на змінні індикатора для членства в кожному рівні, я б використовував "фіктивні змінні", щоб описати цей набір змінних індикаторів.
Грегор - відновити Моніку

2
Я думаю, ви маєте на увазі, що секс може бути закодований як 1 або 0, стать - набагато складніша конструкція. (з цього питання секс може бути і складнішим);)
Олексій

2
точка добре взята, відредагована в sex.
Грегор - відновити Моніку

2
Я схильний називати таку змінну індикатора male, де 1 означає істинну (в даному випадку чоловічу) і 0 - помилкову (в даному випадку жіночу). Якщо я використовую ім'я змінної, sexмені доведеться шукати, як я кодував цю змінну кожного разу, коли я повертаюся до цього набору даних.
Маартен Буїс

4
Я чув, як різні історії про "манекенську змінну" дико і, на жаль, неправильно трактуються нетехнічною аудиторією як припускаючи зневагу або зневагу. Вони були бентежні та досить переконливі, щоб відвернути мене від цього терміну. "показник" для мене зрозумілий і прямолінійний.
Нік Кокс

Відповіді:


12

Я б сказав, що "фіктивна змінна" - це більш загальний спосіб позначення (однієї з) числових змінних (ів), що представляють (разом представляють) категоричний предиктор; тому цей термін застосовується також до тих, що використовуються в кодуванні Helmert & ефект . Це головним чином завдяки загальному використанню "манекена", щоб означати "очікування". "Змінна індикатор" Я відношусь до функцій індикатора - тому вони можуть бути лише один або нуль, що вказує на наявність чи відсутність певного властивості отже, термін застосовується лише до тих, що використовуються в кодуванні еталонного рівня . Звичайно, деякі люди використовують "фіктивне кодування", щоб означати "опорне кодування"; вони, ймовірно, мають більш обмежене визначення "фіктивних змінних", або в будь-якому випадку повинні.

† А якщо не називати ці «пустушки», що б ви їх називаєте?

‡ Так, наприклад, манекен є індикатором змінної, коли i - я особа u i є чоловіком (член множини M ): x i = 1 M ( u i ) = { 1 w h e n u iM 0 w h e n u iMxiiuiМ

xi=1M(ui)={1when uiM0when uiM

де індикаторна функція для членства M .1M()М

※ Або, як вказував @gung, кодування рівня - означає.


2
Так ... чи можете ви надати посилання на деякі ресурси, що мотивують це? З мого досвіду, "фіктивна змінна" дуже часто використовується для кодування 0/1. Не впевнений, що я бачив манекен, що використовується, як ви пропонуєте, і знаю, що інші використовують його в протилежному сенсі. Наприклад, Alkharusi, H. (2012) "Категоричні змінні в регресійному аналізі: порівняння манекенів та кодування ефектів" Міжнародний журнал освіти 4 (2): 202–210.
Олексій

2
Я не казав, що "фіктивна змінна" не використовується для кодування 0/1, просто що вона може використовуватися в більш загальному сенсі.
Scortchi

1
Насправді сама робота, яку ви цитуєте, говорить про те, що, використовуючи ефект кодування, "фіктивні змінні приймають значення 1, 0 та -1". (Звичайно, я думаю, що вони повинні були б називати "манекенне кодування" чимось іншим, якщо вони збираються сказати це.)
Scortchi - Відновіть Моніку

1
Зрозумів ... що стосується запитання з вашого задушеного надриска, я схильний називати їх "категоричними змінними, що використовують кодування XXX".
Олексій

2
Справа найкраще висловлена ​​Кнутом в arxiv.org/abs/math/9205211 Він приписує цю ідею К. Е. Іверсону. Коротше кажучи, нам не потрібно винаходити або викликати функцію індикатора, але слідкуйте за офіційним обговоренням того, що робить наше програмне забезпечення для нас.
Нік Кокс

6

kk1 Як логістична регресія може мати факторний прогноктор і не перехоплювати?) Якщо є лише одна категоріальна змінна, це дає можливість вивести модель таким чином, що це просто і може бути віддано перевагу деяким людям. (Для прикладу, коли використання цієї схеми полегшує порівняння інтересів, дивіться мою відповідь тут: Чому розрахункові значення найкращого лінійного неупередженого передбачувача (BLUP) відрізняються від найкращого лінійного неупередженого оцінювача (BLUE)? )

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.