Регресія для категоричних незалежних змінних та безперервно залежної


20

Я просто зрозумів, що завжди працював з проблемою регресії, де незалежні змінні завжди були числовими. Чи можу я використовувати лінійну регресію у випадку, коли всі незалежні змінні є категоричними?

Відповіді:


24

Просто деяка семантика і щоб було зрозуміло:

  • залежна змінна == результат == " " у формулах регресії, таких як y = β_0 + β_1x_1 + β_2x_2 + ... + β_kx_kyy=β0+β1x1+β2x2+...+βkxk
  • незалежна змінна == предиктор == одна з " xk " у формулах регресії, таких як y=β0+β1x1+β2x2+...+βkxk

Тож у більшості ситуацій тип регресії залежить від типу залежної, результатної чи змінної " y " . Наприклад, лінійна регресія використовується, коли залежна змінна є безперервною, логістична регресія, коли залежна категорична з 2 категоріями, і мультиномічна (n) алрегресія, коли залежна категорична з більш ніж 2 категоріями. Прогнози можуть бути будь-якими (номінальна або порядкова категорія, безперервна, або змішана) .

(Зауваження нижче може бути для вас зайвим, але я все одно додаю його)

Однак зауважте, що більшість програмного забезпечення вимагає перекодувати категоричні предиктори в двійковій числовій системі . Це просто означає кодування сексу до 0 для жінок і 1 для чоловіків або навпаки. Для категоричних змінних з більш ніж двома рівнями вам потрібно буде перекодувати їх у манекенні змінні де - кількість рівнів, а ці манекени містять 0 або 1, якщо вони знаходяться у відповідній категорії. Таким чином, кожен індивід (зразок) повинен бути представлений наявністю 1 для змінної манекена, до якої він / вона входить, і 0 для інших, або 0 для всіх манекенів, коли він / вона є частиною референтної групи.лL1L


Спасибі. як я пишу в заголовку питання, залежна змінна є безперервною. Тому я приймаю вашу відповідь як "ви можете використовувати лінійну регресію за умови, що ви робите фіктивне кодування". Будь ласка, виправте мене, якщо я помиляюся.
famargar

так, це я казав.
IWS

2
Я бачу, що ви відредагували питання, щоб додати друге запитання, і опублікували подібне запитання тут: stats.stackexchange.com/questions/267137/… . Крім того, я б запитав, що ви маєте на увазі під згладжуванням своїх прогнозів, або що ви маєте на увазі під прогнозуванням дискретних значень. AFAIK лінійна регресія дасть вам середнє значення безперервної залежності залежно від змінних ваших прогнозів (через формулу регресії). Будь ласка, детальніше
IWS

1
Я видалив друге запитання, коли ви повністю відповіли на початкове. Щоб відповісти на ваше запитання, якщо я подаю нових "подій" ( ) в модель, я отримав би різних значень які б приймали одне з чотирьох регресованих значень. Я думаю, я кажу, що якби категоричні змінні були насправді порядковими, я хотів би запровадити деякі (logit?) Згладжування між значеннями. x i n ynxiny
famargar

1
У випадку порядкової змінної завжди можна вважати, що вона "достатньо безперервна", щоб використовувати її як би суцільний предиктор (просто не використовуючи манекени, а вводячи змінну як числову версію). Однак якщо ви це зробите і у вас є лише кілька рівнів, ви встановлюєте пряму лінію (таким чином передбачаючи лінійність) лише через кілька точок (тому врахуйте, що тут важлива кількість рівнів). Шкала Лікерта - хороший приклад змінної, використовуваної таким чином, яка, на жаль, створює проблеми в різних випадках.
IWS
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.