Як поводитися з небінарними категоричними змінними в логістичній регресії (SPSS)

Мені доводиться робити бінарну логістичну регресію з безліччю незалежних змінних. Більшість з них є бінарними, але деякі категоричні змінні мають більше двох рівнів.

Який найкращий спосіб боротися з такими змінними?

Наприклад, для змінної з трьома можливими значеннями я припускаю, що потрібно створити дві фіктивні змінні. Тоді, в процесі поетапної регресії, краще протестувати обидва змінні манекена одночасно, або протестувати їх окремо?

Я буду використовувати SPSS, але це я не дуже добре пам’ятаю, тож: як SPSS вирішує цю ситуацію?

Більше того, для порядкової категоріальної змінної добре використовувати фіктивні змінні, які відтворюють порядковий масштаб? (Наприклад, при використанні трьох фіктивних змінних для 4-стану порядкового змінної, покласти 0-0-0на рівні , на рівні , для рівня і для рівня , замість того , , і для 4 рівнів.) $1$ 1-0-0 $2$ 1-1-0 $3$ 1-1-1 $4$ 0-0-01-0-00-1-00-0-1

— склоподібний
джерело

Це лише часткова відповідь: навіть коли ви створюєте манекени явно (а не використовуєте неявні можливості програмного забезпечення), тримайте їх разом у всіх аналізах. Зокрема, всі вони повинні входити разом і всі залишати разом у поступовій регресії, при цьому р-значення обчислюється відповідним чином для загальної кількості змінних. (Це все-таки рекомендація Hosmer & Lemeshow, все одно, і це має багато сенсу.)

— whuber

Нещодавно я писав публікацію про ресурси багаточленної логістичної регресії в SPSS .

— Джеромі Англім

Ви говорите про ваші незалежні змінні. Тільки залежні змінні повинні бути двійковими для логістичної регресії.

— Джон

Тут слід зауважити, що ви взагалі не повинні застосовувати ступінчасті процедури відбору; вони не дійсні. Якщо це не має сенсу / ви хочете зрозуміти, чому, можливо, вам допоможе прочитати мою відповідь тут: алгоритми для автоматичного вибору моделі .

— gung - Відновіть Моніку

Відповіді:

На веб-сайті UCLA є безліч чудових навчальних посібників для кожної процедури, розбитої на тип програмного забезпечення, з яким ви знайомі. Ознайомтеся з анотованим результатом SPSS: Логістична регресія - змінна SES, яку вони згадують, є категоричною (а не бінарною). SPSS автоматично створить індикаторні змінні для вас. Існує також сторінка, присвячена категоричним прогнозовам у регресії з SPSS, на якій є конкретна інформація про те, як змінити кодування за замовчуванням, та сторінка, специфічна для логістичної регресії .

— М. Тиббіт
джерело

Логістична регресія - досить гнучкий метод. Він може легко використовувати як незалежні змінні категоріальні змінні. Більшість програм, що використовують логістичну регресію, повинні дозволяти вам використовувати категоричні змінні.

Для прикладу, скажімо, однією з ваших категоричних змінних є температура, визначена на три категорії: холодна / м'яка / гаряча. Як ви пропонуєте, ви можете інтерпретувати, що це три окремі манекенні змінні, кожна зі значенням 1 або 0. Але програмне забезпечення повинно дозволяти вам використовувати одну категоричну змінну, а не текстове значення холодно / м'яко / гаряче. І, регрес логіт отримав би коефіцієнт (або постійний) для кожного з трьох температурних умов. Якщо один з них не є значущим, програмне забезпечення або користувач можуть його легко вийняти (дотримуючись значення t stat і p).

Основна перевага групування категорій категорій змінних в єдину категоричну змінну - ефективність моделі. Один стовпець у вашій моделі може обробляти стільки категорій, скільки потрібно для однієї категоріальної змінної. Якщо замість цього ви використовуєте фіктивну змінну для кожної категорії категоріальної змінної, ваша модель може швидко перерости до численних стовпців, зайвих з огляду на згадану альтернативу.

— Симпа
джерело

@gaetan Я не розумію зауваження щодо однієї колонки проти кількох стовпців. Ви припускаєте, що категоричні змінні повинні кодуватися як 1, 2, 3 тощо в одному стовпчику, а не використовувати манекенні змінні? Я не впевнений, що це має сенс для мене, оскільки ви накладаєте неявне обмеження, що різниця в ефекті на dv між leve1s 1 і 2 є такою ж, як і різниця ефекту на dv між рівнями 2 і 3. Можливо, я я щось пропускаю.

@Gaetan Я не впевнений, що я йду за тобою. Як саме XLStat перетворює значення "тексту" холодної, м'якої або гарячої в числові значення з метою оцінки? Якщо є метод, який дозволить вам оцінити ефекти категоричних змінних без використання фіктивних змінних, які, безумовно, повинні бути незалежними від програмного забезпечення, яке ви використовуєте, оскільки має бути якась основна концептуальна / модельна логіка.

k

$k$

k - 1

$k-1$

@Gatean Ок, в цьому випадку те ж саме можна зробити і в SPSS (у вас є вибір між числовою / порядковою / номінальною для кожної змінної) - тоді матриця проектування будується відповідно.

— chl

@Gaetan @chl Щоб підсумувати своє розуміння: Особливості SPSS та XLStat, за допомогою яких можна вказати шкалу вимірювання (номінальна, порядкова тощо), зменшує розмір файлу даних. Однак в обох випадках програмне забезпечення використовує правильну схему кодування (наприклад, розгорніть номінальну змінну з J категоріями на манекенні змінні J-1) як частину процесу оцінки у фоновому режимі. Це було б справедливою оцінкою ситуації?

Наскільки я розумію, добре використовувати мінливу змінну для категоричних / номінальних даних, тоді як для порядкових даних ми можемо використовувати кодування 1,2,3 для різних рівнів. Для фіксованої змінної ми будемо кодувати 1, якщо це правда для конкретного спостереження, а 0 в іншому випадку. Також фіктивних змінних буде на 1 менше, ніж немає. З рівнів, наприклад у двійковій, ми маємо 1. Усі спостереження "0" у змінній манекена автоматично становлять 1 для не кодованої манекена.

— Джейр
джерело