Як поводитися з порядковою категоріальною змінною як незалежною змінною


18

Я використовую модель logit. Моя залежна змінна - двійкова. Однак у мене є незалежна змінна , яка є категоричним і містить відповіді: 1.very good, 2.good, 3.average, 4.poor and 5.very poor. Отже, вона порядкова («кількісна категорія»). Я не впевнений, як впоратися з цим у моделі. Я використовую gretl.

[Примітка від @ttnphns: Хоча питання говорить про те, що модель є logit (оскільки залежна категорична), вирішальне питання - порядкові незалежні змінні - в основному однакові, бути залежною категоричністю або кількісною. Тому питання однаково стосується, скажімо, і лінійної регресії - як і для логістичної регресії або іншої моделі logit.]


Моя залежна змінна приймає значення 0 та 1, у мене є 6 незалежних змінних, 3 з них категоричні. Ця змінна - це "як ви оцінюєте місцеві медичні послуги у вашому регіоні? Як ви оцінюєте місцеві перевезення у вашому регіоні та як ви оцінюєте поліцейські служби у вашому районі - відповіді дуже хороші, хороші, середні, погані та дуже погані
rahmat

@Tim Якщо залежна змінна є двійковою, то немає необхідності в жодній порядковій регресії. Підставою є поводження з порядковим предиктором за допомогою індикаторних (фіктивних) змінних.
Нік Кокс

дякую Тим, якщо я не помиляюся, що ти кажеш, що я повинен створити манекен для всіх категорій ?? Наприклад, у мене є п’ять відповідей (дуже хороший, хороший, середній, поганий і дуже поганий) для однієї індеп-змінної, тому я повинен створити 5 манекенів.
rahmat

Відповіді:


14

Проблема з порядковою незалежною змінною полягає в тому, що оскільки за визначенням справжні метричні проміжки між її рівнями не відомі , відповідне тип типу - окрім парасольки "монотонного", не можна вважати априорі. Ми мусимо щось з цим зробити, наприклад - "екранувати або комбінувати варіанти" або "віддавати перевагу тому, що щось максимізує".

Якщо ви наполягаєте на тому, щоб ваш IV-й рейтинг оцінили як порядковий (а не інтервальний чи номінальний), я отримав для вас пару альтернатив.

  1. Використовуйте поліноміальні контрасти, тобто кожен такий предиктор, який використовується в моделі, вводиться не тільки лінійно, але й квадратично і кубічно. Таким чином, не тільки лінійний, але і більш загальний монотонний ефект може бути зафіксований (лінійний ефект відповідає предиктору, що зберігається як масштаб / інтервал, а два інших ефекту мають його як нерівні інтервали). Крім того, можуть бути також введені манекени кожного прогнозора, які перевірять на номінальний / факторний ефект. Зрештою, все, що ви знаєте, наскільки ваш прогноктор діє як фактор, наскільки лінійний коваріат і на скільки нелінійний коваріат. Цей варіант легко виконати майже в будь-якій регресії (лінійна, логістична, інші узагальнено-лінійні моделі). Він буде споживати df s, тому розмір вибірки повинен бути досить великим.
  2. Використовуйте оптимальну регресію масштабування . Такий підхід монотонно перетворює порядковий предиктор в інтервал один з тим, щоб максимізувати лінійний ефект на передбачуваний. CATREG (категорична регресія) - це реалізація цієї ідеї в SPSS. Одна з проблем вашого конкретного випадку полягає в тому, що ви хочете робити логістичну, а не лінійну регресію, але CATREG не заснована на моделі logit. Я думаю, що ця перешкода є відносно незначною, оскільки ваш прогноз є лише двома категоріями (бінарними): я маю на увазі, що ви все-таки можете зробити CATREG для оптимального масштабування, а потім зробити остаточну логістичну регресію з отриманими прогнозованими трансформованими шкалами.
  3. Зауважимо також, що у простому випадку однієї шкали або порядкового ДВ та одного порядкового випробування IV Джонкхере-Терпстра може бути розумним аналізом замість регресії.

Можуть бути й інші пропозиції. Три вище, що мені спадають на думку, миттєво читаючи ваше запитання.

Дозвольте також порекомендувати вам відвідати ці теми: Пов’язання між іменним та масштабним чи порядковим ; Пов’язання між порядковим та масштабним . Вони можуть бути корисними, незважаючи на те, що мова йде не про конкретно регресії.

Але ці теми стосуються регресій, особливо логістичних: ви повинні заглянути всередину: один , два , три , чотири , п’ять .


(+1) (1) Ви також можете використовувати лише перші кілька поліноміальних контрастів, якщо вважаєте, що їх достатньо. (2) Визначення предикторів відповіді у тому ж наборі даних повинно містити попередження про стан здоров'я. (3) Ви також можете скасувати невідповідність між коефіцієнтами сусідніх рівнів - див. Stats.stackexchange.com/q/77796/17230 .
Scortchi

1
@Scortchi, Дякую за коментар Щодо (2) - так, то, звичайно, надійніше зробити оптимальне масштабування на окремому підмножині даних, за яким буде зроблено остаточну регресію. (3) - спасибі, я теж познайомлюсь із цим.
ttnphns

1
Інший варіант - використовувати аддитивну модель і представляти порядкову незалежну змінну через сплайн.
kjetil b halvorsen

2
@kjetilbhalvorsen, Так, можливо, дякую. Цей варіант, однак, вже мається на увазі в Pt 2, оскільки один із методів оптимального масштабування для порядкових змінних використовує сплайн.
ttnphns

7

Просто для додання інших відмінних відповідей: Сучасний спосіб поводження з ним може бути за допомогою додаткової моделі, що представляє порядкову незалежну змінну через сплайн. Якщо ви впевнені, що ефект змінної є монотонним, ви можете обмежитися монотонним сплайном. (Для прикладу монотонних сплайнів, що використовуються, див. Шукати функцію, щоб відповідати сигмоподібній кривій ).

У R, якщо зробити порядковий предиктор "упорядкованим фактором" (наприклад, з кодом ord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) ), то в лінійній моделі він буде представлений через ортогональні многочлени.


4
Було б добре трохи розширити його, включити ще кілька подробиць, як це буде працювати з порядковими прогнозами.
ttnphns

0

Вам потрібні фіктивні змінні, але вам це потрібно к-1 фіктивні змінні, де к- кількість потенційних відповідей. У вашому випадку з 5 значеннями відповіді (1-5) ви створили б 4 фіктивних змінних. Якщо відповідь "5", вашими чотирма фіксованими змінними будуть всі 0. Мати сенс?


3
Я в односторонньому порядку (і педантично чи інакше) змінив ваше крихітне використання позначень. Хоча це банально,нзазвичай це кількість спостережень, і я часто бачив, як початківці плутаються в таких питаннях.
Нік Кокс

1
дякую Тіму та Ніку. Тож мені доводиться запускати всі чотири манекени в регресії. правильно? якщо так, у мене є 3 категоріальні змінні, кожна з 5 відповідями. тому моя модель матиме 12 змінних. правильно?
rahmat

1
Дякую @NickCox - Я новачок у світі резюме та вдячний за поважні виправлення
Austin T

1
На жаль, ви не пояснили, навіщо фіктивні змінні взагалі знадобляться. Я не відчуваю, що ця відповідь, як на даний момент, виглядає як відповідь на питання.
ttnphns

2
На підтримку, я не думаю, що це справа стверджувати, що потрібні показники ; це просто те, що вони дозволяють зафіксувати різноманітні ефекти, включаючи немонотонні відносини.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.