Логістична регресія з бінарними залежними та незалежними змінними


15

Чи доречно робити логістичну регресію, коли і залежні, і незалежні змінні є двійковими? наприклад, залежна змінна дорівнює 0 і 1, а предиктори є контрастними кодованими змінними -1 і 1?

Відповіді:


6

Немає причин не робити цього, але дві застережливі думки:

  1. Уважно слідкуйте, під час аналізу якого є що. У великих проектах можна легко розгубитися та отримати помилкові результати.

  2. Якщо ви вирішите повідомити оцінки регресії, а не коефіцієнти шансів, уточніть схему кодування у своєму звіті , щоб читачі не створювали неточні АБО самостійно, вважаючи, що вони були кодовані 0,1.

Це може здатися основним, але я бачив, як обидві проблеми перетворюються на опубліковані статті.


Тож тоді було б доречно розділити файл даних на 6 окремих випадків і запустити окремі порівняння в кожному наборі даних з кодованими передбачувачами обмежень?
upabove

Я, чесно кажучи, не впевнений, що ви просите про цей другий шматочок. Чи можете ви уточнити те, що ви сподіваєтесь досягти?
Фоміт

У мене є набір даних з 3 між і 4 в предметних умовах. Я хотів би перевірити кожен ефект, але в одній регресії з усіма взаємодіями пропущено багато інформації, яка мене зацікавила. Замість цього я поділив би дані за умовою на окремі набори даних та запускав цілеспрямовані логістичні регресії для кожного набору даних із контрастом коди, що кодують відмінності, які мене цікавлять.
upa

для ще більшого кількості інформації про те , як я код контрастні коди дивіться тут: stats.stackexchange.com/questions/14546 / ...
upabove

11

Бо зрозумілість: термін "двійковий" зазвичай зарезервований лише для кодування 1 та 0. Більш загальне слово, яке підходить для будь-якого двозначного кодування, - "дихотомічне". Дихотомічні прогнози, звичайно, вітаються з логістичною регресією, як і до лінійної регресії, і, оскільки вони мають лише 2 значення, не має значення, вводити їх як чинники чи як коваріати.


5

Зазвичай це допомагає інтерпретувати, якщо ви кодуєте ваші прогнози 0-1, але крім цього (і зазначаючи, що це не потрібно), в цьому немає нічого поганого. Існують деякі інші підходи (на основі таблиці надзвичайних ситуацій), але якщо я пригадую правильно, вони виявляються еквівалентними (деякій формі) логістичної регресії.

Отже, коротко: я не бачу причин не робити цього.


Спасибі! І якщо у мене є 3 контрактовані кодуючі прогнози, і я кодую їх усі 0-1, вони не будуть ортогональними. Наприклад, у мене є 4 категорії, і три мої коди: L1: 1, -1,0,0 L2: 0,1, -1,0, L3: 0,0,1, -1. це питання?
upabove

Ваш приклад L-матриця (L1, L2, L3) - це неодноразові контрасти, за якими кожна категорія порівнюється із наступною категорією. Ні ці контрастні предиктори не є ортогональними, ні вони є двійковими (кодуються як 0-1). Насправді їх значення - .75 проти –25 (перша змінна), .5 проти –5 (2-а змінна), .25 проти –.75 (3-я змінна)
ttnphns

3

Крім того, якщо у вас є більше двох прогнозів, то більш ймовірно, що виникне проблема мультиколінеарності навіть для логістичної чи багаторазової регресії. Однак використовувати логістичну регресію з усіма бінарними змінними (тобто кодованими (0,1)) немає шкоди.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.