Аналіз логістичних коефіцієнтів регресії


12

Ось перелік коефіцієнтів логістичної регресії (перший - перехоплення)

-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
 0
 1.03152408392552
 1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393

Мені здається дивним, наскільки перехоплення настільки низьке, і у мене коефіцієнт, який насправді дорівнює 0. Я не зовсім впевнений, як би це інтерпретував. Чи означає 0, що конкретна змінна зовсім не впливає на модель? Але перехоплення, яке робиться введенням стовпця, є раптом дійсно важливим? Або мої дані просто лайно, і модель не може належним чином підходити до них.


2
Який діапазон або стандартне відхилення ваших інших змінних? Чи є велика різниця між стандартним відхиленням змінної з нульовою оцінкою порівняно з іншими? Ви можете очікувати коефіцієнта нуля, якщо стандартне відхилення невелике порівняно з іншими (числова точність). Також перехоплення в основному означає, що у вас є змінні, які мають великі середні значення (далеко від нуля). Центрування ваших змінних дало б більш інтерпретаційний перехоплення і не змінить бета-версії для інших змінних (помилка ітеративного алгоритму вбік).
ймовірністьілогічного

1
Якби ви віднімали 1027 від усіх значень шостої змінної, ваш перехоплення був би досить близьким до 0. Чи це би ви почували себе краще? :-)
whuber

4
Показаний перелік таких коефіцієнтів, без контексту, ймовірно, говорить: "Джо має 31, чи не так багато?" не кажучи 31 що . 31 автомобіль? Багато. 31 дитина? Одного чорта багато! 31 долар? Не багато.
Пітер Флом - Відновити Моніку

1
Щодо коефіцієнта нуля: я міг би бачити, що це відбувається як артефакт введення всіх ваших коефіцієнтів у XL, перш ніж їх вставляти сюди - те, що здається, відповідає великій кількості десяткових знаків, які ми зазвичай бачимо. Можливо, одна з цих комірок XL була встановлена ​​на округлення до цілих чисел, даючи нуль. У мене такі речі траплялися.
rolando2

Дякую всім за ваш внесок! Я дуже ціную кожного з вас! На багато моїх запитань відповіли
shiu6rewgu

Відповіді:


16

Ви отримуєте в коментарях дуже гарну інформацію, на мою думку. Цікаво, чи допоможуть деякі основні факти про логістичну регресію зробити ці речі зрозумілішими, тому, маючи на увазі, дозвольте мені зазначити пару речей. У логістичній регресії коефіцієнти знаходяться на логістичній шкалі (звідси і назва ...). Якби ви підключили свої коваріатні значення для спостереження, помножили їх на коефіцієнти та підсумували їх, ви отримаєте logit .

logit=β0+β1х1+β2х2+...+βкхк
Логіт - це число, яке не має для кого-небудь інтуїтивного сенсу, тому дуже важко дізнатися, що робити з номером, виглядає смішно (наприклад, дуже високо або дуже низько). Найкращий спосіб зрозуміти ці речі - це перетворити їх з їх початкового масштабу (logits) в такий, який ви можете зрозуміти, зокрема ймовірності. Для цього ви берете свій logit і виставляєте його. Це означає, що ви берете число e ( ) і піднімаєте його до сили logit. Уявіть, що ваш логіт був 2: Це дасть вам шанси. Ви можете перетворити шанси на ймовірність, поділивши коефіцієнт на один плюс коефіцієнти: Люди зазвичай знаходять ймовірність набагато простіше з цим. е2.718281828
е2=7.389056
7.3890561+7.389056=0,880797

Для вашої моделі уявіть, що у вас було спостереження, у якому значення всіх ваших змінних рівно 0, тоді всі ваші коефіцієнти випадуть, і вам залишиться лише ваше значення перехоплення. Якщо ми будемо виставляти ваше значення, ми отримаємо 0 як шанси (якби було -700, шанси були б , але я не можу заставити комп'ютер дати мені значення для -1060, вона занадто мала, враховуючи числові межі мого програмного забезпечення). Перетворення цих шансів на ймовірність, (9.8×10-3050/(1+0)), дає нам знову 0. Таким чином, те, що свідчить ваш результат, - це те, що ваша подія (яка б вона не була) просто не відбувається, коли всі ваші змінні дорівнюють 0. Звичайно, це залежить від того, про що ми говоримо, але я не знаю нічого надто примітного це. Стандартне логістичне рівняння регресії (скажімо, без квадратного терміна, наприклад) обов'язково передбачає, що зв'язок між коваріатом і ймовірністю успіху або монотонно зростає, або монотонно зменшується. Це означає, що він завжди стає більшим і більшим (або меншим і меншим), і тому, якщо ви підете досить далеко в один бік, ви отримаєте настільки маленькі цифри, що мій комп'ютер не може їх розпізнати, крім 0. Це просто природа звіра. Як це буває, для вашої моделі дійсно далеко, йде туди, де ваша коваріатна доля дорівнює 0.

Що стосується коефіцієнта 0, це означає, що ця змінна не має ефекту, як ви пропонуєте. Тепер цілком розумно, що змінна не матиме ефекту, тим не менш, ви взагалі ніколи не отримаєте коефіцієнт рівно 0. Я не знаю, чому це сталося в цьому випадку; коментарі пропонують кілька можливих пропозицій. Я можу запропонувати іншу, яка полягає в тому, що в цій змінній може не бути різниці. Наприклад, якщо у вас була змінна, кодована для сексу, але у вашій вибірці були лише жінки. Я не знаю, чи це справжня відповідь (R, наприклад, повертається NAв такому випадку, але програмне забезпечення відрізняється) - це просто інша пропозиція.


2
Зауважте, що ви можете отримати шанси на десять, помноживши коефіцієнти природного журналу на . Ви отримаєте відповідь приблизно . а для малих шансів вірогідність дорівнює шансам. Отже, ми маємо приблизно вірогідність коли всі коваріати дорівнюють нулю. 30670037-46010-460
ймовірністьілогічний

10

Інтерпретація перехоплення

Ви можете подумати, що логістична регресія надає вам задню ймовірність бути «1». Перехоплення являє собою пріоритет категорій, отриманих з набору даних: конкретно, це емпірична оцінка журналу (p (Y = 1) / p (Y = 0), сама по собі, коли модель має лише перехоплення, для випадків у класи "посилання", коли є категоріальні коваріати, і для випадків, коли коваріати на 0 більш загальні (але менш інтерпретаційно). Отже, ваше сильно негативне число, ймовірно, говорить вам про те, що "1" рідкісні серед випадків у вашій вибірці, які характеризуються маючи всі коваріати на 0. Знову ж, спостережень там може не бути, тому хвилюватися за значення перехоплення не варто. Це обговорення є досить зрозумілим.

Через це зручне розділення проблем між параметрами, ви можете виправити дисбаланс категорій, навчаючись на більш збалансованій вибірці та лише коригуючи перехоплення . Дивіться Кінга та Дзенга для ретельного обговорення.


Посилання на "цю дискусію", схоже, померло. Будь-який шанс відновити це посилання?
Олексій Григорьов

1
@ alexey-grigorev Я оновив посилання UCLA
кон'югатпріор

і набрав шлюб. Дуже дивно.
сполученийперіор
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.