Ви отримуєте в коментарях дуже гарну інформацію, на мою думку. Цікаво, чи допоможуть деякі основні факти про логістичну регресію зробити ці речі зрозумілішими, тому, маючи на увазі, дозвольте мені зазначити пару речей. У логістичній регресії коефіцієнти знаходяться на логістичній шкалі (звідси і назва ...). Якби ви підключили свої коваріатні значення для спостереження, помножили їх на коефіцієнти та підсумували їх, ви отримаєте logit .
logit = β0+ β1х1+ β2х2+ . . . + βкхк
Логіт - це число, яке не має для кого-небудь інтуїтивного сенсу, тому дуже важко дізнатися, що робити з номером, виглядає смішно (наприклад, дуже високо або дуже низько). Найкращий спосіб зрозуміти ці речі - це перетворити їх з їх початкового масштабу (logits) в такий, який ви можете зрозуміти, зокрема ймовірності. Для цього ви берете свій logit і виставляєте його. Це означає, що ви берете число
e ( ) і піднімаєте його до сили logit. Уявіть, що ваш логіт був 2:
Це дасть вам шанси. Ви можете перетворити шанси на ймовірність, поділивши коефіцієнт на один плюс коефіцієнти:
Люди зазвичай знаходять ймовірність набагато простіше з цим.
e ≈ 2.718281828
е2= 7,389056
7.3890561 + 7,389056= 0,880797
Для вашої моделі уявіть, що у вас було спостереження, у якому значення всіх ваших змінних рівно 0, тоді всі ваші коефіцієнти випадуть, і вам залишиться лише ваше значення перехоплення. Якщо ми будемо виставляти ваше значення, ми отримаємо 0 як шанси (якби було -700, шанси були б , але я не можу заставити комп'ютер дати мені значення для -1060, вона занадто мала, враховуючи числові межі мого програмного забезпечення). Перетворення цих шансів на ймовірність, (9,8 × 10- 3050 / ( 1 + 0 )), дає нам знову 0. Таким чином, те, що свідчить ваш результат, - це те, що ваша подія (яка б вона не була) просто не відбувається, коли всі ваші змінні дорівнюють 0. Звичайно, це залежить від того, про що ми говоримо, але я не знаю нічого надто примітного це. Стандартне логістичне рівняння регресії (скажімо, без квадратного терміна, наприклад) обов'язково передбачає, що зв'язок між коваріатом і ймовірністю успіху або монотонно зростає, або монотонно зменшується. Це означає, що він завжди стає більшим і більшим (або меншим і меншим), і тому, якщо ви підете досить далеко в один бік, ви отримаєте настільки маленькі цифри, що мій комп'ютер не може їх розпізнати, крім 0. Це просто природа звіра. Як це буває, для вашої моделі дійсно далеко, йде туди, де ваша коваріатна доля дорівнює 0.
Що стосується коефіцієнта 0, це означає, що ця змінна не має ефекту, як ви пропонуєте. Тепер цілком розумно, що змінна не матиме ефекту, тим не менш, ви взагалі ніколи не отримаєте коефіцієнт рівно 0. Я не знаю, чому це сталося в цьому випадку; коментарі пропонують кілька можливих пропозицій. Я можу запропонувати іншу, яка полягає в тому, що в цій змінній може не бути різниці. Наприклад, якщо у вас була змінна, кодована для сексу, але у вашій вибірці були лише жінки. Я не знаю, чи це справжня відповідь (R, наприклад, повертається NA
в такому випадку, але програмне забезпечення відрізняється) - це просто інша пропозиція.