Як кількісно оцінити відносну змінну важливість логістичної регресії з точки зору p?


11

Припустимо, модель логістичної регресії використовується для прогнозування того, чи придбає інтернет-покупець товар (результат: покупка), після того, як він натиснув набір рекламних оголошень в Інтернеті (предиктори: Ad1, Ad2 та Ad3).

Результатом є двійкова змінна: 1 (придбана) або 0 (не придбана на замовлення). Провісниками є також двійкові змінні: 1 (натиснуто) або 0 (не натиснуто). Отже всі змінні знаходяться в одній шкалі.

Якщо отримані коефіцієнти Ad1, Ad2 та Ad3 дорівнюють 0,1, 0,2 та 03, можна зробити висновок, що Ad3 важливіший за Ad2, а Ad2 важливіший за Ad1. Крім того, оскільки всі змінні знаходяться в одній шкалі, стандартизовані та нестандартизовані коефіцієнти повинні бути однаковими, і ми можемо далі зробити висновок, що Ad2 є вдвічі важливішим за Ad1 з точки зору його впливу на рівень logit (log-odds).

Але на практиці ми більше дбаємо про те, як порівняти та інтерпретувати відносну важливість змінних з точки зору рівня p (ймовірність придбання), а не logit (log-odds).

Отже, питання: Чи існує якийсь підхід для кількісної оцінки відносної важливості цих змінних з точки зору p?


Я вважав цю статтю корисною. Він добре описує шість різних методів, які можна використовувати для визначення важливості прогноктора з логістичної регресійної моделі, а також реквізити та мінуси, пов'язані з кожним методом.
gchaks

Відповіді:


5

Для лінійних моделей можна використовувати абсолютне значення t-статистики для кожного параметра моделі.

Крім того, ви можете використовувати щось на кшталт випадкової форрести і отримати дуже приємний список важливих функцій.

Якщо ви використовуєте R check ( http://caret.r-forge.r-project.org/varimp.html ), якщо ви використовуєте python check ( http://scikit-learn.org/stable/auto_examples /ensemble/plot_forest_imporances.html#example-ensemble-plot-forest-imporances-py )

Редагувати:

Оскільки у logit немає прямого способу зробити це, ви можете використовувати криву ROC для кожного прогноктора.

Для класифікації аналіз кривих ROC проводиться на кожному прогнокторі. Для двох проблем класу до даних прогноктора застосовується серія відсічень для прогнозування класу. Чутливість та специфічність обчислюються для кожного відсікання та обчислюється крива ROC. Трапецієподібне правило використовується для обчислення площі під кривою ROC. Ця область використовується як міра змінної важливості

Приклад того, як це працює в R:

library(caret)
mydata <- data.frame(y = c(1,0,0,0,1,1),
                 x1 = c(1,1,0,1,0,0),
                 x2 = c(1,1,1,0,0,1),
                 x3 = c(1,0,1,1,0,0))

fit <- glm(y~x1+x2+x3,data=mydata,family=binomial())
summary(fit)

varImp(fit, scale = FALSE)

1
Спасибі за Вашу відповідь! так, це легко для лінійної моделі та випадкового лісу, чи маєте ви уявлення, як це зробити у випадку логістичної регресії? Дуже дякую!
xyhzc

Див. Редагування вище.
mike1886

Здається, на питання щодо порівнянь на рівні співвідношення досі не отримали відповіді. Навіть якщо ми знаємо, що AUC, скажімо, .6 використовує лише x1 та .9, використовуючи лише x2, ми навряд чи можемо сказати, що важливість x2, отже, на 50% більша. Я також не думаю, що це (1 - 10% / 40%) = 75% більше. Ми також не можемо зробити щось подібне, використовуючи лише чутливість або просто специфіку. Я також сумніваюся у застосуванні статистики Уолда тут. Найбільш корисними можуть бути пояснення стандартизованих коефіцієнтів (див. Інтернет-книгу Скотта Менара).
rolando2

Дякую rolando2! Змінні в цьому питанні - це всі заходи в одних і тих же показниках, тому стандартизовані і нестандартні коефіцієнти повинні бути однаковими. Крім того, хоча ми можемо використовувати стандартизовані коефіцієнти для порівняння змінних на рівні logit (log-odds), як ми можемо інтерпретувати змінні на P (вірогідність придбання інтернет-покупців у цьому випадку)? дуже дякую!
xyhzc

1
Я не бачу відповіді на запитання.
HelloWorld

4

Оскільки ви спеціально просили інтерпретації за шкалою ймовірності: У логістичній регресії оцінювана ймовірність успіху задається

π^(x)=exp(β0+βx)1+exp(β0+βx)

β0βx

exp(0.1)1+exp(0.1)=0.52

Людина, яка натиснула лише оголошення 3:

exp(0.3)1+exp(0.3)=0.57

Однак якщо людина натиснула оголошення 1 або оголошення 3, а також оголошення 2 (якщо це негідний сценарій), ймовірність стає

exp(0.1+0.2)1+exp(0.1+0.2)=0.57

exp(0.3+0.2)1+exp(0.3+0.2)=0.62

У цьому випадку ймовірність зміни становить і 0,05, але зазвичай ця зміна неоднакова для різних комбінацій рівнів. (Це можна легко побачити, якщо, наприклад, ви використовуєте той же підхід, що і вище, але з коефіцієнтами 0,1, 1,5, 0,3.) Отже, значення змінної за шкалою ймовірності залежить від спостережуваних рівнів інших змінних. Це може ускладнити (неможливо?) Придумати абсолютний, кількісний показник мінливої ​​важливості за шкалою ймовірності.


дякую за ваше пояснення! Тоді чи знаєте ви, чи існує якийсь непрямий метод кількісної оцінки відносної важливості прогнозів? mike1886 згадав "аналіз кривої ROC" у своїй відповіді, але є деякі питання, як згадує rolando2. Дуже дякую!
xyhzc
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.