категоризація змінної перетворює її з незначної на значущу


17

У мене є числова змінна, яка виявляється несуттєвою в багатовимірній логістичній регресійній моделі. Однак, коли я класифікую його на групи, раптом він стає значущим. Для мене це дуже протиінтуїтивно: коли класифікуємо змінну, ми видаємо деяку інформацію.

Як це може бути?

Відповіді:


25

Одне з можливих пояснень - нелінійності у взаємозв'язку між вашим результатом та прогноктором.

Ось невеликий приклад. Ми використовуємо предиктор, який є рівномірним на [1,1] . Результат, однак, залежить не лінійно від прогноктора, а від площі прогноктора: ІСТИНА є більш імовірною для обох х-1 і х1 , але менш вірогідна для х0 . У цьому випадку лінійна модель вийде незначною, але розрізання прогноктора на інтервали робить його значущим.

> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
> 
> library(lmtest)
> 
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test

Model 1: yy ~ xx
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)
1   2 -676.72                     
2   1 -677.22 -1 0.9914     0.3194
> 
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test

Model 1: yy ~ xx_cut
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)  
1   3 -673.65                       
2   1 -677.22 -2 7.1362    0.02821 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Однак це не означає, що розсуд передбачувача - найкращий підхід. (Це майже ніколи не буває.) Набагато краще моделювати нелінійність за допомогою чи подібних.


Чи є приклади, коли дискретизація може бути розумною? Наприклад, якщо у вас є певний поріг (наприклад, вік 18 років), при якому відбувається бінарне перемикання результатів. Числовий вік у діапазоні 18+ може бути незначним, але бінарний вік> 18 може бути значним?
ajrwhite

3
@ajrwhite: це залежить від поля. У будь-якому місці, де порогові норми кодифіковані в законодавчому порядку, дискреція може мати сенс. Наприклад, якщо ви моделюєте поведінку при голосуванні, має сенс перевірити, чи дійсно хтось має право голосувати у віці 18 років. Аналогічно, у Німеччині податок на транспортний засіб залежить від переміщення двигуна і скаче в 1700, 1800, 1900, ... куб. , тому майже всі автомобілі мають переміщення 1699, 1799, ... куб. см (вид самовіддачі). У таких природничих науках, як біологія, медицина, психологія тощо, я намагаюся знайти приклад, коли дискретизація має сенс.
S. Kolassa - Відновіть Моніку

7

Один з можливих способів - якщо відносини явно нелінійні. Неможливо сказати (зважаючи на відсутність деталізації), чи це дійсно пояснює, що відбувається.

Ви можете самі перевірити. По-перше, ви можете зробити доданий графік змінної для самої змінної як самої, і ви також зможете побудувати встановлені ефекти у факторній версії моделі. Якщо пояснення правильне, обидва повинні бачити чітко нелінійну схему.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.