Оцінка логістичної регресії та інтерпретації Хосмера-Лемешоу Goodness of Fit


24

Як ми всі знаємо, існує 2 методи оцінки логістичної регресійної моделі, і вони тестують дуже різні речі

  1. Прогнозова сила:

    Отримайте статистику, яка вимірює, наскільки добре ви можете передбачити залежну змінну на основі незалежних змінних. Добре відомі псевдо R ^ 2 - Макфадден (1974) і Кокс і Снелл (1989).

  2. Статистика придатності

    Тест свідчить про те, чи можна було б зробити ще краще, ускладнивши модель, яка насправді перевіряє, чи є нелінійності чи взаємодії.

    Я реалізував обидва тести на своїй моделі, які вже додали квадратичність та взаємодію
    :

    >summary(spec_q2)
    
    Call:
    glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + 
     I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, 
     family = binomial())
    
     Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
    (Intercept)  0.955431   8.838584   0.108   0.9139    
    Top          0.311891   0.189793   1.643   0.1003    
    Right       -1.015460   0.502736  -2.020   0.0434 *  
    Left        -0.962143   0.431534  -2.230   0.0258 *  
    Bottom       0.198631   0.157242   1.263   0.2065    
    I(Top^2)    -0.003213   0.002114  -1.520   0.1285    
    I(Left^2)   -0.054258   0.008768  -6.188 6.09e-10 ***
    I(Bottom^2)  0.003725   0.001782   2.091   0.0366 *  
    Top:Right    0.012290   0.007540   1.630   0.1031    
    Top:Bottom   0.004536   0.002880   1.575   0.1153    
    Right:Left  -0.044283   0.015983  -2.771   0.0056 ** 
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1
    (Dispersion parameter for binomial family taken to be 1)
    Null deviance: 3350.3  on 2799  degrees of freedom
    Residual deviance: 1984.6  on 2789  degrees of freedom
    AIC: 2006.6
    

і прогнозована потужність, як показано нижче, MaFadden становить 0,4004, а значення між 0,2 ~ 0,4 слід сприймати, щоб представити дуже гарну форму моделі (Louviere et al (2000), Domenich та McFadden (1975)):

 > PseudoR2(spec_q2)
    McFadden     Adj.McFadden        Cox.Snell       Nagelkerke McKelvey.Zavoina           Effron            Count        Adj.Count 
   0.4076315        0.4004680        0.3859918        0.5531859        0.6144487        0.4616466        0.8489286        0.4712500 
         AIC    Corrected.AIC 
2006.6179010     2006.7125925 

та статистику корисності придатності:

 > hoslem.test(result,phat,g=8)

     Hosmer and Lemeshow goodness of fit (GOF) test

  data:  result, phat
  X-squared = 2800, df = 6, p-value < 2.2e-16

Як я розумію, GOF фактично перевіряє таку нульову та альтернативну гіпотезу:

  H0: The models does not need interaction and non-linearity
  H1: The models needs interaction and non-linearity

Оскільки мої моделі вже додали взаємодію, нелінійність і показник р-значення H0 слід відхилити, тож я прийшов до висновку, що моя модель потребує взаємодії, нелінійності. Сподіваюся, моя інтерпретація правильна і дякую за будь-яку пораду заздалегідь, дякую.



2
Краще подивитися на нижню таблицю, ніж значення р для тесту на HL. А також на ділянках залишків від вашої моделі. Це покаже, де проблема.
ймовірністьлогічний

Відповіді:


26

Є кілька питань, які потрібно вирішити.

  • R 2 R 2R2 міри самі по собі ніколи не міряють доброї придатності; в основному вони вимірюють прогностичну дискримінацію. Корисність придатності виходить лише з порівняння з від багатшої моделіR2R2
  • Тест Хосмера-Лемешоу призначений для загальної помилки калібрування, а не для будь-якої особливої ​​недостатності пристосування, наприклад квадратичних ефектів. Він належним чином не враховує надмірну обробку, є довільним до вибору бункерів та методу обчислення квантилів і часто має надто низьку потужність.
  • З цієї причини тест Хосмера-Лемешоу більше не рекомендується. Hosmer та ін. Мають кращий тест dni omnibus на придатність, реалізований у функції rmsпакету R.residuals.lrm
  • Для вашого випадку корисність можна оцінити шляхом спільного тестування (в "тесті") внеску всіх квадратних та взаємодійних умов.
  • Але я рекомендую вказати модель, щоб з більшою ймовірністю встановити передню частину (особливо що стосується розслаблення припущень щодо лінійності з використанням регресійних сплайнів) та використовувати завантажувальний апарат для оцінки насадки та отримання плавної калібрувальної кривої високої роздільної здатності з виправленою насадкою для перевірки абсолютних показників точність. Це робиться за допомогою rmsпакету R.

Зрештою, я віддаю перевагу філософії, що моделі мають бути гнучкими (так чи інакше обмеженими розмірами вибірки) і що ми більше концентруємось на «підході», ніж на «недостатній формі».


2
Лише одне: більшість заходів порівнюють пристосовану модель із «ідеальною моделлю», яка забезпечує правильне передбачення для кожного запису, не здійснюючи коректування df / overfitting. +1 від мене. R2
ймовірністьлогічний

Так, ми просто не сподіваємось бути ідеальними, тому я б не називав відсутністю форми. 1R2
Френк Харрелл

4

З Вікіпедії :

Тест оцінює, чи відповідають показники спостережуваних подій очікуваним показникам подій у підгрупах модельної сукупності. Тест Хосмера – Лемешоу спеціально визначає підгрупи як децили встановлених значень ризику. Моделі, для яких очікувані та спостережувані показники подій у підгрупах схожі, називаються добре каліброваними.

Її значення: після побудови моделі, яка оцінює y вашої моделі, ви хочете перехресно перевірити, чи розподіляється вона на 10 децилів аналогічно фактичним показникам подій.

Тож гіпотези будуть

  • H0 : Фактичні та прогнозовані показники подій схожі на 10 децилів
  • H1 : вони однакові

Отже, якщо р -значення менше, ніж 0,05, вони недостатньо розподілені, і вам потрібно вдосконалити модель.

Я сподіваюся, що це відповість на ваш запит.


3

Це досить спірне питання наступні @ відповідь FrankHarrell, але шанувальник тесту H-L буде вивести з цього результату , що , незважаючи на ваше включення квадратичних членів і деякі взаємодій другого порядку, модель все ще показала значний недолік нападу, і що , можливо , ще більш складна модель була б доречною. Ви випробовуєте відповідність саме вказаної вами моделі, а не простої моделі першого порядку.

† Це не повна модель другого порядку - три взаємодії.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.