Як перевірити, чи добре моя регресійна модель


10

Один із способів знайти точність моделі логістичної регресії за допомогою 'glm' - це знайти графік AUC. Як перевірити те саме для регресійної моделі, знайденої з змінною безперервної відповіді (family = 'gaussian')?

Які методи використовуються для перевірки того, наскільки моя модель регресії відповідає даним?


Ви можете поглянути на r-squaredтег і goodness-of-fitтег ..
Макрос

2
Сім'я "Гаусса" з лінійною ланкою - це просто звичайна регресія найменших квадратів (OLS); методи перевірки таких пристосувань, ймовірно, обговорюються в тисячі питань на цьому сайті (я не перебільшую).
whuber

Ця тема актуальна: stats.stackexchange.com/q/414349/121522
mkt -

Відповіді:


15

Я б запропонував для початку короткий пошук " діагностики лінійної регресійної моделі ". Але ось кілька, які я б запропонував вам перевірити:

Переконайтеся, що припущення задоволено

  • Використовуйте розсіювач або компонент плюс залишковий графік, щоб вивчити лінійну залежність між незалежними прогнокторами та залежною змінною.

  • Складіть графік із стандартизованою залишковою та прогнозованою величиною та переконайтесь, що не існує крайньої точки з дуже високою залишковою здатністю, а поширення залишків значною мірою подібне по прогнозованому значенню, а також поширюється значною мірою однаково вище середнього та нижче середнього залишку, нуль.

  • Ви також можете змінити вісь y на залишкову . Цей сюжет допомагає виявити неоднакову дисперсію.2

  • Перегляньте проект дослідження, щоб переконатися, що здобуття незалежності є розумним.

  • Отримайте статистику коефіцієнта дисперсії дисперсії (VIF) або статистику толерантності для вивчення можливої ​​колінеарності.

Вивчити потенційні впливові точки

  • Перевірте такі статистичні дані, як D, DFits або DF Beta, щоб дізнатися, чи певна точка даних різко змінює ваші результати регресії. Більше ви можете знайти тут .

Вивчіть зміну статистики та скориговану статистикуR 2R2R2

  • Будучи відношенням регресійної суми квадратів до загальної суми квадратів, може сказати вам, скільки відсотків змінності вашої залежної змінної пояснюється моделлю.R2
  • Відрегульований може бути використаний для перевірки, чи дійсна додаткова сума квадратів, приведених моїми додатковими передбачувачами, дійсно варті тих ступенів свободи, які вони візьмуть.R2

Перевірте необхідну взаємодію

  • Якщо є головний незалежний предиктор, перш ніж робити будь-яку інтерпретацію його незалежного ефекту, перевірте, чи він взаємодіє з іншими незалежними змінними. Взаємодія, якщо її не змінити, може змінити вашу оцінку.

Застосуйте вашу модель до іншого набору даних і перевірте її продуктивність

  • Ви також можете застосувати формулу регресії до інших окремих даних і побачити, наскільки добре вона прогнозує. Такий графік, як графік розкидання та статистика, як% різниця від спостережуваного значення, може послужити хорошим початком.

2
(+1): Дуже повна відповідь! Якщо ви використовуєте R, plot.lmможна дати більшість діагностичних діаграм, про які згадує Penguin_Knight.
Зак

4

Мені подобається перехресне підтвердження регресійних моделей, щоб побачити, наскільки добре вони узагальнені до нових даних. Мій показник вибору - це середня абсолютна помилка на перехресних перевірених даних, але помилка кореневого середнього квадрата є більш поширеною і однаково корисною.

Я не вважаю, що R2 є хорошим показником того, наскільки добре відповідає ваша модель навчальних даних, оскільки майже будь-яка метрика помилок, розрахована на дані тренувань, буде схильна до надмірного розміщення. Якщо ви повинні обчислити R2 на навчальному наборі, я пропоную скористатися скоригованим R2 .


1

Ви можете використовувати щоб перевірити, наскільки ваша модель відповідає навчальним даним. Це скаже вам, який відсоток дисперсії в даних пояснюється моделлю.R2

Я пропоную використати RMSE (середньоквадратичну помилку) ваших прогнозів для тестового набору в порівнянні з фактичним значенням. Це стандартний метод повідомлення про помилку прогнозування суцільної змінної.


1
@Macro Але питання спочатку запитувало показник ефективності для регресії OLS з гауссовими помилками. Він виходить з логістичної регресії.
Ерік

@Erik, дякую, я неправильно прочитав. У будь-якому випадку, стосовно першої частини, я не думаю, що , ізольовано, може бути використаний для «перевірки, чи хороша моя регресивна модель», щоб використовувати слова ОП. Ваша модель могла б не вдало ефективно передбачити переважну більшість даних, зберігаючи високий . Дивіться тут для прикладу - у прикладі (1) майже немає прогнозної потужності, але все ще високий. R 2 R 2R2R2R2
Макрос

@Macro, я згоден з вашими коментарями, але мав на меті просте пояснення, щоб направити ОП у правильному напрямку
BGreene

0

Мене використовують для перевірки функціональної форми мого оцінювача параметрів шляхом побудови непараметричної (наприклад, регресія ядра) або напівпараметричної оцінки та порівняння її з параметрично встановленою кривою. Я думаю, що це на першому кроці часто швидше (і, можливо, більш проникливе), ніж включення термінів взаємодії або термінів вищого порядку.

Пакет R np забезпечує багато приємних непараметричних і напівпараметричних функцій, а його віньєтка добре написана: http://cran.r-project.org/web/packages/np/vignettes/np.pdf

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.