Інтерпретація залишкових діагностичних діаграм для моделей GLM?


33

Я шукаю вказівки, як інтерпретувати залишкові сюжети GLM-моделей. Особливо пуассонова, негативна біноміальна, біноміальна моделі. Чого ми можемо очікувати від цих сюжетів, коли моделі "правильні"? (наприклад, ми очікуємо, що дисперсія буде зростати зі збільшенням прогнозованого значення для роботи з моделлю Пуассона)

Я знаю, що відповіді залежать від моделей. Будь-які посилання (або загальні моменти, які слід врахувати) будуть корисними / оціненими.

Відповіді:


16

Я думаю, що це одна з найскладніших частин при проведенні регресійного аналізу. Я також борюся з більшістю інтерпретацій (зокрема біноміальна діагностика божевільна!).

Я щойно натрапив на цю публікацію http://www.r-bloggers.com/model-validation-interpreting-residual-plots/, яка також пов’язала http://statmaster.sdu.dk/courses/st111/module04/index.html # SECTION00020000000000000000

що мені найбільше допомагає - це побудувати залишки проти кожного прогнозованого параметра, включеного І, не включеного в модель. Це означає також і тих, кого заздалегідь відмовилися з міркувань мультиколінеарності. Для цієї коробки відмінно підійдуть умовні розсіювачі та звичайні розсіювачі. це допомагає виявити можливі помилки

У "Лісовій аналітиці з R" (UseR Series) є кілька хороших пояснень, як інтерпретувати залишки для моделей зі змішаними ефектами (і glms також). Добре читайте! http://www.springer.com/statistics/life+sciences,+medicine+%26+health/book/978-1-4419-7761-8

Колись тому я подумав про веб-сайт, який міг би зібрати залишкові шаблони, за які користувачі можуть проголосувати як «добре» та «не добре». але я не знайшов цього веб-сайту;)


8

Я б запропонував методи, описані в:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

Існує кілька різних ідей, але вони здебільшого зводяться до моделювання даних, де ви знаєте, що таке справжнє співвідношення, і це відношення базується на вашому аналізі реальних даних. Потім ви порівнюєте діагностику від реальних даних до діагностики модельованих наборів даних. vis.testФункція в пакеті TeachingDemos для R реалізує варіант 1 з пропозицій , що містяться в документі. Прочитайте весь документ (не лише моє дуже коротке підсумок) для кращого розуміння.


Я думаю, що це чудова пропозиція побачити шаблони, які відхиляються від випадкових у розкиданні чи інших сюжетах, але це не єдина мета при перегляді залишків. Часто нас цікавлять особливі відхилення від випадкових випадків (наприклад, гетерооскедастичність, неправильно визначена нелінійність у моделі, опущені змінні, залишки або високі значення важеля тощо). Порівняння випадкових даних, що генеруються випадковим чином, насправді не допомагає визначити, чому залишки не є випадковими, ані засоби захисту.
Енді Ш

@AndyW, я думаю, що ми по-різному інтерпретуємо оригінальне питання. Мою відповідь дослідник розпочинає, повідомляючи їм, чи є щось більше, що їм потрібно шукати, або, якщо залишковий сюжет є розумним. Що робити, якщо це не виглядає розумним - це наступний крок і поза моєю відповіддю (хоча деякі додаткові припущення можна порівняти, використовуючи новий набір моделювання).
Грег Сног

5

Це питання досить старе, але я вважав, що було б корисно додати, що з недавнього часу ви можете використовувати пакет DHARMa R для перетворення залишків будь-якого GL (M) M в стандартизований простір. Після цього ви зможете візуально оцінити / перевірити залишкові проблеми, такі як відхилення від розподілу, залишкова залежність від предиктора, гетерокедастичність або автокореляція у звичайний спосіб. Дивіться віньєтку на упаковці для детально пророблених прикладів, а також інші питання щодо резюме тут і тут .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.