GLM: перевірка вибору функції розподілу та зв'язку


14

У мене є узагальнена лінійна модель, яка приймає функцію Гауссова розподілу та зв'язку каналів. Після встановлення моделі я перевіряю залишки: графік QQ, залишки проти передбачуваних значень, гістограма залишків (визнаючи, що необхідна обережність). Все виглядає добре. Це, мабуть, говорить про те, що вибір гауссового розподілу був досить розумним. Або, принаймні, що залишки відповідають розподілу, який я використовував у своїй моделі.

Q1 : Чи буде занадто далеко, щоб стверджувати, що це підтверджує мій вибір розподілу?

Я вибрав функцію зв’язку журналу, оскільки мінлива відповідь завжди позитивна, але я хотів би підтвердити, що це був вдалий вибір.

Q2 : Чи є якісь тести, такі як перевірка залишків на вибір розподілу, які можуть підтримувати мій вибір функції зв'язку? (Вибір функції зв’язку для мене здається трохи довільним, оскільки єдині вказівки, які я можу знайти, є досить невиразними і махають руками, імовірно, з поважних причин.)


2
Q1. Ви можете спробувати інші дистрибутиви і побачити, чи ефективні вони. Q2. Вибір посилання журналу для забезпечення позитивних прогнозів мені не здається довільним. Це обгрунтування. Але чи отримаєте ви негативні прогнози з посиланням на ідентифікацію та з отриманими вами даними, у свою чергу, перевіряйте. Підсумок: ви не можете зрозуміти, що інші моделі не стануть кращими, поки ви не спробували їх.
Нік Кокс

1
Yдосвід(η)R2

2
R2

Відповіді:


13
  1. Це варіант часто заданого питання щодо того, чи можна стверджувати нульову гіпотезу. У вашому випадку нульовим буде те, що залишки є гауссовими, а візуальний огляд ваших ділянок (qq-графіки, гістограми тощо) є «тестом». (Для загального огляду питання про затвердження нуля, це може допомогти прочитати мою відповідь тут: Чому статистики кажуть, що несуттєвий результат означає «ви не можете відхилити нуль» на відміну від прийняття нульової гіпотези? ) У вашому конкретному випадку ви можете сказати, що сюжети показують, що ваші залишки відповідають вашим припущенням про нормальність, але вони не "підтверджують" припущення.

  2. Ви можете пристосувати свій телевізор , використовуючи різні функції лінії зв'язку і порівняти їх, але не тест однієї функції зв'язку в ізоляції (це, очевидно , не так, див @ Glen_b в відповідь ). У своїй відповіді на різницю між моделями logit і probit (що, можливо, варто прочитати, хоча це не зовсім те саме), я стверджую, що функції посилань слід вибирати виходячи з:

    1. Знання розподілу відповідей,
    2. Теоретичні міркування та
    3. Емпірична відповідність даним.

    YYвід того, щоб стати негативним, це також спонукає конкретну форму до криволінійного відношення. Стандартний графік залишків та встановлених значень (можливо, з накладеною льосовою сумішшю) допоможе вам визначити, чи властива кривина у ваших даних є розумною відповідністю конкретній кривизні, накладеній посиланням на журнал. Як я вже згадував, ви можете також спробувати будь-яку іншу трансформацію, яка відповідає вашим теоретичним критеріям, що вам потрібно, і порівняти ці два варіанти безпосередньо.


16

Чи буде занадто далеко говорити, що це підтверджує мій вибір розподілу?

Це залежить від того, що саме ви маєте на увазі під «валідацією», але я б сказав «так, це надто далеко» так само, як ви не можете сказати «нуль виявляється правдивим» (особливо з точковими нулями, але принаймні в деякому сенсі загальніше). Ви можете по-справжньому сказати "ну, у нас немає твердих доказів того, що це неправильно". Але в будь-якому випадку ми не очікуємо, що наші моделі будуть ідеальними, вони є моделями . Як зазначає Box & Draper, що важливо, " наскільки вони помиляються, щоб не бути корисними? "

Будь-яке з цих двох попередніх речень:

Це, мабуть, говорить про те, що вибір гауссового розподілу був досить розумним. Або, принаймні, що залишки відповідають розподілу, який я використовував у своїй моделі.

набагато точніше описати те, що вказує ваша діагностика - не те, щоб гауссова модель з посиланням на журнал була правильною, - але щоб вона була розумною або відповідала даним.

Я вибрав функцію зв’язку журналу, оскільки мінлива відповідь завжди позитивна, але я хотів би підтвердити, що це був вдалий вибір.

Якщо ви знаєте, що він повинен бути позитивним, то його середнє значення повинно бути позитивним. Розумно вибирати модель, яка принаймні відповідає цьому. Я не знаю, чи це вдалий вибір (цілком може бути набагато кращий вибір), але це розумно робити; це могло бути моєю відправною точкою. [Однак, якщо сама змінна обов'язково є позитивною, моя перша думка, як правило, має бути Гамма з лог-ланкою, а не Гаусса. "Обов'язково позитивний" дійсно пропонує як косості, так і дисперсії, що змінюються із середнім значенням.]

Q2: Чи є якісь тести, такі як перевірка залишків на вибір розподілу, які можуть підтримувати мій вибір функції зв'язку?

Здається, ви не маєте на увазі "тест", як у "тесті на формальну гіпотезу", а як "діагностична перевірка".

У будь-якому випадку відповідь - так, є.

Один формальний тест на гіпотезу - тест на прегібонську доброту зв'язку [1].

Це ґрунтується на вбудовуванні функції зв’язку в сім'ю Box-Cox, щоб зробити тест гіпотези параметру Box-Cox.

Див. Також коротке обговорення тесту Прегібона у Бреслові (1996) [2] ( див. Стор. 14 ).

Однак я настійно раджу дотримуватися діагностичного шляху. Якщо ви хочете перевірити функцію посилання, ви, в основному, це стверджуєте в масштабі посилань,η=г(мк) є лінійним в х, які є в моделі, тому одна основна оцінка може розглянути графік залишків проти прогнокторів. Наприклад,

робочі залишки riW=(уi-мк^i)(ηмк)

(на що я схиляюся до цієї оцінки) або, можливо, дивлячись на відхилення від лінійності у часткових залишках, з одним сюжетом для кожного прогноктора (див., наприклад, Хардін та Хільбе, Узагальнені лінійні моделі та розширення, 2-е видання, сек. 4.5 .4 p54, для визначення),

rкiТ=(уi-мк^i)(ηмк)+хiкβ^к

=riW+хiкβ^к

У тих випадках, коли дані допускають перетворення за допомогою функції зв’язку, ви можете шукати лінійність так само, як і при лінійній регресії (хоча у вас залишилися косості та, можливо, гетерокедастичності).

У випадку категоричних прогнозів вибір функції зв’язку - це скоріше питання зручності чи інтерпретації, відповідність повинна бути однаковою (тому не потрібно оцінювати їх).

Ви також можете поставити діагностику на підході Прегібона.

Вони не утворюють вичерпного списку; Ви можете знайти інші обговорювані діагностики.

[З цього приводу я погоджуюся з оцінкою Гунга, що вибір функції зв’язку повинен спочатку базуватися на таких речах, як теоретичні міркування, де це можливо.]

Дивіться також деякі обговорення в цьому пості , які принаймні частково актуальні.

[1]: Прегібон, Д. (1980),
"Тести на корисність ліній для узагальнених лінійних моделей",
журнал Королівського статистичного товариства. Серія C (Прикладна статистика) ,
Вип. 29, № 1, стор 15-23.

[2]: Breslow NE (1996),
"Узагальнені лінійні моделі: перевірка припущень та посилення висновків",
Statistica Applicata 8 , 23-41.
pdf

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.