Родина GLM представляє розподіл змінної відповіді або залишків?


13

Я обговорював з декількома членами лабораторії про це, і ми перейшли до кількох джерел, але все ще не дуже відповіді:

Коли ми кажемо, що у GLM є сім'я пуассонів , скажімо, ми говоримо про розподіл залишків або змінну відповіді?

Суперечки

  1. Читаючи цю статтю, в ній зазначається, що припущеннями GLM є статистична незалежність спостережень, правильна специфікація функції зв’язку та дисперсії (що змушує мене думати про залишки, а не змінну відповіді), правильну шкалу вимірювання змінної відповіді. і відсутність надмірного впливу окремих балів

  2. Це запитання має дві відповіді з двома пунктами кожна, перша, що з’являється перша, говорить про залишки, а друга - про змінну відповіді, що це?

  3. У цьому блозі , коли говорять про припущення, вони заявляють: " Розподіл залишків може бути іншим, наприклад, двочленним "

  4. На початку цієї глави вони кажуть, що структура помилок повинна бути Пуассоном, але залишки обов'язково матимуть позитивні та негативні значення, як це може бути Пуассон?

  5. На це запитання, яке часто цитується в таких питаннях, як це для їх дублювання, немає прийнятої відповіді

  6. На це запитання відповіді говорять про відповідь, а не про залишки

  7. У цьому описі курсу з Університету Пенсільванії вони говорять про змінну відповідей у ​​припущеннях, а не про залишки

Відповіді:


18

Сім'ї аргумент GLM моделей визначає сімейство розподілу для умовного розподілу відповіді , а не з залишків (за винятком квазі -моделей).

Подивіться так: Для звичайної лінійної регресії модель можемо записати як Це означає, що відповідь має нормальний розподіл (з постійною дисперсією), але очікування різне для кожного . Тому умовний розподіл відповіді - це нормальний розподіл (але різний для кожного ). Інший спосіб написання цієї моделі - де кожен поширюється .

YiNormal(β0+xiTβ,σ2).
Yiii
Yi=β0+xiTβ+ϵi
ϵiNormal(0,σ2)

Отже, для звичайної сім'ї розподілу обидва описи є правильними (якщо їх правильно інтерпретувати). Це тому, що для звичайної лінійної моделі ми маємо розділення в моделі систематичної частини ( ) і частини ( ), які просто додаються. Але для інших сімейних функцій таке розлучення неможливо ! Не існує навіть чіткого визначення того, що означає залишкові засоби (і з цієї причини багато різних визначень «залишкових»).β0+xiTβϵ iϵi

Тож для всіх інших сімей ми використовуємо визначення у стилі першого відображеного рівняння вище. Тобто умовний розподіл відповіді. Отже, ні, залишки (що б не було визначено) в регресії Пуассона не мають розподілу Пуассона.


13

На додаток до чудової відповіді К'єтіла, я хотів додати кілька конкретних прикладів, які допоможуть з’ясувати значення умовного розподілу , що може бути трохи невловимим поняттям.

Скажімо, ви взяли випадкову пробу з 100 риб з озера, і вам цікаво подивитися, як вік риби впливає на кілька змінних результатів:

  1. Вага риби (Вага);
  2. Незалежно від того, чи немає риб довше 30 см;
  3. Кількість лусочок риби.

Перша змінна результат є неперервною, друга - двійковою (0 = риба НЕ довше 30 см; 1 = риба IS довша 30 см), а третя - змінна кількість.

Проста лінійна регресія

Як вік впливає на вагу? Ви збираєтеся сформулювати просту модель лінійної регресії форми:

Weight=β0+β1Age+ϵ

де незалежні, однаково розподілені, після нормального розподілу із середнім значенням 0 та стандартним відхиленням . У цій моделі середнє значення змінної ваги для всіх риб озера, що мають один і той же вік, вважається, що лінійно змінюється залежно від віку. Умовна середня представлена . Його називають умовним, оскільки це середня вага для всіх риб в озері того ж віку . (Беззастережна середня вага була б середньою вагою всіх риб в озері, незалежно від їх віку.) ϵσβ0+β1Age

Проста бінарна логістична регресія

Як вік впливає на те, чи довша риба довша 30 см? Ви збираєтеся сформулювати просту модель бінарної логістичної регресії форми:

log(p1p)=β0+β1Age

де позначає умовну ймовірність того, що риба даного віку перевищує 30см. У цій моделі умовне середнє значення змінної "будь риба довше 30 см чи ні", що відповідає всім рибам озера, що мають один і той же вік, вважається, що лінійно змінюється з віком після подачі на трансформацію логіта. Умовна середня трансформована серед . Ця модель працює, тому що ми припускаємо, що розподіл значень змінної "незалежно від того, чи є риба довше 30 см" для даного віку, є розподілом Бернуллі. Нагадаємо, що для цього розподілу дисперсія є функцією середнього значення, тому, якщо ми можемо оцінити її середнє значення, ми можемо також оцінити його дисперсію.pβ0+β1Agep а дисперсія - .) Див. також https://www.theanalysisfactor.com/link-functions-and-errors-in-logistic-regression/ .p(1p)

Проста пуассонова регресія

Як вік впливає на кількість рибних лусочок? Ви збираєтеся сформулювати просту регресійну модель Пуассона форми:

log(μ)=β0+β1Age

де позначає умовне середнє значення змінної результату "кількість рибних лусочок" для риб певного віку (тобто очікувана кількість рибних лусочок для всіх риб в озері заданого віку). У цій моделі вважається, що умовне середнє значення змінної результату лінійно змінюється з віком після подачі на перетворення журналу. Перетворене в журналі умовне середнє значення представлено . Ця модель працює, тому що ми припускаємо, що розподіл значень змінної "кількості рибних лусочок" для всіх риб в озері даного віку є розподілом Пуассона. Нагадаємо, що для цього розподілу середнє значення та дисперсія рівні, тому достатньо моделювати його середнє значення.μβ0+β1Age

Підсумовуючи, умовний розподіл являє собою розподіл значень результату за конкретними значеннями змінної (-ів) прогноктора, включеної в модель . Кожен тип регресійної моделі, проілюстрований вище, накладає певні розподільні припущення щодо умовного розподілу змінної результату в даному віці. Виходячи з цих припущень розподілу, модель переходить до формулювання того, як (1) середнє умовне розподіл змінюється залежно від віку (проста лінійна регресія), (2) середнє перетворене серед логітом умовного розподілу змінюється як функція вік (проста бінарна логістична регресія) або (3) середньоперетворене середнє значення умовного розподілу змінюється залежно від віку.

Для кожного типу моделі можна визначити відповідні залишки для перевірки моделі. Зокрема, залишки Пірсона та відхилення можуть бути визначені для логістичної та пуассонової регресійних моделей.


2
ВІДКРИТТЯ відповіді. Дякую обом. Я ніколи не усвідомлював, що "фактичний" залишок ніколи насправді не є явним у загальних рамках GLM, як це є у звичайному випадку розподілу.
mlofton

1
@mlofton: Дякую за добрі слова. Відмінне запитання запросило чудові відповіді. Ми всі отримуємо користь від цього обміну знаннями.
Ізабелла Гхемент

4
Я використовував GLM довгий час (рік-два, як 10 років тому), і це завжди було моєю плутаниною, але я ніколи не знав, що це моє заплутання, поки це не було так чітко запитано і пояснено. Тому іноді плутанина означає навіть не в змозі поставити правильне питання. Знову дякую.
mlofton

1
Ви абсолютно праві! Плутанина є частиною навчання - коли ми боремось з чимось деяким часом, ми намагаємось краще зрозуміти це, коли раптом натрапимо на чітке пояснення.
Ізабелла Гхемент

1
Моє задоволення і дякую за відмінну відповідь @IsabellaGhement
Патрік
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.