Чому GLM відрізняється, ніж LM з перетвореною змінною


16

Як пояснено у цьому розкладі курсу (стор. 1) , лінійну модель можна записати у вигляді:

y=β1x1++βpxp+εi,

де - змінна відповіді, а - пояснювальна змінна .yxiith

Часто з метою задоволення тестових припущень можна перетворити змінну відповіді. Наприклад, ми застосовуємо функцію журналу до кожного . Трансформація змінної відповіді НЕ відповідає рівню GLM.yi

GLM може бути записаний у такій формі (з роздачі курсу знову (стор. 3) )

g(u)=β1x1++βpxp+εi,

де - просто інший символ для як я розумію зі сторінки 2 в роздавальному курсі. називається функцією зв'язку.uyg()

Я не дуже розумію різницю між GLM та LM з перетвореною змінною від слайдів курсу. Чи можете ви мені в цьому допомогти?


2
Вам може бути ілюмінаційним врахувати той факт, що всі перетворення двійкового результату є афінними, що тим самим обмежило б вас звичайною найменшою регресією квадратів. Очевидно, це не те, що досягає логістична регресія (стандартний GLM для бінарних відповідей). (Доведення: нехай значення результатів кодуються як і y 1, і ϕ - будь-яке перетворення. Запис z 0 = ϕ ( y 0 ) і z 1 = ϕ ( y 1 ), ми знаходимо ϕ узгоджується на { yy0y1ϕz0=ϕ(y0)z1=ϕ(y1)ϕ при y λ y + μ (що є афінним перетворенням y ), де λ = ( z 1 - z 0 ) / ( y 1 - y 0 ) і μ = z 0 - λ y 0. ){y0,y1}yλy+μyλ=(z1z0)/(y1y0)μ=z0λy0
whuber

Відповіді:


15

Трансформація відповіді перед лінійною регресією робиться так:

E(g(Y))β0+β1x1++βpxp

де - задана функція, і ми припускаємо, що g ( Y ) має заданий розподіл (як правило, нормальний).gg(Y)

Узагальнена лінійна модель робить це:

g(E(Y))β0+β1x1++βpxp

де такий самий, як і раніше, і вважаємо, що Y має заданий розподіл (як правило, не нормально).gY


що є E у вашому рівнянні?
користувач1406647

1
є стандартним позначенням для середнього значення X . E(X)X
Marcus PS

Я також вважаю це корисним: christoph-scherber.de/content/PDF%20Files/…
Aditya

22

Я не впевнений, чи це стане для вас повною відповіддю, але це може допомогти звільнити концептуальну заваду.

Здається, у вашому обліковому записі є дві помилки:

  1. Майте на увазі, що звичайні найменші квадрати (OLS - «лінійні») регресії є особливим випадком узагальненої лінійної моделі. Таким чином, коли ви говорите "[t] реформування змінної відповіді НЕ прирівнюється до виконання GLM", це неправильно. Встановлення лінійної моделі або перетворення змінної реакції, а потім підключення лінійної моделі є обома "робити GLM".

  2. У стандартній постановці ГЛМ те, що ви називаєте " " (яке часто представлено μ , але це лише питання переваги), є середнім розподілом умовного відгуку у конкретному місці в коваріатному просторі (тобто X ). Таким чином, коли ви говорите "де u - просто інший символ для у ", це також неправильно. У формулюванні OLS Y - випадкова величина і / або y i - реалізоване значення Y для одиниці i спостереження / дослідження . Тобто, y (більш загально) представляє дані , а не параметр . uμXuyYyiYiy

    (Я не маю на увазі помилок, я просто підозрюю, що це може спричинити вашу плутанину.)

  3. Є ще один аспект узагальненої лінійної моделі, який я не бачу, щоб ви згадували. Тобто ми визначаємо розподіл відповідей. У випадку регресії OLS розподіл відповіді - гауссова (нормальна), а функція зв'язку - функція ідентичності. У випадку, скажімо, логістичної регресії (яка може бути те, про що люди спочатку думають, коли думають про ГЛМ), розподіл відповідей - це Бернуллі (/ біноміал), а функцією зв'язку є логіт. Використовуючи перетворення для забезпечення припущень для OLS, ми часто намагаємось зробити розподіл умовного відгуку прийнятним нормальним. Однак жодне таке перетворення не зробить розподіл Бернуллі прийнятним нормальним.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.