Розподіл помилок для лінійної та логістичної регресії


9

При безперервних даних лінійна регресія передбачає, що термін помилки розподіляється N (0, )Y=β1+β2X2+uσ2

1) Чи вважаємо ми, що Var (Y | x) аналогічно ~ N (0, )?σ2

2) Що таке розподіл помилок при логістичній регресії? Коли дані є у формі 1 запису на випадок, де "Y" дорівнює 1 або 0, це термін помилки, розподілений Бернуллі (тобто дисперсія дорівнює p (1-p))), і коли дані є у формі # успіхи з #of випробувань, чи вважається двочленним (тобто дисперсія - np (1-p)), де p - ймовірність того, що Y дорівнює 1?


2
Ви не надто точні. Припущення моделі полягає в тому, що умови помилки незалежні і однаково розподілені з розподілом, який дорівнює N (0, σ ) і не має відношення до COVARIATE. Що таке Var (Y | x)? Ви кондиціонуєтесь на X = x? Чи вважає модель, що коваріат якимось випадковим чином, або ми вважаємо, що коваріат фіксується відповідно до матриці проектування? Я думаю, що це останнє, і тому Var (Y | X = x) має на увазі припущення, і його не потрібно вважати. 222
Майкл Р. Черник

@MichaelChernick Чому модель передбачає, що виправлено? Це, безумовно, може бути виправданим, але може бути і випадковим. Ніщо в питанні не означає жодного для мене. X2
Пітер Флом

@PeterFlom Я читав у запитанні, що лінійна регресія з таким припущенням розподілу помилок означала OLS, що вимагає виправлення та відомості X . Якщо у когось є регресія Демінга (тобто помилка регресії змінних), це буде вказано у запитанні. Дивлячись на відповідь, яку Дав Стат, вказує, що він так і інтерпретував питання. 2
Майкл Р. Черник

@Michael, я припускав, що виправлено X.
B_Miner

Відповіді:


10

1) Якщо uмає нормальний розподіл, тобто тоді , оскільки не є випадковим змінна.N(0,σ2)Var(Y|X2)=Var(β1+β2X2)+Var(u)=0+σ2=σ2β1+β2X2

2) У логістичній регресії передбачається, що помилки слідують за біноміальним розподілом, як згадується тут . Краще записати його як , оскільки ці ймовірності залежать від , на яку посилається тут або в Прикладній логістичній регресії .Var(Yj|Xj)=mj.E[Yj|Xj].(1E[Yj|Xj])=mjπ(Xj).(1π(Xj))Xj


Stat, Отже, правильно сказати, що дисперсія для i-ї індивідуальної помилки, , є (1- ), що еквівалентно тому, що ви показали, припускаючи, що в даних більше одного спостереження з тим же коваріатом шаблон (тобто = 1 для всіх j)? eipipimj
B_Miner

2
Так, це правильно. Якщо з , то з ймовірністю або з вірогідністю . Отже, має розподіл із середнім та дисперсією, рівним . Yi=pi+eiP(Yi=1)=1P(Yi=0)=piei=1pipiei=pi1piei0pi(1pi)
Стат.

Одним додатковим моментом тут, Стати, ми повинні припустити, що X є фіксованими, не випадковими для Var (Y | X) = Var (e), як для випадків лінійної, так і для логістичної регресії правильною?
B_Miner

NB з ймовірністю або з ймовірністю це НЕ біноміальний розподіл для . ei=1pipiei=pi1piei
Scortchi

B_Miner: ім'я ім'я означає дисперсію умовну для випадкової величини , яка приймає спостережуване значення . Тож неважливо, чи ваші прогнози фіксуються експериментом чи спостерігаються у вибірці: те, що стверджує @ Stat, - це те, що вони більше не розглядаються як випадкові величини для регресії. Var(Y|X)=Var(Y|X=x)YXx
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.