Як розподіл терміна помилки впливає на розподіл відповіді?


14

Отже, коли я припускаю, що умови помилки зазвичай розподіляються в лінійній регресії, що це означає для змінної відповіді,y ?

Відповіді:


7

Можливо, я пішов, але я думаю, що нам слід було б задатися питанням про , саме так я читаю ОП. У самому простому випадку лінійної регресії, якщо ваша модель y = X β + ϵ, то єдиною стохастичною складовою у вашій моделі є термін помилки. Як такий він визначає розподіл вибірки y . Якщо ϵ N ( 0 , σ 2 I ), то y | X , β N ( X β ,f(y|β,X)y=Xβ+ϵyϵN(0,σ2I) . Однак, що говорить @Aniko, безумовно, стосується f ( y ) (незначно над X , β ). Отже, питання стоїть трохи розпливчасто.y|X,βN(Xβ,σ2I)f(y)X,β


Мені подобаються всі коментарі! І всі вони, здається, мають рацію. Але я просто шукав найпростішу відповідь :) Що відбувається, коли ви припускаєте, що термін помилки розподілений нормально. Що це відбувається зараз дуже часто, насправді стає зрозуміло з інших відповідей! Дуже дякую!
MarkDollar

17

Коротка відповідь полягає в тому, що ви нічого не можете зробити висновок про розподіл , оскільки це залежить від розподілу x і сили та форми відносини. Більш формально, у вас буде розподіл "суміші нормалів", який на практиці може бути майже будь-яким.yxy

Ось два крайніх приклади, щоб проілюструвати це:

  1. Припустимо, є лише два можливі значення , 0 an 1 і y = 10 x + N ( 0 , 1 ) . Тоді y матиме сильно бімодальний розподіл із шишками при 0 та 10.xy=10x+N(0,1)y
  2. Тепер припустимо те саме співвідношення, але нехай рівномірно розподілений на інтервалі 0-1 з великою кількістю значень. Тоді y буде майже рівномірно розподілений через інтервал 0-10 (з деякими напів нормальними хвостами на краях).xy

Насправді, оскільки кожен розподіл можна наблизити довільно добре із сумішшю нормалей, ви дійсно можете отримати будь-який розподіл для .y


8
+1 Перегляньте останнє твердження: Я одного разу помилився, вважаючи це. Математично ви правильні, але на практиці майже неможливо зблизити недиференційований шип з нормалами (наприклад, розподілами у формі J або U): нормали просто занадто плоскі на своїх вершинах, щоб захопити щільність в шипах. Вам потрібно занадто багато компонентів. Нормальні показники добре підходять для наближення розподілів, у яких pdfs дуже гладкі.
whuber

1
@whuber Погодився. Я б не пропонував використовувати наближення нормальної суміші для будь-якого розподілу на практиці, я просто намагався навести крайній зустрічний приклад.
Аніко

5

Ми вигадуємо термін помилки, накладаючи вигадану модель на реальні дані; розподіл терміна помилки не впливає на розподіл відповіді.

Ми часто припускаємо, що помилка поширюється нормально, і, таким чином, намагаємося побудувати модель таким чином, щоб наші розрахункові залишки зазвичай розподілялися. Це може бути складно для деяких розподілів . У цих випадках, я думаю, можна сказати, що розподіл відповіді впливає на термін помилки.y


2
«Ми часто намагаємося побудувати модель таким чином, що наш термін помилка зазвичай поширюється» - щоб бути точним, я думаю , що ви маєте на увазі Різниці . Ці оцінки термінів помилок таким же чином , що Х β є оцінкою Е ( у ) = X р . Ми хотіли б, щоб залишки виглядали нормально, адже саме з цього ми припускали умови помилок. Ми «вигадуємо» термін помилки, вказуючи модель, не підходячи до неї. yXβ^Xβ^E(y)=Xβ
JMS

Я згоден з вашою точністю, JMS. +1 і я скорегую свою відповідь.
Томас Левін

2

Якщо ви випишете відповідь як Де m - "модель" (передбачення для y ), а e - "помилки", то це можна перевпорядкувати для позначення y - m = e . Отже, призначити розподіл для помилок - це те саме, що вказати на те, як ваша модель є неповною. Іншим способом - це те, що воно вказує, наскільки ви не знаєте, чому спостережувана реакція була тим значенням, яке вона є насправді, а не тим, що передбачала модель. Якщо ви знали, що ваша модель ідеальна, ви призначили розподіл ймовірності з усією її масою на нуль для помилок. Призначення N (

y=m+e
myeym=e основному говорить про те, що помилки в одиницях σ невеликі. Ідея полягає в тому, що передбачення моделі, як правило, «неправильні» за аналогічних сум для різних спостережень, і є «приблизно правильно» за шкалою σ . На противагу цьому, альтернативне призначення - це C a u c h y ( 0 , γ ), що говорить про те, що більшість помилок невеликі, але деякі помилки досить великі - модель має випадкові "помилки" або "шокер" в плані прогнозування відповіді.N(0,σ2)σσCauchy(0,γ)

У певному сенсі розподіл помилок більш тісно пов'язаний з моделлю, ніж з відповіддю. Це видно з неідентифікованості вищевказаного рівняння, оскільки якщо і і e невідомі, тоді додавання довільного вектора до m і віднімання його від e призводить до однакового значення y , y = m + e = ( m + b ) + ( e - b ) = m + e memeyy=m+e=(m+b)+(eb)=m+e. Присвоєння розподілу помилок та рівняння моделі в основному говорить про те, які довільні вектори є більш правдоподібними, ніж інші.


"Це здається дивним, оскільки ви будете спостерігати y лише один раз і лише один раз (y - це повна вектор / матриця / тощо. Відповідей). Як це можна" розподілити "? На мій погляд, він може бути поширений лише в якомусь уявному ансамблі, не має нічого спільного з вашою реальною спостережуваною відповіддю. Принаймні, будь-яка така презумпція відповіді "розповсюджена" є незаперечною "я плутаюся; ти кажеш, що ми не можемо перевірити проти H 1 : y f 1 ? H0:yf0H1:yf1
JMS

ні, вибачте, це не може бути тим, що ви говорите. Я все ще розгублений. Можливо, це трохи неточно, але, як я читав, він отримав зразків y i з Y з фіксованим x i , його модель Y = X β + ϵ , і йому цікаво, що передбачає розподіл ϵ означає розподіл Y | β , X за його моделлю . Тут би випливало, що це нормально; ми можемо перевірити це на нашому зразкуnyiYxiY=Xβ+ϵϵY|β,X
JMS

@JMS - Я думаю, я міг би видалити цей перший абзац. Я не думаю, що це щось додає до моєї відповіді (крім плутанини).
ймовірністьлогічний

одна з моїх улюблених речей, яку слід додати до моїх відповідей :)
JMS
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.