Отже, коли я припускаю, що умови помилки зазвичай розподіляються в лінійній регресії, що це означає для змінної відповіді, ?
Отже, коли я припускаю, що умови помилки зазвичай розподіляються в лінійній регресії, що це означає для змінної відповіді, ?
Відповіді:
Можливо, я пішов, але я думаю, що нам слід було б задатися питанням про , саме так я читаю ОП. У самому простому випадку лінійної регресії, якщо ваша модель y = X β + ϵ, то єдиною стохастичною складовою у вашій моделі є термін помилки. Як такий він визначає розподіл вибірки y . Якщо ϵ ∼ N ( 0 , σ 2 I ), то y | X , β ∼ N ( X β , . Однак, що говорить @Aniko, безумовно, стосується f ( y ) (незначно над X , β ). Отже, питання стоїть трохи розпливчасто.
Коротка відповідь полягає в тому, що ви нічого не можете зробити висновок про розподіл , оскільки це залежить від розподілу x і сили та форми відносини. Більш формально, у вас буде розподіл "суміші нормалів", який на практиці може бути майже будь-яким.
Ось два крайніх приклади, щоб проілюструвати це:
Насправді, оскільки кожен розподіл можна наблизити довільно добре із сумішшю нормалей, ви дійсно можете отримати будь-який розподіл для .
Ми вигадуємо термін помилки, накладаючи вигадану модель на реальні дані; розподіл терміна помилки не впливає на розподіл відповіді.
Ми часто припускаємо, що помилка поширюється нормально, і, таким чином, намагаємося побудувати модель таким чином, щоб наші розрахункові залишки зазвичай розподілялися. Це може бути складно для деяких розподілів . У цих випадках, я думаю, можна сказати, що розподіл відповіді впливає на термін помилки.
Якщо ви випишете відповідь як Де m - "модель" (передбачення для y ), а e - "помилки", то це можна перевпорядкувати для позначення y - m = e . Отже, призначити розподіл для помилок - це те саме, що вказати на те, як ваша модель є неповною. Іншим способом - це те, що воно вказує, наскільки ви не знаєте, чому спостережувана реакція була тим значенням, яке вона є насправді, а не тим, що передбачала модель. Якщо ви знали, що ваша модель ідеальна, ви призначили розподіл ймовірності з усією її масою на нуль для помилок. Призначення N (
У певному сенсі розподіл помилок більш тісно пов'язаний з моделлю, ніж з відповіддю. Це видно з неідентифікованості вищевказаного рівняння, оскільки якщо і і e невідомі, тоді додавання довільного вектора до m і віднімання його від e призводить до однакового значення y , y = m + e = ( m + b ) + ( e - b ) = m ′ + e ′. Присвоєння розподілу помилок та рівняння моделі в основному говорить про те, які довільні вектори є більш правдоподібними, ніж інші.