На додаток до чудової відповіді К'єтіла, я хотів додати кілька конкретних прикладів, які допоможуть з’ясувати значення умовного розподілу , що може бути трохи невловимим поняттям.
Скажімо, ви взяли випадкову пробу з 100 риб з озера, і вам цікаво подивитися, як вік риби впливає на кілька змінних результатів:
- Вага риби (Вага);
- Незалежно від того, чи немає риб довше 30 см;
- Кількість лусочок риби.
Перша змінна результат є неперервною, друга - двійковою (0 = риба НЕ довше 30 см; 1 = риба IS довша 30 см), а третя - змінна кількість.
Проста лінійна регресія
Як вік впливає на вагу? Ви збираєтеся сформулювати просту модель лінійної регресії форми:
Weight=β0+β1∗Age+ϵ
де незалежні, однаково розподілені, після нормального розподілу із середнім значенням 0 та стандартним відхиленням . У цій моделі середнє значення змінної ваги для всіх риб озера, що мають один і той же вік, вважається, що лінійно змінюється залежно від віку. Умовна середня представлена . Його називають умовним, оскільки це середня вага для всіх риб в озері того ж віку . (Беззастережна середня вага була б середньою вагою всіх риб в озері, незалежно від їх віку.) ϵσβ0+β1∗Age
Проста бінарна логістична регресія
Як вік впливає на те, чи довша риба довша 30 см? Ви збираєтеся сформулювати просту модель бінарної логістичної регресії форми:
log(p1−p)=β0+β1∗Age
де позначає умовну ймовірність того, що риба даного віку перевищує 30см. У цій моделі умовне середнє значення змінної "будь риба довше 30 см чи ні", що відповідає всім рибам озера, що мають один і той же вік, вважається, що лінійно змінюється з віком після подачі на трансформацію логіта. Умовна середня трансформована серед . Ця модель працює, тому що ми припускаємо, що розподіл значень змінної "незалежно від того, чи є риба довше 30 см" для даного віку, є розподілом Бернуллі. Нагадаємо, що для цього розподілу дисперсія є функцією середнього значення, тому, якщо ми можемо оцінити її середнє значення, ми можемо також оцінити його дисперсію.pβ0+β1∗Agep а дисперсія - .) Див. також https://www.theanalysisfactor.com/link-functions-and-errors-in-logistic-regression/ .p∗(1−p)
Проста пуассонова регресія
Як вік впливає на кількість рибних лусочок? Ви збираєтеся сформулювати просту регресійну модель Пуассона форми:
log(μ)=β0+β1∗Age
де позначає умовне середнє значення змінної результату "кількість рибних лусочок" для риб певного віку (тобто очікувана кількість рибних лусочок для всіх риб в озері заданого віку). У цій моделі вважається, що умовне середнє значення змінної результату лінійно змінюється з віком після подачі на перетворення журналу. Перетворене в журналі умовне середнє значення представлено . Ця модель працює, тому що ми припускаємо, що розподіл значень змінної "кількості рибних лусочок" для всіх риб в озері даного віку є розподілом Пуассона. Нагадаємо, що для цього розподілу середнє значення та дисперсія рівні, тому достатньо моделювати його середнє значення.μβ0+β1∗Age
Підсумовуючи, умовний розподіл являє собою розподіл значень результату за конкретними значеннями змінної (-ів) прогноктора, включеної в модель . Кожен тип регресійної моделі, проілюстрований вище, накладає певні розподільні припущення щодо умовного розподілу змінної результату в даному віці. Виходячи з цих припущень розподілу, модель переходить до формулювання того, як (1) середнє умовне розподіл змінюється залежно від віку (проста лінійна регресія), (2) середнє перетворене серед логітом умовного розподілу змінюється як функція вік (проста бінарна логістична регресія) або (3) середньоперетворене середнє значення умовного розподілу змінюється залежно від віку.
Для кожного типу моделі можна визначити відповідні залишки для перевірки моделі. Зокрема, залишки Пірсона та відхилення можуть бути визначені для логістичної та пуассонової регресійних моделей.