Чому регресія щодо дисперсії?


19

Я читаю цю замітку .

На сторінці 2 зазначено:

"Скільки дисперсії в даних пояснюється заданою регресійною моделлю?"

"Інтерпретація регресії - це середнє значення коефіцієнтів; умовивід - про їх відмінність."

Я неодноразово читав про подібні твердження, чому ми б хвилювались про те, «скільки дисперсії в даних пояснюється даною регресійною моделлю?» ... точніше, чому «дисперсія»?


"[V] ariance" на відміну від стандартного відхилення? Що ви думаєте, що нам слід було б піклуватися про регресію? Які ваші типові цілі в побудові регресійної моделі?
gung - Відновіть Моніку

Дисперсія має різні одиниці, ніж кількість, що моделюється, тому мені завжди було важко інтерпретувати "пропорцію дисперсії, пояснену моделлю".
летить

Відповіді:


18

чому ми б переймалися тим, "яка кількість дисперсії в даних пояснюється даною регресійною моделлю?"

Щоб відповісти на це, корисно подумати, що саме означає, що певний відсоток дисперсії пояснюється регресійною моделлю.

Нехай Y1,...,Yn - змінна результату. Звичайна дисперсія вибірки залежної змінної в регресійній моделі дорівнює Тепер нехайє передбаченнямна основі лінійних мінімум квадратів модель регресії зі значеннями. Як доведенотут, ця дисперсія вище може бути розділена на:

1n1i=1n(YiY¯)2
YяXя1Y^if^(Xi)YiXi
1n1i=1n(YiY¯)2=1n1i=1n(YiY^i)2residual variance+1n1i=1n(Y^iY¯)2explained variance

Щонайменше при регресії квадратів середнє значення передбачуваних значень становить , тому загальна дисперсія дорівнює усередненій різниці у квадраті між спостережуваними та прогнозованими значеннями (залишкова дисперсія) плюс вибіркова дисперсія самих прогнозів (пояснено дисперсія), які є лише функцією s . Тому "пояснену" дисперсію можна розглядати як дисперсію у що можна віднести до варіації . Частка дисперсії в яка "пояснюється" (тобто пропорція варіації у що можна віднести до варіації XYiXiYiYiXiR2Y¯XYiXiYiYiXi) іноді називають . R2

Зараз ми використовуємо два крайніх приклади, які дозволяють зрозуміти, чому таке розкладання дисперсії важливе:

  • (1) Прогнози не мають нічого спільного з відповідями . У цьому випадку найкращим неупередженим передбачувачем (у значенні найменших квадратів) для є . Тому загальна дисперсія в просто дорівнює залишкової дисперсії і не має відношення до дисперсії в предикторах .Y я = ¯ Y Y я X яYiY^i=Y¯YiXi

  • (2) Провідники ідеально лінійно пов'язані з предикторами . У цьому випадку прогнози є абсолютно правильними і . Тому немає залишкової дисперсії, і вся дисперсія в результаті є дисперсією в самих прогнозах, які є лише функцією предикторів. Тому вся розбіжність у результаті є просто розбіжністю прогнозів .XяY^i=YiXi

Ситуації з реальними даними часто лежать між двома крайнощами, як і частка дисперсії, яку можна віднести до цих двох джерел. Чим більше "поясненої дисперсії" є - тобто чим більше варіації пов'язано з варіацією - тим краще прогнози виконуються (тобто чим менше "залишкова дисперсія" є), що є ще одним способом сказати, що модель з найменшими квадратами добре підходить. Х я У яYiXiY^i


Це як моя відповідь, але, можливо, трохи краще пояснено. Також я бачу можливу критику, яку можна було б згадати, це те, що я повинен був написати варіацію відносно середнього значення Y.
Michael R. Chernick

1
@MichaelChernick, так, але, принаймні, регресія квадратів (про яку я думаю, що ОП говорить на основі пов'язаних слайдів), середнє значення прогнозованих значень дорівнює середньому значенню s, тому ви можете просто назвати його вибірковою дисперсією прогнози Y
Макрос

Я змінив свою відповідь, тому що Yb потрібен для правильної роботи дисперсії.
Майкл Р. Черник

Так, мені було зрозуміло, що вона має на увазі найменшу регресію квадратів. Ще багато того, що ви написали, - це просто повторення того, що я сказав трохи інакше. Я все-таки дав вам +1.
Майкл Р. Черник

1
Макрос, моя думка полягала в тому, що це розкладання відбувається лише в тому випадку, якщо і тому "регресія" по суті включає ортогональну проекцію на простір, що містить постійний вектор. Зауважте, що ми можемо легко "зламати" це розкладання, просто видаливши постійний вектор з нашої моделі, що, здається, суперечить вашому останньому коментарю. yy^,y^y¯1=0
кардинал

9

Я не можу бігати з великими собаками статистики, які відповіли перед мною, і, можливо, моє мислення є наївним, але я дивлюся на це так ...

Уявіть, що ви в машині, і ви їдете по дорозі і повертаєте колесо вліво-вправо і несамовито натискаєте на педаль газу та гальмо. І все ж автомобіль рухається плавно, не впливаючи на ваші дії. Ви відразу підозріли б, що ви не були у справжньому автомобілі, і, можливо, якщо б ми придивились уважно, то визначили б, що ви їдете в Світ Діснея. (Якби ви були у справжньому автомобілі, ви загрожували б смертельній небезпеці, але не будемо туди їхати.)

З іншого боку, якщо ви їхали по дорозі в автомобілі і повертали колесо лише трохи вліво або вправо, це призвело до руху автомобіля, натискання на гальмо призвело до сильного сповільнення, а натискання педалі газу відкинуло вас назад у сидіння. Ви можете підозрювати, що ви були у високопродуктивній спортивній машині.

Взагалі, ви, мабуть, переживаєте щось між цими двома крайнощами. Ступінь, в який ваші входи (рульове управління, гальмо, газ) безпосередньо впливають на рух автомобіля, дає вам уявлення про якість автомобіля. Тобто, чим більше дисперсія вашого автомобіля в русі, пов'язана з вашими діями, тим краще автомобіль, і тим більше, що автомобіль рухається незалежно від вашого управління, тим гірше автомобіль.

Аналогічним чином ви говорите про створення моделі для деяких даних (назвемо ці дані ) на основі деяких інших наборів даних (назвемо їх ). Якщо не змінюється, це як машина, яка не рухається, і насправді немає сенсу обговорювати, чи автомобіль (модель) працює добре чи ні, тому ми припустимо, що змінюється.х 1 , х 2 , . . . , x i y yyx1,x2,...,xiyy

Як і автомобіль, модель хорошої якості матиме гарне співвідношення між різними результатами різними входами . На відміну від автомобіля, не обов'язково призводить до зміни , але якщо модель стане в нагоді, потрібно змінити в тісному відношенні до . Іншими словами, пояснити більшу частину дисперсії .x i x i y x i y x i yyxixi yxiyxiy

PS Я не зміг придумати аналогію Вінні Пуха, але спробував.

PPS [EDIT:] Зауважте, що я вирішую саме це питання. Не збивайте з пантелику думки, що якщо ви будете мати 100% дисперсії, ваша модель буде чудово працювати. Вам також потрібно подумати про надмірну підгонку, де ваша модель настільки гнучка, що вона дуже точно підходить до даних тренувань - включаючи її випадкові вигадки та дивацтва. Щоб застосувати аналогію, ви хочете, щоб автомобіль мав гарне рульове управління та гальма, але ви хочете, щоб він добре працював на дорозі, а не лише на тестовій доріжці, яку ви використовуєте.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.