Я не можу бігати з великими собаками статистики, які відповіли перед мною, і, можливо, моє мислення є наївним, але я дивлюся на це так ...
Уявіть, що ви в машині, і ви їдете по дорозі і повертаєте колесо вліво-вправо і несамовито натискаєте на педаль газу та гальмо. І все ж автомобіль рухається плавно, не впливаючи на ваші дії. Ви відразу підозріли б, що ви не були у справжньому автомобілі, і, можливо, якщо б ми придивились уважно, то визначили б, що ви їдете в Світ Діснея. (Якби ви були у справжньому автомобілі, ви загрожували б смертельній небезпеці, але не будемо туди їхати.)
З іншого боку, якщо ви їхали по дорозі в автомобілі і повертали колесо лише трохи вліво або вправо, це призвело до руху автомобіля, натискання на гальмо призвело до сильного сповільнення, а натискання педалі газу відкинуло вас назад у сидіння. Ви можете підозрювати, що ви були у високопродуктивній спортивній машині.
Взагалі, ви, мабуть, переживаєте щось між цими двома крайнощами. Ступінь, в який ваші входи (рульове управління, гальмо, газ) безпосередньо впливають на рух автомобіля, дає вам уявлення про якість автомобіля. Тобто, чим більше дисперсія вашого автомобіля в русі, пов'язана з вашими діями, тим краще автомобіль, і тим більше, що автомобіль рухається незалежно від вашого управління, тим гірше автомобіль.
Аналогічним чином ви говорите про створення моделі для деяких даних (назвемо ці дані ) на основі деяких інших наборів даних (назвемо їх ). Якщо не змінюється, це як машина, яка не рухається, і насправді немає сенсу обговорювати, чи автомобіль (модель) працює добре чи ні, тому ми припустимо, що змінюється.х 1 , х 2 , . . . , x i y yyx1,x2,...,xiyy
Як і автомобіль, модель хорошої якості матиме гарне співвідношення між різними результатами різними входами . На відміну від автомобіля, не обов'язково призводить до зміни , але якщо модель стане в нагоді, потрібно змінити в тісному відношенні до . Іншими словами, пояснити більшу частину дисперсії .x i x i y x i y x i yyxixi yxiyxiy
PS Я не зміг придумати аналогію Вінні Пуха, але спробував.
PPS [EDIT:] Зауважте, що я вирішую саме це питання. Не збивайте з пантелику думки, що якщо ви будете мати 100% дисперсії, ваша модель буде чудово працювати. Вам також потрібно подумати про надмірну підгонку, де ваша модель настільки гнучка, що вона дуже точно підходить до даних тренувань - включаючи її випадкові вигадки та дивацтва. Щоб застосувати аналогію, ви хочете, щоб автомобіль мав гарне рульове управління та гальма, але ви хочете, щоб він добре працював на дорозі, а не лише на тестовій доріжці, яку ви використовуєте.