Я спробую пояснити це простими словами.
Модель регресії фокусується на взаємозв'язку між залежною змінною та набором незалежних змінних. Залежна змінна - це результат, який ви намагаєтеся передбачити, використовуючи одну або кілька незалежних змінних.
Припустимо, у вас є така модель:
Вага_i = 3,0 + 35 * Висота_i + ε
Тепер одне з очевидних питань: наскільки добре працює ця модель? Іншими словами, наскільки добре ріст людини точно прогнозує - або пояснює - вагу цієї людини?
Перш ніж відповісти на це запитання, спершу треба зрозуміти, скільки коливань ми спостерігаємо у вазі людей. Це важливо, адже те, що ми намагаємось тут зробити, - це пояснити коливання (зміни) ваг у різних людей, використовуючи їх висоту. Якщо зріст людей здатний пояснити цю різницю у вазі, то у нас є гарна модель.
Дисперсія є хорошою метрикою бути використано для цієї мети, так як він вимірює , наскільки це набір чисел розкладені (від їх середнього значення).
Це допомагає нам переосмислити своє первісне запитання: скільки розходження у вазі людини можна пояснити його ростом ?
Звідси походить “пояснене відхилення в%”. До речі, для регресійного аналізу він дорівнює коефіцієнту кореляції R-квадрата .
Для наведеної вище моделі ми могли б зробити таке твердження, як: Використовуючи регресійний аналіз, можна було встановити модель прогнозування, використовуючи зріст людини, який пояснює 60% відхилення у вазі ».
Тепер, наскільки добре 60%? Про це важко зробити об'єктивне судження. Але якщо у вас є інші конкуруючі моделі - скажімо, інша регресійна модель, яка використовує вік людини для прогнозування її / її ваги - ви можете порівнювати різні моделі, виходячи з того, скільки дисперсії пояснюється ними, і вирішити, яка модель краща. (Є деякі застереження до цього, див. "Інтерпретація та використання регресії" - Крістофер Х. Ахен http://www.sagepub.in/books/Book450/authors )