Пояснення варіації моделі регресії


13

Це може бути простим поясненням (я все одно сподіваюся).

Я зробив аналіз регресії в Matlab, використовуючи інструмент регресії. Однак я натрапив на дослідження, яке говорить про це:

"За допомогою регресійного аналізу вдалося встановити модель прогнозування, використовуючи лише чотири звукові функції, які пояснюють 60% дисперсії"

Посилання на статтю знаходиться за необхідності: Стаття

Я не на 100% впевнений, що це означає, але сподіваюся, що це щось просте. Також на 60% це добре? Я намагався шукати це, але оскільки перед словом «дисперсія» завжди є відсоток, відповідь важко знайти.

Відповіді:


9

Я спробую пояснити це простими словами.

Модель регресії фокусується на взаємозв'язку між залежною змінною та набором незалежних змінних. Залежна змінна - це результат, який ви намагаєтеся передбачити, використовуючи одну або кілька незалежних змінних.

Припустимо, у вас є така модель:

Вага_i = 3,0 + 35 * Висота_i + ε

Тепер одне з очевидних питань: наскільки добре працює ця модель? Іншими словами, наскільки добре ріст людини точно прогнозує - або пояснює - вагу цієї людини?

Перш ніж відповісти на це запитання, спершу треба зрозуміти, скільки коливань ми спостерігаємо у вазі людей. Це важливо, адже те, що ми намагаємось тут зробити, - це пояснити коливання (зміни) ваг у різних людей, використовуючи їх висоту. Якщо зріст людей здатний пояснити цю різницю у вазі, то у нас є гарна модель.

Дисперсія є хорошою метрикою бути використано для цієї мети, так як він вимірює , наскільки це набір чисел розкладені (від їх середнього значення).

Це допомагає нам переосмислити своє первісне запитання: скільки розходження у вазі людини можна пояснити його ростом ?

Звідси походить “пояснене відхилення в%”. До речі, для регресійного аналізу він дорівнює коефіцієнту кореляції R-квадрата .

Для наведеної вище моделі ми могли б зробити таке твердження, як: Використовуючи регресійний аналіз, можна було встановити модель прогнозування, використовуючи зріст людини, який пояснює 60% відхилення у вазі ».

Тепер, наскільки добре 60%? Про це важко зробити об'єктивне судження. Але якщо у вас є інші конкуруючі моделі - скажімо, інша регресійна модель, яка використовує вік людини для прогнозування її / її ваги - ви можете порівнювати різні моделі, виходячи з того, скільки дисперсії пояснюється ними, і вирішити, яка модель краща. (Є деякі застереження до цього, див. "Інтерпретація та використання регресії" - Крістофер Х. Ахен http://www.sagepub.in/books/Book450/authors )


1
Це, безумовно, відповіло на велику частку мого питання. З точки зору того, чому автори констатують це як його величезне значення, я не знаю. Отже, якщо це значення R-sqaured, і ми повернемося до вашого прикладу: скажімо, ми використовували модель для "віку", яка мала відхилення 80%, а потім і модель для "висоти", яка мала дисперсію 85 %, щоб передбачити вагу людини, я вважаю, що остання модель була б більш значною? Дякую за посилання на книгу, я придбав її вчора ввечері, оскільки в наступні місяці я досить сильно використовую регресію.
користувач1574598

1
Так, можна зробити висновок, що остання модель краща за своєю здатністю передбачати (або пояснювати) вагу людини, цетерис париб. До речі, ви заявили це як "модель мала дисперсію 80%", але вона повинна бути "модель пояснює 80% дисперсії".
Вішал

4

R2

i=1n(y^iy¯)2i=1n(yiy¯)2

yiy^iithy¯R2

i=1n(yiy¯)2=i=1n(y^iy¯)2+i=1n(yiy^i)2,

R2

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.