Коефіцієнт детермінації (


21

Я хочу повністю зрозуміти поняття описує величину варіації між змінними. Кожне веб-пояснення є дещо механічним і тупим. Я хочу «отримати» концепцію, а не просто механічно використовувати цифри.r2

Напр .: Години, вивчені проти тестових балів

= .8r

= .64r2

  • Отже, що це означає?
  • 64% варіативності тестових балів можна пояснити годинами?
  • Звідки ми можемо це знати, просто квадратуючи?

Ваше запитання не стосується R проти R-квадрата (ви розумієте, що ), це стосується інтерпретації r 2 . Будь ласка, переформулюйте назву. 0.82=0.64r2
Робін Жирард

подібне запитання: stats.stackexchange.com/questions/28139/…
Abe

@amoeba погодився, я потягнув бирку.
Бретт

Вам потрібно щоб визначити значення. Також дивіться, stats.stackexchange.com/a/265924/99274 . н
Карл

Відповіді:


27

Почніть з основної ідеї варіації. Ваша початкова модель - це сума відхилень у квадраті від середнього. Значення R ^ 2 - це частка тієї зміни, яка враховується за допомогою альтернативної моделі. Наприклад, R-квадрат розповідає про те, скільки змін у Y ви можете позбутися, підсумовуючи відстані квадрата від лінії регресії, а не середнє значення.

Я думаю, що це стає абсолютно зрозумілим, якщо ми подумаємо про просту проблему регресії. Розглянемо типовий розсіювач, де у вас є предиктор X по горизонтальній осі та відповідь Y по вертикальній осі.

Середнє значення - це горизонтальна лінія на ділянці, де Y є постійним. Загальна варіація Y - це сума різниць у квадраті між середнім значенням Y та кожною окремою точкою даних. Це відстань між середньою лінією та кожною окремою точкою у квадраті та додаванні.

Ви також можете обчислити інший показник змінності після того, як у вас з'явиться лінія регресії в моделі. Це різниця між кожною точкою Y та лінією регресії. Замість кожного (Y - середнього) квадрата ми отримуємо (Y - точка на лінії регресії) у квадраті.

Якщо лінія регресії є будь-якою, крім горизонтальної, ми будемо отримувати меншу загальну відстань, коли використовуємо цю пристосовану лінію регресії, а не середню - тобто є менш необяснені зміни. Співвідношення між поясненою додатковою варіацією та початковою варіацією - ваше R ^ 2. Частка оригінальної зміни у вашій відповіді пояснюється пристосуванням до цієї лінії регресії.

введіть тут опис зображення

Ось декілька код R для графіку із середнім значенням, лінією регресії та сегментами від лінії регресії до кожної точки, щоб допомогти візуалізувати:

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)

> Співвідношення між поясненою варіантом та оригінальною варіантом - ваше R ^ 2 Давайте подивимось, чи отримав я це. Якщо початкове відхилення від середнього значення становить 100, а коливання регресії дорівнює 20, то співвідношення = 20/100 = .2 Ви говорите, що R ^ 2 = .2 b / c 20% від середнього значення (червоного) враховується для поясненої варіації (зелений) (У випадку r = 1) Якщо початкова зміна дорівнює 50, а коливання регресії дорівнює 0, то співвідношення = 0/50 = 0 = 0% від варіації від середнього ( червоний) враховується поясненою варіацією (зелений) Я очікую, що R ^ 2 буде 1, а не 0.
JackOfAll

1
R ^ 2 = 1- (SSR / SST) або (SST-SSR) / SST. Отже, у ваших прикладах R ^ 2 = .80 та 1.00. Різниця між регресійною лінією та кожною точкою полягає в тому, що залишилося нез'ясованим відповідним UN. Решта - пояснена пропорція. Інакше це точно так.
Бретт

Я редагував останній абзац, щоб спробувати зробити його трохи зрозумілішим. Концептуально (і обчислювально) все, що вам потрібно, є там. Можливо, буде зрозуміліше насправді додати формулу і посилатися на SST SSE та SSR, але тоді я намагався зрозуміти це концептуально
Бретт

тобто: R ^ 2 - частка сумарного відхилення від середнього (SST), що є різницею b / w від очікуваного значення регресії та середнього значення (SSE). У моєму прикладі годин та балів значення регресії було б очікуваним результатом тесту на основі співвідношення з вивченими годинами. Будь-які додаткові зміни від цього приписуються SSR. Для даного моменту вивчені години змінної / регресії пояснювали х% від загальної відхилення від середньої величини (SST). З високим r-значенням "пояснюється" великий відсоток SST порівняно з SSR. З низьким значенням r, "пояснюється" - це нижчий відсоток SST порівняно з SSR.
JackOfAll

@BrettMagill, я думаю, посилання на зображення порушене ...
Garrett

6

Тут представлена ​​математична демонстрація взаємозв'язку між ними: кореляція Пірсона та регресія найменших квадратів .

Я не впевнений, чи є геометрична чи інша інтуїція, яка може бути запропонована крім математики, але якщо я можу придумати одну, я оновлю цю відповідь.

Оновлення: Геометрична інтуїція

хуу

у=х β+ϵ

у1,у2х1,х2

alt text http://a.imageshack.us/img202/669/linearregression1.png

βх βуβхβ^βуу^=х β^

у=у^+ϵ^

уу^ϵ^β^

βх βϵ^

уухуу12+у22уу^у^

За теоремою Піфагора ми маємо:

у2=у^2+ϵ^2

ху^2у2cос(θ)=у^у

Тому у нас є необхідні відносини:

ух

Сподіваюся, що це допомагає.


Я ціную вашу спробу допомогти, але, на жаль, це лише зробило все в 10 разів гірше. Ви дійсно вводите тригонометрію для пояснення r ^ 2? Ти занадто розумний, щоб бути хорошим учителем!
JackOfAll

Я думав, що ви хочете знати, чому кореляція ^ 2 = R ^ 2. У будь-якому випадку різні способи розуміння одного і того ж поняття допомагають або, принаймні, це моя думка.

3

Регресія По очах аплет може бути корисно , якщо ви намагаєтеся розвинути деякі інтуїції.

Він дозволяє генерувати дані, а потім відгадати значення для R , яке потім можна порівняти з фактичним значенням.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.