Як обчислити з зразка R квадрат?


10

Я знаю, що це, ймовірно, обговорювалося десь ще, але я не змогла знайти чіткої відповіді. Я намагаюся використовувати формулуR2=1SSR/SST для розрахунку поза вибіркою R2 лінійної регресійної моделі, де SSR - сума квадратних залишків і SST- загальна сума квадратів. Для навчального набору зрозуміло, що

SST=Σ(yy¯train)2

Що з набором тестування? Чи варто продовжувати користуватисяy¯train для вибірка yабо використовувати y¯test натомість?

Я виявив, що якщо користуюся y¯test, що виходить R2іноді можуть бути негативними. Це відповідає опису функції sklearn r2_score(), де вони використовували (що також використовується функцією їх linear_model для тестування зразків). Вони заявляють, що "постійна модель, яка завжди прогнозує очікуване значення y, не враховуючи вхідних функцій, отримала б оцінку R ^ 2 0,0".y¯testscore()

Однак в інших місцях люди використовували як тут, так і тут (друга відповідь dmi3kno). Тож мені було цікаво, що має більше сенсу? Будь-який коментар буде дуже вдячний!y¯train

Відповіді:


3

Ви праві.

ОСЗ2залишки засновані на даних тестування, але базовою лінією все ж повинні бути дані про навчання. З урахуванням сказаного, ваш SST - ; зауважте, що для однаковеSST=Σ(yy¯train)2R2


3
Хоча я виправив кілька очевидних та очевидних помилок у попередніх редакціях, деякі нотації та деякі передбачені значення досі не зрозуміли.
Нік Кокс

Дякую за відповідь! Чи маєте ви на це посилання? Здається, статичні програми часто використовують альтернативне визначення, з y_test?
Матифу

Чи є у вас посилання на це? Звичайно, якщо ви вважаєте, що є порівнянням відхилень, ерго порівняння ймовірностей, я думаю, ви праві. Але якщо ви візьмете на частку поясненої дисперсії, то ні, оскільки загальна сума квадратів ніде не з’явиться. R2R2
Firebug
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.