Як обчислити з зразка R квадрат?

Я знаю, що це, ймовірно, обговорювалося десь ще, але я не змогла знайти чіткої відповіді. Я намагаюся використовувати формулу $R^2 = 1 - SSR/SST$ для розрахунку поза вибіркою $R^2$ лінійної регресійної моделі, де $SSR$ - сума квадратних залишків і $SST$ - загальна сума квадратів. Для навчального набору зрозуміло, що

S S T = Σ (y - {\bar{y}}_{t r a i n})^{2}

$SST = \Sigma (y - \bar{y}_{train})^2$

Що з набором тестування? Чи варто продовжувати користуватися $\bar{y}_{train}$ для вибірка $y$ або використовувати $\bar{y}_{test}$ натомість?

Я виявив, що якщо користуюся $\bar{y}_{test}$ , що виходить $R^2$ іноді можуть бути негативними. Це відповідає опису функції sklearn r2_score(), де вони використовували (що також використовується функцією їх linear_model для тестування зразків). Вони заявляють, що "постійна модель, яка завжди прогнозує очікуване значення y, не враховуючи вхідних функцій, отримала б оцінку R ^ 2 0,0". $\bar{y}_{test}$ score()

Однак в інших місцях люди використовували як тут, так і тут (друга відповідь dmi3kno). Тож мені було цікаво, що має більше сенсу? Будь-який коментар буде дуже вдячний! $\bar{y}_{train}$

— божевільний привід
джерело

Ви праві.

ОСЗ $^2$ залишки засновані на даних тестування, але базовою лінією все ж повинні бути дані про навчання. З урахуванням сказаного, ваш SST - ; зауважте, що для однакове $SST=Σ(y−\bar y_{train})^2$ $R^2$

— користувач152317
джерело

Хоча я виправив кілька очевидних та очевидних помилок у попередніх редакціях, деякі нотації та деякі передбачені значення досі не зрозуміли.

— Нік Кокс

Дякую за відповідь! Чи маєте ви на це посилання? Здається, статичні програми часто використовують альтернативне визначення, з y_test?

— Матифу

Чи є у вас посилання на це? Звичайно, якщо ви вважаєте, що є порівнянням відхилень, ерго порівняння ймовірностей, я думаю, ви праві. Але якщо ви візьмете на частку поясненої дисперсії, то ні, оскільки загальна сума квадратів ніде не з’явиться.

R^{2}

$R^2$

R^{2}

$R^2$

— Firebug