Яка різниця між "коефіцієнтом визначення" та "середньою помилкою у квадраті"?


32

Для проблеми з регресією я бачив, як люди використовують "коефіцієнт визначення" (він же R квадрат) для вибору моделі, наприклад, знаходження відповідного коефіцієнта штрафу для регуляризації.

Однак, також зазвичай використовується "середня помилка в квадраті" або "помилка середнього квадрату" як міра точності регресії.

То в чому головна відмінність цих двох? Чи можна їх взаємозамінно використовувати для завдань «регуляризації» та «регресії»? І які основні способи використання кожного на практиці, наприклад, у машинному навчанні, завданнях з пошуку даних?

Відповіді:


40

R2=1SSESST , де - сума помилки у квадраті (залишки або відхилення від лінії регресії), а - сума відхилень у квадраті від середнього значенняS S T YSSESSTY

MSE=SSEnm , де - розмір вибірки і - кількість параметрів моделі (включаючи перехоплення, якщо такі є).мnm

R2 - стандартизована міра ступеня передбачуваності або придатності у вибірці. - це оцінка дисперсії залишків або непридатних у сукупності. Два заходи чітко пов'язані, як це видно у найбільш звичайній формулі для скоригованого (оцінка для населення):MSE R 2R2R2

Radj2=1(1R2)n1nm=1SSE/(nm)SST/(n1)=1MSEσy2 .


2
Я подумав, що MSE - це серед помилок, що означає MSE = SSE / n, за яких випадків ми використовуємо MSE = SSE / (nm)? Будь ласка, поясніть. Спасибі
Sincole Brans

@SincoleBrans Перегляньте en.wikipedia.org/wiki/Mean_squared_error , розділ "Регресія".
ttnphns

Я трохи розгублений. Результати martin-thoma.com/regression показують, що модель може бути хорошою (порівняно з деякими іншими моделями) з R ^ 2, але в той же час поганою з MSE. Чи можете ви пояснити це?
Мартін Тома
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.