Яка точна формула використовується в R lm()
для скоригованого R-квадрата? Як я можу це інтерпретувати?
Відрегульовані формули r-квадрата
Здається, існує кілька формул для обчислення скорегованого R-квадрата.
- Формула Веррі:
- Формула МакНемара:
- Формула Господа:
- Формула Штейна:
Описи підручника
- Згідно з підручником Філда, « Відкриття статистики за допомогою R» (2012, стор. 273) R використовує рівняння Веррі, яке «говорить нам про те, яка кількість дисперсії в Y було б враховано, якби модель була отримана з популяції, з якої було взято вибірку». Він не дає формули для Веррі. Він рекомендує скористатися формулою Штейна (вручну), щоб перевірити, наскільки модель перехресне.
- Клейбер / Цайле, Прикладна економетрія з R (2008, стор. 59) стверджує, що це "скоригований Р-квадрат Теїла", і не говорить точно, як його інтерпретація варіюється від множини R-квадрата.
- Dalgaard, вступна статистика з R (2008, стор. 113) пише, що "якщо помножити [скоригований R-квадрат] на 100%, це можна інтерпретувати як"% зменшення дисперсії "". Він не каже, якій формулі це відповідає.
Раніше я думав і читав широко, що R-квадрат штрафує за додавання додаткових змінних до моделі. Зараз використання цих різних формул, схоже, вимагає різних інтерпретацій. Я також розглянув пов'язане питання щодо переповнення стека (у чому різниця між кількома R-квадратами та відрегульованим R-квадратом в одноременній регресії найменших квадратів? ) Та статистичному словнику школи Уортона в UPenn .
Запитання
- Яка формула використовується для регульованого r-квадрата на R
lm()
? - Як я можу це інтерпретувати?
ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
де ans $ r.squared = R ^ 2; n = n, rdf = залишковий df, df.int = перехоплення df (0 або 1).