Якою є скоригована R-квадратна формула в lм в R і як її слід інтерпретувати?


35

Яка точна формула використовується в R lm() для скоригованого R-квадрата? Як я можу це інтерпретувати?

Відрегульовані формули r-квадрата

Здається, існує кілька формул для обчислення скорегованого R-квадрата.

  • Формула Веррі:1(1R2)(n1)(nv)
  • Формула МакНемара:1(1R2)(n1)(nv1)
  • Формула Господа:1(1R2)(n+v1)(nv1)
  • Формула Штейна:1[(n1)(nk1)(n2)(nk2)(n+1)n](1R2)

Описи підручника

  • Згідно з підручником Філда, « Відкриття статистики за допомогою R» (2012, стор. 273) R використовує рівняння Веррі, яке «говорить нам про те, яка кількість дисперсії в Y було б враховано, якби модель була отримана з популяції, з якої було взято вибірку». Він не дає формули для Веррі. Він рекомендує скористатися формулою Штейна (вручну), щоб перевірити, наскільки модель перехресне.
  • Клейбер / Цайле, Прикладна економетрія з R (2008, стор. 59) стверджує, що це "скоригований Р-квадрат Теїла", і не говорить точно, як його інтерпретація варіюється від множини R-квадрата.
  • Dalgaard, вступна статистика з R (2008, стор. 113) пише, що "якщо помножити [скоригований R-квадрат] на 100%, це можна інтерпретувати як"% зменшення дисперсії "". Він не каже, якій формулі це відповідає.

Раніше я думав і читав широко, що R-квадрат штрафує за додавання додаткових змінних до моделі. Зараз використання цих різних формул, схоже, вимагає різних інтерпретацій. Я також розглянув пов'язане питання щодо переповнення стека (у чому різниця між кількома R-квадратами та відрегульованим R-квадратом в одноременній регресії найменших квадратів? ) Та статистичному словнику школи Уортона в UPenn .

Запитання

  • Яка формула використовується для регульованого r-квадрата на R lm() ?
  • Як я можу це інтерпретувати?

8
з Summary.lm ():, ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)де ans $ r.squared = R ^ 2; n = n, rdf = залишковий df, df.int = перехоплення df (0 або 1).
EDi

Я збираюся дати відповідь на справжню проблему тут, яка не є "яким R ^ 2 ...". Інформація, якої вам (і багатьом іншим) бракує, така: всі пакети R, навіть основна, роблять доступним вихідний код. Навіть матеріали, складені в дистрибутиві, доступні в {packnames} .tar.gz в CRAN або іншому сховищі.
Карл Віттофт

ОП тут: Дякую за цей чудовий внесок. Як щодо мого другого запитання: як я можу його інтерпретувати? Я прочитав так багато різних тлумачень Адж. R-квадрат, який іноді, здається, заснований на формулі, яка може бути не Веррі?

Відповіді:


29

1. Яку формулу lmR використовує для регульованого r-квадрата?

Як уже згадувалося, введення тексту summary.lmдасть вам код, який R використовує для обчислення скоригованого R квадрата. Витяг найбільш релевантного рядка, який ви отримуєте:

ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)

що відповідає математичним позначенням:

Radj2=1(1R2)n1np1

якщо припустити, що є перехоплення (тобто df.int=1), - ваш розмір вибірки, а - ваша кількість предикторів. Таким чином, рівень вашої помилки (тобто ) дорівнює .nprdfn-p-1

Формула відповідає тому, що мітка Yin and Fan (2001) Wherry Formula-1 (очевидно, є ще одна менш поширена формула Wherry, яка використовує в знаменнику замість ). Вони припускають, що найпоширеніші назви в порядку виникнення - це "формула Віррі", "формула Єзекіеля", "формула Веррі / МакНемара" та "формула Коена / Коена".npnp1

2. Чому так багато скоригованих формул r-квадрата?

Radj2 спрямований на оцінку , частки дисперсії, поясненої в популяції рівнянням регресії населення. Хоча це чітко пов'язане з розміром вибірки та кількістю предикторів, що є найкращим оцінником, менш зрозуміло. Таким чином, у вас є імітаційні дослідження, такі як Yin і Fan (2001), які оцінили різні скориговані формули r-квадрата з точки зору того, наскільки добре вони оцінюють (див. Це питання для подальшого обговорення ).ρ2ρ2

З усіх формул ви побачите, що різниця між і зменшується в міру збільшення розміру вибірки. Різниця наближається до нуля, оскільки розмір вибірки має тенденцію до нескінченності. Різниця також зменшується при меншій кількості прогнозів.R2Radj2

3. Як інтерпретувати ?Radj2

Radj2 - оцінка частки дисперсії, поясненої істинним рівнянням регресії в сукупності . Вас, як правило, цікавить де вас цікавить теоретичне лінійне прогнозування змінної. Навпаки, якщо ви більше зацікавлені в прогнозуванні за допомогою вибіркового рівняння регресії, таке часто трапляється в застосованих налаштуваннях, то якась форма перехресного підтвердження буде більш доречною.ρ2ρ2R2

Список літератури

  • Інь, П., І вентилятор, X. (2001). Оцінка усадки при множинній регресії: Порівняння різних аналітичних методів. Журнал експериментальної освіти, 69 (2), 203-224. PDFR2

9

Щодо вашого першого питання: Якщо ви не знаєте, як це обчислюється, подивіться на код! Якщо ви введете summary.lmконсоль, ви отримаєте код для цієї функції. Якщо ви знежирене Повсюдно код , який ви знайдете рядок: ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf). Якщо ви подивитеся на рядки над цим рядком, ви помітите, що:

  • ans$r.squared: вашR2
  • n - кількість залишків = кількість спостережень
  • df.int дорівнює 0 або 1 (залежно від наявності перехоплення)
  • rdf ваш залишковий df

Питання 2: З Вікіпедії: «Налагоджений - це модифікація яка регулює кількість пояснювальних термінів у моделі. 'R2R2

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.