Я хочу вибрати моделі, що використовують regsubsets()
. У мене є кадр даних під назвою olympiadaten (дані завантажені: http://www.sendspace.com/file/8e27d0 ). Я спочатку додаю цей кадр даних, а потім починаю аналізувати, мій код:
attach(olympiadaten)
library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp +
Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")
summary(lm(Gesamt~ExpHealth))
скріншот сюжету:
Проблема полягає в тому, що я хочу знову "вручну" прилаштувати кращу модель і подивитися на неї, але значення скоригованого R у квадраті не те саме, що у виводі реле підзарядки? Це також стосується інших моделей, наприклад, коли я роблю найпростішу модель на графіці:
summary(lm(Gesamt~ExpHealth))
На графіку сказано, що він повинен мати скоригований R квадрат приблизно 0,14, але коли я дивлюся на вихід, я отримую значення 0,06435.
Ось результат summary(lm(Gesamt~ExpHealth))
:
Call:
lm(formula = Gesamt ~ ExpHealth)
Residuals:
Min 1Q Median 3Q Max
-18.686 -9.856 -4.496 1.434 81.980
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.0681 6.1683 -0.497 0.6203
ExpHealth 1.9903 0.7805 2.550 0.0127 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 18.71 on 79 degrees of freedom
(4 observations deleted due to missingness)
Multiple R-squared: 0.07605, Adjusted R-squared: 0.06435
F-statistic: 6.502 on 1 and 79 DF, p-value: 0.01271
Я не знаю, що я могла зробити неправильно, будь-яка допомога буде вдячна.
І останнє, але не менш важливе, ще кілька питань:
- Яка різниця між вибором моделей за допомогою AIC та відміною. R квадрат?
- Обидва вимірюють відповідність і визнають кількість змінних, тому не найкращою моделлю, обраною AIC, є також модель з найбільшою адж. r квадрат?
- Коли у мене є 12 змінних, це означає, що є можливості моделей, правда?
- Тож
regsubsets()
команда обчислює кожну модель і показує два найкращих (nbest=2
) кожного розміру? - Якщо так, то я дійсно отримую "найкращу" модель?
- І коли я роблю AIC, використовуючи зворотний вибір (починаючи з моделі, яка містить усі змінні), чи це також закінчується тією ж моделлю, яка
regsubsets()
каже, що найкраща?