Проблема з обчисленням, інтерпретацією регістрів і загальними питаннями щодо процедури вибору моделі

Я хочу вибрати моделі, що використовують regsubsets(). У мене є кадр даних під назвою olympiadaten (дані завантажені: http://www.sendspace.com/file/8e27d0 ). Я спочатку додаю цей кадр даних, а потім починаю аналізувати, мій код:

attach(olympiadaten)

library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + 
              Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")


summary(lm(Gesamt~ExpHealth))

скріншот сюжету:

Проблема полягає в тому, що я хочу знову "вручну" прилаштувати кращу модель і подивитися на неї, але значення скоригованого R у квадраті не те саме, що у виводі реле підзарядки? Це також стосується інших моделей, наприклад, коли я роблю найпростішу модель на графіці:

summary(lm(Gesamt~ExpHealth))

На графіку сказано, що він повинен мати скоригований R квадрат приблизно 0,14, але коли я дивлюся на вихід, я отримую значення 0,06435.

Ось результат summary(lm(Gesamt~ExpHealth)):

Call:
lm(formula = Gesamt ~ ExpHealth)

Residuals:
    Min      1Q  Median      3Q     Max 
-18.686  -9.856  -4.496   1.434  81.980 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -3.0681     6.1683  -0.497   0.6203  
ExpHealth     1.9903     0.7805   2.550   0.0127 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 18.71 on 79 degrees of freedom
  (4 observations deleted due to missingness)
Multiple R-squared: 0.07605,    Adjusted R-squared: 0.06435 
F-statistic: 6.502 on 1 and 79 DF,  p-value: 0.01271

Я не знаю, що я могла зробити неправильно, будь-яка допомога буде вдячна.

І останнє, але не менш важливе, ще кілька питань:

Яка різниця між вибором моделей за допомогою AIC та відміною. R квадрат?
Обидва вимірюють відповідність і визнають кількість змінних, тому не найкращою моделлю, обраною AIC, є також модель з найбільшою адж. r квадрат?
Коли у мене є 12 змінних, це означає, що є $2^12$ можливості моделей, правда?
Тож regsubsets()команда обчислює кожну модель і показує два найкращих ( nbest=2) кожного розміру?
Якщо так, то я дійсно отримую "найкращу" модель?
І коли я роблю AIC, використовуючи зворотний вибір (починаючи з моделі, яка містить усі змінні), чи це також закінчується тією ж моделлю, яка regsubsets()каже, що найкраща?

r multiple-regression model-selection

— користувач1690846
джерело

Різниця в скоригованому

R^{2}

$R^2$ це тому, що деякі змінні мають відсутні значення. Я вірю, що ви б так само скорегувались

R^{2}

$R^2$ якщо ви встановили модель "вручну", просто використовуючи підмножину даних, для якої всі змінні (у формулі в regsubsets) відсутні. Примітка: вибір вашої моделі за допомогою regsubsets вважається поганим методом.

— mar999

@ mark999 Ваші коментарі хороші, і, схоже, він дає правильну відповідь. Ви повинні конвертувати це у відповідь.

— Майкл Р. Черник

Дякую @MichaelChernick, але я вважаю за краще просто залишити це як коментар.

— mark999

@ user1690846 Рекомендую переглянути відповідь Петра Флома

— mark999

@ mark999 насамперед дякую за відповідь, але чому це поганий метод? І чи краще вибрати AIC? Тож я повинен підходити до моделі за допомогою na.omit (olympiadaten)? Якщо хтось має відповідь на інші запитання, будь-які подальші відповіді будуть дуже вдячні, дякую

— user1690846,

Відповіді:

Для подальшої ідеї щодо використання всіх підмножин чи найкращих інструментів для підмножини для пошуку «найкращої» підходящої моделі Книга «Як зв'язатись зі статистикою» Даррела Хаффа розповідає історію про Readers Digest, публікуючи порівняння хімікатів у сигаретному димі. Суть їхньої статті полягала в тому, щоб показати, що між різними брендами немає реальної різниці, але одна марка була найнижчою у деяких хімічних речовин (але настільки мало, що різниця була безглуздою), і цей бренд розпочав велику рекламну кампанію на основі як "найнижчий" або "найкращий" згідно з Readers Digest.

Усі підмножини або найкращі регресії підмножини схожі, реальне повідомлення з показаного вами графіка - це не "тут найкраще", а насправді, що немає жодної найкращої моделі. Зі статистичної точки зору (з використанням скоригованого r-квадрата) більшість вашої моделі майже однакові (декілька внизу поступаються вище, ніж інші, але решта схожі). Ви хочете знайти «найкращу» модель із цього столу, як компанія, що каже, що їхній товар був найкращим, коли метою було показати, що вони всі схожі.

Тут є щось, щоб спробувати, випадковим чином видалити одну точку з набору даних і повторити аналіз, чи отримуєте ви ту саму «Найкращу» модель? чи це змінюється? кілька разів повторюючи видалення іншої точки кожного разу, щоб побачити, як змінюється модель "Найкраща". Ви дійсно комфортно стверджуєте, що модель є "Найкращою", коли маленька зміна даних дає інше "Найкраще"? Подивіться також, наскільки різні коефіцієнти між різними моделями, як ви інтерпретуєте ці зміни?

Краще розібратися в питанні та науці, що стоїть за даними, і використати цю інформацію, щоб допомогти визначитися з "Найкращою" моделлю. Розглянемо дві моделі, які дуже схожі. Єдиною різницею є те, що одна модель включає $x_1$ а інше включає $x_2$ замість цього. Модель с $x_1$ проте трохи краще підходить (пристосований r-квадрат 0,49 проти 0,48), проте для вимірювання $x_1$ вимагає операції та чекання 2 тижнів на результати лабораторії під час вимірювання $x_2$ займає 5 хвилин і сфігмоманометр. Чи дійсно варто додаткового часу, витрат і ризику отримати додаткові 0,01 в регуляторі r-квадрата, чи краща модель буде швидшою, дешевшою і безпечнішою моделлю? Що має сенс з точки зору науки? У вашому прикладі вище ви дійсно думаєте, що збільшення витрат на військових покращить олімпійські показники? чи це випадок тієї змінної, яка виступає сурогатом для інших змінних витрат, які мали би більш прямий вплив?

Інші речі, які слід враховувати, включають прийняття декількох хороших моделей та їх комбінування (моделювання усереднення), або замість того, щоб кожна змінна була або все, або все, додаючи певну форму штрафу (регресія хребта, LASSO, еластична мережа, ...).

— Грег Сніг
джерело

Хороша відповідь! Основні моменти "Краще розібратися в питанні та науці, що стоїть за даними, і використати цю інформацію, щоб допомогти визначитися з" Найкращою "моделлю" та всім наступним абзацом.

— Андре Сільва

На деякі запитання відповіли, тому я лише звертаюсь до тих, що стосуються вибору моделі. AIC, BIC, Mallow Cp та відрегульований R $^2$ - це всі методи порівняння та вибору моделей, які враховують проблеми переоснащених моделей за допомогою коригуваної міри або штрафної функції в критеріях Але у випадках, коли функції штрафних санкцій різняться, цілком можливо, що два подібні критерії призводять до різного вибору для остаточної моделі. Мінімальне значення для різних критеріїв може оцінювати різні моделі. Це спостерігається досить часто при перегляді моделей, обраних AIC та BIC.

Я справді не знаю, що ти маєш на увазі під найкращою моделлю. Кожен критерій по суті дає різне визначення найкращого. Можна назвати модель найкраще з точки зору інформації, ентропії, складної складності, відсоткової дисперсії, поясненої (скоригованої) тощо. Якщо ви маєте справу з певним критериєм і маєте на увазі, найкраще фіксуючи справжній мінімум для скажімо AIC над усіма можливими моделями, то це можна гарантувати лише за допомогою перегляду всіх моделей (тобто всіх підмножин підбір для змінних). Покрокова, покрокова та поетапна процедура не завжди знаходять найкращу модель у розумінні конкретного принципу. За допомогою поетапної регресії ви навіть можете отримати різні відповіді, запустивши різні моделі. Я впевнений, що Френку Харрелу було б багато про що сказати.

Щоб дізнатися більше, доступні кілька хороших книг щодо вибору моделі / підмножини, і я посилався на деякі інші публікації. Також незабаром вийде монографія Лейсі Гюнтер із Спрингером у їхній серії SpringerBrief. Я був співавтором з нею в тій книзі.

— Майкл Р. Черник
джерело