Інтерпретація виводу drop1 у R


14

У R drop1команда виводить щось акуратне.
Ці дві команди мають отримати вихід:
example(step)#-> swiss
drop1(lm1, test="F")

Моя виглядає так:

> drop1(lm1, test="F")
Single term deletions

Model:
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality
                 Df Sum of Sq    RSS    AIC F value     Pr(F)    
<none>                        2105.0 190.69                      
Agriculture       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examination       1     53.03 2158.1 189.86  1.0328  0.315462    
Education         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Infant.Mortality  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Що все це означає? Я припускаю, що "зірки" допомагають вирішити, які вхідні змінні потрібно зберігати. Дивлячись на вихідний результат, я хочу відкинути змінну "Екзаменація" і зосередитись на змінній "Освіта", чи правильно це тлумачення?

Також, значення AIC, нижче, краще, так?

Ред. Будь ласка, зверніть увагу на відповідь Вікі спільноти нижче та додайте до неї, якщо вважаєте за потрібне, щоб уточнити цей вихід.


7
допомога в R покликана пояснити вам, як користуватися функцією. Це не призначено для курсу статистики. Щодо цього, загалом, я вважаю, що довідкові сторінки R є одними із найповніших та зручних з усіх відомих мені пакетів з відкритим кодом. І платити пакети з цього питання. SPSS і SAS дають вам багато мамбо-джамбо з напівправдами і повними дурницями як "посібник для тлумачення".
Joris Meys

1
Це питання було скасовано. Я не збирався давати +1, але мені здається, що його голосування не є дуже конструктивним: (1) ОП дає зрозуміти, що це домашнє завдання і використовує вбудований набір даних R для ілюстрації, а не його Дані, (2) відповідне питання з step()оцінкою було оцінено +2 на момент написання цього запису (так чому ?!), (3) ОП визнала корисність відповіді @ Joris.
chl

@chl: здається, я не єдиний із чутливими пальцями ніг, коли мова йде про довідкові сторінки R :-). Але я щиро погоджуюся з вами. Питання є дійсним, задається чітко, отже, немає абсолютно жодної причини, щоб його спростовувати.
Йоріс Мейс

Хе, пробачте, якщо я наступив на ваші пальці ніг зі своєю допомогою, я просто не дуже терплячий, коли мова йде про щось із командним рядком. Мені це дивно, я знаю. Ви б не були першими, хто зателефонував мені на це :) Мені подобається це місце, люди чесні.
Гакера

Ідемо, я відредагував це запитання, щоб воно не було таким відвертим для прихильників R та R :) І переформулювало питання про AIC, щоб не вводити в оману лише читачів ОП.
Гакера

Відповіді:


10

drop1дає порівняння моделей на основі критерію AIC, а при використанні опції test="F"ви додаєте до неї "тип II ANOVA", як це пояснено у файлах довідки . Поки у вас є лише суцільні змінні, ця таблиця точно рівнозначна summary(lm1), оскільки значення F - це лише ті T-значення у квадраті. Р-значення абсолютно однакові.

То що з цим робити? Інтерпретувати його саме таким чином: він виражається так, що модель без цього терміна «суттєво» відрізняється від моделі з цим терміном. Майте на увазі значне "", оскільки значення тут не можна трактувати так, як думає більшість людей. (проблема багато тестування та все ...)

А щодо АПК: чим нижче, тим краще схоже на неї. AIC - це значення, яке відповідає моделі , а не змінній. Тож найкращою моделлю з цього результату була б модель без змінної експертизи.

Зауважте, обчислення статистики AIC та F відрізняється від R-функцій, AIC(lm1)відповідно. anova(lm1). Бо AIC()ця інформація наведена на довідкових сторінках extractAIC(). Для anova()функції досить очевидно, що тип I і II типу SS не є однаковими.

Я намагаюся не бути грубим, але якщо ви не розумієте, що пояснено в довідкових файлах, ви не повинні використовувати функцію в першу чергу. Поетапна регресія неймовірно складна, піддаючи небезпеці ваші р-значення найбільш глибоко. Отже, знову ж таки, не грунтуйтесь на p-значеннях. Ваша модель повинна відображати вашу гіпотезу, а не навпаки.


1
Мені подобається цей настрій, "якщо я вже не розумію, що я вже роблю, я не повинен намагатися його навчитися ..." Це також підхід, що використовується в довідці R - це не корисно, якщо ви вже не знаєте, що продовжувати. Я сподівався, що це може стати початком чогось іншого.
Гакера

Але я можу використати цю частину вашої відповіді: "Інтерпретувати її точно таким чином: вона виражає, чи модель без цього терміна суттєво відрізняється від моделі з цим терміном". Для мене це означає, що значення Pr (F) - це значення кожного з цих термінів, а невелике значення означає, що ця змінна важлива. Отже, хороша модель повинна містити змінні "***", а не ті, у яких немає зірок.
gakera

4
@gakera: Ти мене неправильно зрозумів. Якщо ви не розумієте, що ви робите, ви обов'язково спробуйте навчитися цього, перш ніж використовувати його . Це означає, що читати статистику та проходити курс. Отже, добра модель повинна включати змінні, сформульовані в гіпотезі. Якщо ви базуєтесь на змінних "***", вам спочатку потрібен ретельний курс моделювання. Ви, очевидно, не зрозуміли мого останнього коментаря. Вибачте за пряме спілкування, приходить з хлопцем. Нічого особистого.
Joris Meys

@gakera: Я оновив свою відповідь, щоб уточнити деякі важливі моменти. Головним чином, тому, що ви неправильно інтерпретували ту частину, яку ви думали, що можете використати.
Joris Meys

Я вчуся, роблячи це, адже це домашнє завдання, адже ніхто не помре, якщо я не зрозумію це правильно - риба вже мертва: P Дякую за допомогу поки що, і не хвилюйтесь, це не так вперше в Інтернеті :)
gakera

4

Для довідки, це значення, які включені до таблиці:
Dfвідноситься до Ступені свободи , "число ступенів свободи - це кількість значень у підсумковому обчисленні статистики, які можуть змінюватися".

У Sum of Sqколонці позначається сума квадратів (а точніше сума відхилень у квадраті ). Коротше кажучи, це показник суми, яка кожне окреме значення відхиляється від загального середнього значення цих значень.
RSS- Залишкова сума квадратів . Вони є мірою того, наскільки прогнозоване значення залежної (або вихідної) змінної змінюється від справжнього значення для кожної точки даних у наборі (або більш розмовно: кожен "рядок" у таблиці даних).

AICє інформаційним критерієм Akaike, який, як правило, вважається "занадто складним для пояснення", але, коротше кажучи, є показником корисності відповідності оціночної статистичної моделі. Якщо вам потрібні додаткові деталі, вам доведеться звернутися до мертвих дерев зі словами на них (тобто, книгами). Або Вікіпедія та ресурси там.

F valueВикористовується для виконання то , що називається F-тест , і з неї виводиться на Pr(F)значення, яке описує , як ймовірно (або можливий = Рг) , що Р значення. Значення Pr (F), близьке до нуля (позначене символом ***), вказує на вхідну змінну, яку певним чином важливо включити у хорошу модель, тобто модель, яка не включає її, "значно" відрізняється від тієї що робить.

Усі ці значення в контексті drop1команди розраховуються для порівняння загальної моделі (включаючи всі вхідні змінні) з моделлю, що є результатом видалення цієї конкретної змінної на кожен рядок у вихідній таблиці.

Тепер, якщо це можна покращити, будь ласка, додайте до нього або уточнюйте будь-які проблеми. Моя мета полягає лише в тому, щоб уточнити та забезпечити кращу посилання "зворотного пошуку" від виводу команди R до фактичного її значення.


@gakera Практична регресія та Anova з використанням R є гарною відправною точкою для розуміння лінійних моделей та методів, пов'язаних із вибором змінних / моделей. Як вказує @Joris, ступінчаста регресія рідко є панацеєю.
chl

га, дякую за додавання посилань @chl, зберігаючи мою відмову щодо того, чому я не можу їх публікувати. Ви повинні погодитися, що я смоктав: D
gakera

1
@gakera Я думаю, що вам потрібно мати більше представників, щоб додати більше ніж одне посилання за редагування - я можу зрозуміти, що це не дуже приємно, коли ви починаєте з веб-сайту Q&A. Я припускав, що ви самі видалите своє останнє речення. З іншого боку, я вважаю, що ви не повинні очікувати занадто багато грошей на надання відповіді на власне запитання, оскільки це свого роду резюме '(корисне, хоча).
chl

Я не роблю цього для анотацій (це так Reddit: P) - корисний резюме - саме те, за що я йду - головним чином для себе, але, ймовірно, корисний і для інших.
gakera

@gakera Я впевнений, що це не для отримання грошей. У більшості випадків ми визначаємо власну відповідь як Wiki Wiki (CW), коли вони не додають додаткової чи суперечливої ​​інформації. Це нейтральний спосіб підсумувати або узагальнити відповіді інших.
чл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.