Чи є змінна значення в лінійній регресійній моделі?

9

У мене лінійна регресійна модель із вибіркою та змінними спостереженнями, і я хочу знати:

Чи є певна змінна достатньо важливою, щоб залишатися включеною в модель.
Чи слід включити до моделі іншу змінну (із спостереженнями).

Яка статистика може мені допомогти? Як отримати їх найбільш ефективно?

regression

26

Статистична значущість зазвичай не є доброю основою для визначення того, чи повинна змінна включатись у модель. Статистичні тести були розроблені для перевірки гіпотез, а не вибору змінних. Я знаю, що багато підручників обговорюють зміну вибору за допомогою статистичних тестів, але це, як правило, поганий підхід. Дивіться книгу Гаррелла щодо стратегії моделювання регресії з деяких причин. У цей час зазвичай переважний варіант вибору на основі AIC (або чогось подібного).

— Роб Хайндман
джерело

Насправді, наскільки я пам’ятаю, Гаррелл рішуче перешкоджає використанню AIC. Я думаю, перехресне підтвердження, можливо, було б найбезпечнішим методом.

— Тал Галілі

1

АПК асимптотично еквівалентний CV. Див відповіді на stats.stackexchange.com/questions/577 / ... . Я перевірив Гаррелла перед тим, як написав цю відповідь, і не побачив ніякого зневіри АПК. Він попереджає про тестування значимості після вибору змінної за допомогою AIC або будь-якого іншого методу.

— Роб Хайндман

@Tal: Можливо, з одного з своїх робіт, а не з книги RMS, я пам’ятаю, що Гаррелл заперечував проти використання AIC для простого вибору серед багатьох моделей. Я думаю, його суть полягала в тому, що ви повинні додати змінну за один раз і методично порівняти дві моделі або використовувати якусь подібну стратегію. ( Для того, щоб бути ясно, що це відповідно до відповіддю Роба.)

— АРС

Швидкий пошук, я виявив, що Гаррелл написав наступне: "Остерігайтеся робити вибір моделі на основі P-значень, R-квадрата, часткового R-квадрата, AIC, BIC, коефіцієнтів регресії або Cp мальви". Він написав, що 14.12.08 р. У списку розсилки під назвою [R] Отримання p-значень для коефіцієнтів функції LRM (пакет дизайну) - непростий текст. Я думаю, я неправильно зрозумів його значення.

— Тал Галілі

2

@Tal, @Rob: У цій темі він говорить "Обов’язково використовуйте принцип ієрархії". Можливо , інтерес, це обговорення з medstats (перейдіть для відповіді Харрелл в): groups.google.com/group/medstats/browse_thread/thread / ...

— АРС

4

Я другий коментар Роб. Все більш кращою альтернативою є включення всіх змінних та скорочення їх до 0. Див. Tibshirani, R. (1996). Регресійна усадка та вибір через ласо.

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf

— user603
джерело

1

Чи існує якийсь спосіб кількісної оцінки того, що в наші дні "все більше віддають перевагу"?

— Тал Галілі

Я вважаю, що в багатьох галузях визнано науково правильнішим в тому сенсі, що підхід до усадки використовується більше в останніх застосованих статтерах, ніж підхід * .IC. Це свідчить про певний - як мінімум мовчазний - теоретичний консенсус.

— user603

1

@ user603 - у вас також є потенційно велика обчислювальна перевага при підході до усадки. Не потрібно шукати по моделей

2^{p}

$2^p$

— ймовірністьлогічний

3

У частині 1 ви шукаєте F-тест . Обчисліть вашу залишкову суму квадратів з кожної моделі підрахунку та обчисліть F-статистику, яку ви можете використовувати для пошуку p-значень або з F-розподілу, або з іншого нульового розподілу, який ви генеруєте самостійно.

— Ерік Су
джерело

1

Ще один голос за відповідь Роба.

У літературі про "відносну важливість" також є кілька цікавих ідей. У цій роботі розробляються методи, які прагнуть визначити, наскільки важливе значення пов'язане з кожним із ряду кандидатів-прогнозів. Існують байєсівські та частотні методи. Перевірте пакет "relaimpo" в R на наявність цитат та коду.

— Ендрю Робінсон
джерело

1

Мені також подобається відповідь Роба. І якщо вам трапляється використовувати SAS, а не R, ви можете використовувати PROC GLMSELECT для моделей, які можна було б виконати з PROC GLM, хоча це добре працює і для деяких інших моделей. Подивитися

Flom and Cassell "Зупинка покроково: Чому методи поетапного вибору погані і що слід використовувати", представлені на різних групах, останнім часом, NESUG 2009

— Пітер Флом
джерело