Які сучасні, легко використовувані альтернативи ступінчастій регресії?


76

У мене є набір даних з близько 30 незалежних змінних і я б хотів побудувати узагальнену лінійну модель (GLM) для дослідження взаємозв'язку між ними та залежною змінною.

Я усвідомлюю, що метод, якого я вчив для цієї ситуації, поетапна регресія, зараз вважається статистичним гріхом .

Які сучасні методи вибору моделі слід використовувати в цій ситуації?


4
Інші люди згадують статистичні процедури, які можуть бути корисними, але я спершу запитаю, чи є у вас теорія про силу та форму взаємозв'язку між змінними. Наскільки великий ваш зразок? У вас є причини уникати складних моделей?
Єпископ Михайло

2
Хтось розглядав усереднення моделей як альтернативу для боротьби з проблемою попереднього тестування зміщення та проблемами пропуску? Грубо кажучи, всі змінні є потенційними предикторами, і ви можете оцінити ймовірність їх корисності. Таким чином, комбінований оцінювач не тільки покращує ефективність прогнозування, але й дає хороші оцінки властивостей параметрів змінних у "області".
Дмитро Челов

1
Усадка Ніхто більше не використовує ступінчасті, сподіваємось
Аксакал

Відповіді:


56

Існує кілька альтернатив покрокової регресії . Найбільш використовувані я бачив:

  • Експертна думка для вирішення, які змінні включати до моделі.
  • Часткова регресія найменших квадратів . Ви по суті отримуєте приховані змінні та регресуєте з ними. Ви також можете зробити PCA самостійно, а потім використовувати основні змінні.
  • Оператор найменшої абсолютної усадки та вибору (LASSO).

І PLS Regression, і LASSO реалізовані в R-пакетах

PLS : http://cran.r-project.org/web/packages/pls/ і

ЛАРС : http://cran.r-project.org/web/packages/lars/index.html

Якщо ви хочете лише вивчити взаємозв'язок між залежною змінною та незалежними змінними (наприклад, вам не потрібні тести на статистичну значимість), я також рекомендую методи машинного навчання, такі як випадкові ліси або дерева класифікації / регресії . Випадкові ліси також можуть наближати складні нелінійні зв’язки між вашими залежними та незалежними змінними, які, можливо, не були виявлені лінійними методами (наприклад, лінійна регресія ).

Гарною відправною точкою для машинного навчання може стати погляд на завдання машинного навчання на CRAN:

Перегляд завдань машинного навчання : http://cran.r-project.org/web/views/MachineLearning.html


10
Пакет glmnet також дуже швидко реалізує ласо
Девід Дж. Гарріс

2
Я хотів би застерегти, що всередині латентної змінної спільноти PLSers утворюють дуже відокремлену власну кліку і ніколи не змогли проникнути в серйозну літературу (під якою я маю на увазі, наприклад, асимптотичну теорію оцінювачів найменших квадратів у творах Майкла Браун, Пітер Бентлер, Альберт Саторра та Алекс Шапіро та інструментальне моделювання змінної Кена Боллена, щоб назвати декілька найважливіших). Як не дивно, здається, що PLS є прийнятними методами в статистичних колах, які, як правило, підтримують більш високий рівень жорсткості, ніж спільнота латентної змінної моделювання.
Стаск

6
У Елементах статистичного навчання має порівняння differend вибору змінних і усадка методів: (ОЛС,) краще підмножина, гребінь, ласо, PLS, ПЛР.
cbeleites

19

Ще один варіант, який ви можете розглянути для варіативного вибору та регуляризації, - це еластична сітка . Він реалізований в R через пакет glmnet .


16

Усереднення моделей - це один із способів (інформаційно-теоретичний підхід). Пакет R glmulti може виконувати лінійні моделі для кожної комбінації змінних предиктора та виконувати усереднення моделі для цих результатів.

Дивіться http://sites.google.com/site/mcgillbgsa/workshops/glmulti

Не забудьте спочатку вивчити колінеарність між змінними предиктора. Варіанти коефіцієнта інфляції (доступні в упаковці R "автомобіль") тут корисні.


Дякую. Чи дійсно вона відповідає всім можливим моделям? Навіть без взаємодій це приблизно мільярд моделей у цьому випадку.
Пітер Елліс

AFAIK це може, але є варіант генетичного алгоритму, який значно скорочує час, необхідний для оцінки всіх моделей. Дивіться www.jstatsoft.org/v34/i12/paper
OliP

3
Крім того MuMIn, AICcmodavgпакети, хоча glmultiрозумніше про великих наборах моделі.
Бен Болкер

8

@johannes дав чудову відповідь. Якщо ви користувач SAS, то LASSO доступний через PROC GLMSELECT та часткові найменші квадрати через PROC PLS.

Ми з Девідом Касселлом виступили з доповіддю про LASSO (і найменший кут регресії) у кількох групах користувачів SAS. Він доступний тут


7

Цікава дискусія. Позначити поступову регресію статистичним гріхом є дещо релігійним твердженням - якщо хтось знає, що вони роблять, і що цілі навчань зрозумілі, це, безумовно, прекрасний підхід із власним набором припущень і, безумовно, упереджене і не гарантує оптимальності тощо. Однак те ж саме можна сказати і про багато інших речей, які ми робимо. Я не бачив згаданого CCA, який розглядає більш фундаментальну проблему кореляційної структури в коваріатному просторі, що гарантує оптимальність, існує вже досить небагато, і це має дещо криву навчання. Він реалізований на різних платформах, включаючи Р.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.