Як працює «поетапна регресія»?


11

Я використовував наступний код R, щоб відповідати пробітній моделі:

p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1)
stepwise(p1, direction='backward/forward', criterion='BIC')

Я хочу знати, що саме stepwiseі що потрібно backward/forwardробити, і як вибрати змінні?


7
Деякі коментарі Франка Харрелла ( stats.stackexchange.com/users/4253/frank-harrell ) про те, чому поступова регресія погана: stata.com/support/faqs/statistics/stepwise-regression-problems

4
Окрім посилань на BabakP, також ознайомтеся з цією публікацією з сайту.
COOLSerdash

3
Ще одна публікація про проблеми зі ступінчастою (і назад, і вперед) - це документ, який я написав з Девідом Касселом: Зупинка покроково
Пітер Флом

@PeterFlom, для посилання на цей документ у мене виникають деякі проблеми з розумінням правильного цитування. Чи можете ви тут перерахувати? Дякую.
подв.номери

2
@ doug.numbers Були представлені різні місця та опубліковані у рамках матеріалів конференції. Якщо ви Google "Flom, Cassell, Step step", ви отримаєте місця, де вони були представлені, і ви можете відформатувати їх, проте ви форматуєте цитати до опублікованих презентацій.
Пітер Флом

Відповіді:


10

Принцип поетапного відбору

  1. Ви підходите до моделі з усіма бажаними змінними. Це ваша поточна найкраща модель.
  2. Ви видаляєте одну змінну (або додаєте її серед змінної, яка не використовується в поточній найкращій моделі), і для кожної з них ви підходите до нової моделі, і ви порівнюєте їх з кожною над і з оригінальною відповідно до BIC (або будь-якої інший критерій, наприклад, АПК ). Ви отримуєте ще одну "поточну найкращу модель".

Ви повторюєте 2. поки не буде зменшено BIC. У вас є лише локальний мінімум BIC, що означає, що ви не можете отримати найкращу модель серед усіх можливих варіантів підмножини змінних. Але все одно їх зазвичай занадто багато, тому це спосіб трохи оптимізувати без зайвої роботи.

Дивіться також Поетапну регресію та вибір моделі у Вікіпедії.


5

Поетапна регресія в основному відповідає моделі регресії шляхом додавання / випадання коваріатів по одному на основі визначеного критерію (у вашому прикладі вище критерій базується на BIC).

Зазначаючи вперед, ви говорите, Rщо ви хотіли б почати з найпростішої моделі (тобто одного коваріату), а потім додавати один коваріат, зберігаючи лише ті, що призводять до вдосконалення моделей BIC.

Вказуючи назад, ви говорите, Rщо ви хочете почати з повної моделі (тобто моделі з усіма коваріатами), а потім одноразово скидати коваріати, що призводить до поліпшення BIC.

Поетапна регресія може бути дуже небезпечною статистичною процедурою, оскільки це не оптимальна процедура вибору моделі. Цей метод може призвести до дуже поганого вибору моделі, оскільки він не захищає вас від таких проблем, як багаторазове порівняння.


Дякую. А як щодо "назад / вперед"?
Махмуд

Що ви маєте на увазі, що робити назад / вперед?

Один із методів stpewise () в R - "назад / вперед"! Це поєднання обох?
Махмуд

2
Пробачте, тепер я розумію, про що ви питаєте. Так, якщо ви вказуєте і те, і інше, воно застосовується як вперед, так і назад і вибирає той, який найкращий критерій.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.