Я прочитав незліченну кількість публікацій на цьому веб-сайті, які надзвичайно суперечать використанню ступінчастого вибору змінних, використовуючи будь-який критерій, будь то p-значення, AIC, BIC тощо.
Я розумію, чому ці процедури взагалі досить погані для вибору змінних. Мабуть, відомий пост Гунґа тут чітко ілюструє, чому; врешті-решт ми перевіряємо гіпотезу на тому ж наборі даних, який ми використовували, щоб придумати гіпотезу, яка є просто драгуванням даних. Крім того, на p-значення впливають такі величини, як колінеарність та виснаження, які сильно спотворюють результати тощо.
Однак останнім часом я досить вивчав прогнозування часових рядів і натрапив на добре поважний підручник Hyndman, в якому він тут згадує про використання поетапного вибору, щоб знайти оптимальне замовлення моделей ARIMA, зокрема. Насправді, в forecast
пакеті на R добре відомий алгоритм, відомий як auto.arima
за замовчуванням, використовує поетапний вибір (з AIC, а не p-значеннями). Він також критикує вибір функцій на основі p-значення, який добре узгоджується з кількома публікаціями на цьому веб-сайті.
Зрештою, ми завжди повинні перекреслити валідацію якось наприкінці, якщо метою є розробка хороших моделей прогнозування / прогнозування. Однак, безумовно, тут є певна суперечність, коли мова йде про саму процедуру оціночних показників, відмінних від p-значень.
Хтось має думки щодо використання ступінчастої АПК у цьому контексті, але і взагалі поза цього контексту? Мене вчили вважати, що будь-який поетапний відбір поганий, але якщо чесно, auto.arima(stepwise = TRUE)
це дає мені кращі результати вибірки, ніж, auto.arima(stepwise = FALSE)
але, можливо, це просто збіг.