Покрокова АПК - Чи існують суперечки щодо цієї теми?


17

Я прочитав незліченну кількість публікацій на цьому веб-сайті, які надзвичайно суперечать використанню ступінчастого вибору змінних, використовуючи будь-який критерій, будь то p-значення, AIC, BIC тощо.

Я розумію, чому ці процедури взагалі досить погані для вибору змінних. Мабуть, відомий пост Гунґа тут чітко ілюструє, чому; врешті-решт ми перевіряємо гіпотезу на тому ж наборі даних, який ми використовували, щоб придумати гіпотезу, яка є просто драгуванням даних. Крім того, на p-значення впливають такі величини, як колінеарність та виснаження, які сильно спотворюють результати тощо.

Однак останнім часом я досить вивчав прогнозування часових рядів і натрапив на добре поважний підручник Hyndman, в якому він тут згадує про використання поетапного вибору, щоб знайти оптимальне замовлення моделей ARIMA, зокрема. Насправді, в forecastпакеті на R добре відомий алгоритм, відомий як auto.arimaза замовчуванням, використовує поетапний вибір (з AIC, а не p-значеннями). Він також критикує вибір функцій на основі p-значення, який добре узгоджується з кількома публікаціями на цьому веб-сайті.

Зрештою, ми завжди повинні перекреслити валідацію якось наприкінці, якщо метою є розробка хороших моделей прогнозування / прогнозування. Однак, безумовно, тут є певна суперечність, коли мова йде про саму процедуру оціночних показників, відмінних від p-значень.

Хтось має думки щодо використання ступінчастої АПК у цьому контексті, але і взагалі поза цього контексту? Мене вчили вважати, що будь-який поетапний відбір поганий, але якщо чесно, auto.arima(stepwise = TRUE)це дає мені кращі результати вибірки, ніж, auto.arima(stepwise = FALSE)але, можливо, це просто збіг.


Одна з небагатьох речей, з якою можуть погодитись синоптики, - це те, що вибір однієї "найкращої" моделі зазвичай працює менш добре, ніж комбінування декількох різних моделей.
S. Kolassa - Відновіть Моніку

Відповіді:


20

Тут є кілька різних питань.

  • Напевно, головне питання полягає в тому, що вибір моделі (будь то використання p-значень або AIC, поетапно або все підмножини або щось інше) є в основному проблематичним для висновку (наприклад, отримання p-значень з відповідною помилкою I типу, довірчі інтервали з відповідним покриттям). Для прогнозування вибір моделі дійсно може вибрати кращу точку на осі зсуву дисперсії та покращити помилку, що не є вибіркою.
  • Для деяких класів моделей AIC асимптотично еквівалентна помилкові резюме CV (див., Наприклад, http://www.petrkeil.com/?p=836 ], тому використання AIC як обчислювально ефективного проксі для CV є розумним.
  • Покроковий вибір часто переважає інші методи вибору моделі (або усереднення ) (всі підмножини, якщо обчислювально можливо, або методи усадки). Але це просто і легко здійснити, і якщо відповідь буде досить чіткою (одні параметри, що відповідають сильним сигналам, інші слабкими, мало проміжними), то це дасть розумні результати. Знову ж таки, велика різниця між умовиводом і передбаченням. Наприклад, якщо у вас є кілька сильно співвіднесених прогнозів, вибір невірного (з "істини" / причинного погляду) є великою проблемою для висновку, але вибір тієї, яка трапляється для отримання найкращої АПК, є розумним стратегія прогнозування (хоча та, яка не вдасться, якщо ви спробуєте прогнозувати ситуацію, коли кореляція прогнозів змінюється ...)

Підсумок: для даних середнього розміру з розумним співвідношенням сигнал / шум поетапний вибір на основі AIC дійсно може створити захисну модель прогнозування ; див. для прикладу Murtaugh (2009).

Мерта, Пол А. "Виконання декількох методів відбору змінних, застосованих до реальних екологічних даних". Екологічні листи 12, вип. 10 (2009): 1061-1068.


pв будь-якому випадку оцінює книгу Бернхема та Андерсона "Вибір моделі та мультимодельний висновок: практичний інформаційно-теоретичний підхід".
COOLSerdash

Будь ласка, не запускайте мене з Бернхема та Андерсона. github.com/bbolker/discretization
Бен Болкер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.