Як я розумію, вибір змінних на основі p-значень (принаймні, в контексті регресії) сильно хибний. Здається, вибір змінних на основі AIC (або подібного) також вважається дефектом з деяких причин, хоча це здається трохи незрозумілим (наприклад, дивіться моє запитання та деякі посилання на цю тему тут: Що саме таке "поетапний вибір моделі"? ).
Але скажіть, що вам потрібно скористатися одним із цих двох методів, щоб вибрати найкращий набір прогнозів у вашій моделі.
Бернхем і Андерсон 2002 (Вибір моделі та мультимодельний висновок: практичний інформаційно-теоретичний підхід, стор. 83) стверджують, що не слід змішувати вибір змінної, заснованої на AIC, з тим, що базується на тестуванні гіпотез : "Тести нульових гіпотез та інформаційно-теоретичні підходи повинні не використовуються разом; вони є дуже різними парадигмами аналізу ".
З іншого боку, Zuur та ін. 2009 (Моделі змішаних ефектів із розширеннями в екології з R, стор. 541), схоже, виступає за використання AIC для того, щоб спочатку знайти оптимальну модель, а потім виконати "точну настройку", використовуючи тестування гіпотез : "Недоліком є те, що АПК може бути консервативним , і вам може знадобитися застосувати точну настройку (з використанням тестування гіпотез, що закуповується з підходу до одного), як тільки АПК обрала оптимальну модель "
Ви можете бачити, як це залишає читача обох книг розгубленим щодо того, який підхід слід дотримуватися.
1) Це просто різні "табори" статистичного мислення та тема розбіжностей між статистиками? Чи один із цих підходів зараз просто "застарів", але вважався доцільним на момент написання? Або один просто неправильний з самого початку?
2) Чи існував би сценарій, у якому такий підхід був би доцільним? Наприклад, я походить з біологічного походження, де я часто намагаюся визначити, які, якщо такі є, змінні, здається, впливають на мою відповідь або викликають їх. У мене часто є ряд кандидатських пояснювальних змінних, і я намагаюся знайти, які є "важливими" (відносно). Також зауважте, що набір змінних прогнозних кандидатів вже скорочується до тих, які вважаються певними біологічними значеннями, але це все ж може включати 5-20 кандидатних провісників.