Я думаю, що цей підхід помиляється, але, можливо, він буде кориснішим, якщо я поясню, чому. Бажання дізнатись найкращу модель з урахуванням деякої інформації про велику кількість змінних - цілком зрозуміло. Більше того, це ситуація, в якій люди, здається, регулярно опиняються. Крім того, багато підручників (та курсів) з регресії охоплюють ступінчасті методи вибору, що означає, що вони повинні бути законними. Однак, на жаль, їх немає, і для спарювання цієї ситуації та мети досить складно успішно орієнтуватися. Далі наведено перелік проблем із автоматизованими процедурами вибору ступінчастої моделі (приписується Френку Харреллу та скопійовано звідси ):
- Це дає значення R-квадрата, які погано упереджені, щоб бути високими.
- Тести F та chi-квадрата, що цитуються поруч із кожною змінною на роздруківці, не мають заявленого розподілу.
- Метод дає довірчі інтервали для ефектів та прогнозованих значень, які є хибно вузькими; див. Алтман і Андерсен (1989).
- Це дає р-значення, які не мають належного значення, і правильна корекція для них є складною проблемою.
- Він дає упереджені коефіцієнти регресії, які потребують усадки (коефіцієнти для інших змінних занадто великі; див. Tibshirani [1996]).
- У нього є серйозні проблеми за наявності колінеарності.
- Він заснований на методах (наприклад, F-тестах для вкладених моделей), які мали використовуватись для тестування попередньо визначених гіпотез.
- Збільшення розміру вибірки не дуже допомагає; див. Дерксен і Кесельман (1992).
- Це дозволяє нам не думати про проблему.
- Тут використовується багато паперу.
Питання в тому, що так поганого в цих процедурах / чому виникають ці проблеми? Більшість людей, які пройшли базовий курс регресії, до кінця знайомі з поняттям регресії , тому саме це я використовую для пояснення цих питань. (Хоча спочатку це може здатися поза темою, майте на увазі, я обіцяю, що це актуально.)
Уявіть собі тренера треків середньої школи в перший день спробу. З'являються тридцять дітей. Ці діти мають певний базовий рівень властивості, до якого ні тренер, ні хтось інший не має прямого доступу. Як результат, тренер робить єдине, що може зробити, - це змусити їх усіх пробіг на 100 м. Часи, мабуть, є мірою їх внутрішньої здатності і приймаються як такі. Однак вони ймовірні; деяка частка того, наскільки добре хтось, заснована на їхніх фактичних можливостях, а деяка частка - випадкова. Уявіть, що справжня ситуація така:
set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)
Результати першої гонки відображені на наступному малюнку разом із коментарями тренера дітям.
Зауважте, що розбиття дітей за часом їх перегонів залишає перекриття їх внутрішньої здатності - цей факт є вирішальним. Після того, як похвалити одних і кричати на інших (як це прагнуть тренери), він змушує їх бігати знову. Ось результати другої гонки з реакціями тренера (імітовані за тією ж моделлю вище):
Зауважте, що їхня внутрішня здатність однакова, але часи підскакували відносно першої раси. З точки зору тренера, ті, на кого він кричав, мали тенденцію до поліпшення, а ті, кого він похвалив, мали тенденцію до гіршого (я адаптував цей конкретний приклад із цитати Канемана, переліченої на сторінці вікі), хоча насправді регресія до середнього значення є простою математичною наслідок того, що тренер вибирає спортсменів для команди на основі вимірювання, яке частково є випадковим.
Тепер, що це стосується автоматизованих (наприклад, поетапних) методів вибору моделі? Розробка та підтвердження моделі на основі одного і того ж набору даних іноді називається драгуванням даних. Хоча серед змінних є деякі основні взаємозв'язки, і очікується, що міцніші зв'язки дадуть більш високі бали (наприклад, вища t-статистика), це випадкові змінні і реалізовані значення містять помилки. Таким чином, коли ви вибираєте змінні на основі більш високих (або нижчих) реалізованих значень, вони можуть бути такими через їх основне справжнє значення, помилку або те і інше. Якщо ви продовжите так, ви будете настільки здивовані, як і тренер після другої гонки. Це вірно, чи вибираєте змінні на основі високої t-статистики або низьких взаємозв'язків. Щоправда, використання AIC краще, ніж використання p-значень, оскільки воно карає модель за складністю, але AIC сама по собі є випадковою змінною (якщо кілька разів запустити дослідження і помістити ту саму модель, AIC відскочить так само, як і все інше). На жаль,
Я сподіваюся, що це корисно.