після проведення поетапного відбору на основі критерію AIC, оманливим є перегляд p-значень для перевірки нульової гіпотези про те, що кожен справжній коефіцієнт регресії дорівнює нулю.
Дійсно, р-значення представляють ймовірність побачити тестову статистику принаймні такою ж крайньою, як і у вас, коли нульова гіпотеза є істинною. Якщо вірно, значення p повинно мати рівномірний розподіл.H0
Але після поетапного відбору (або, дійсно, після різноманітних інших підходів до вибору моделі), p-значення тих термінів, які залишаються в моделі, не мають цього властивості, навіть коли ми знаємо, що нульова гіпотеза є істинною.
Це відбувається тому, що ми обираємо змінні, які мають або мають тенденцію мати невеликі p-значення (залежно від точних критеріїв, якими ми користувалися). Це означає, що p-значення змінних, залишених у моделі, як правило, набагато менші, ніж вони були б, якби ми встановили одну модель. Зауважте, що вибір буде в середньому вибирати моделі, які, здається, підходять навіть краще, ніж справжня модель, якщо клас моделей включає справжню модель або якщо клас моделей є досить гнучким, щоб тісно наблизити справжню модель.
[Крім того, і в основному з тієї ж причини, коефіцієнти, які залишаються, відхиляються від нуля, а їх стандартні похибки є необ'єктивним низьким; це, в свою чергу, впливає на довірчі інтервали та прогнози - наші прогнози будуть занадто вузькими.]
Щоб побачити ці ефекти, ми можемо скористатись множинною регресією, де деякі коефіцієнти дорівнюють 0, а деякі ні, виконати покрокову процедуру, а потім для тих моделей, що містять змінні, що мали нульові коефіцієнти, подивимося на p-значення, що дають результат.
(У тому ж моделюванні ви можете переглянути оцінки та стандартні відхилення для коефіцієнтів та виявити ті, що відповідають ненульовим коефіцієнтам.)
Коротше кажучи, не доцільно вважати звичайні р-значеннями значимими.
Я чув, що слід розглядати всі змінні, залишені в моделі, як значущі.
Щодо того, чи слід усі значення в моделі після ступінчастості вважати "значущими", я не впевнений, наскільки це корисний спосіб поглянути на це. Що тоді мається на увазі "значення"?
Ось результат запуску R stepAIC
з налаштуваннями за замовчуванням на 1000 модельованих зразків з n = 100 та десятьма змінними-кандидатами (жодна з яких не пов'язана з відповіддю). У кожному випадку кількість підрахунків, залишених у моделі, підраховується:
Лише 15,5% часу було обрано правильну модель; решту часу модель включала терміни, які не відрізнялися від нуля. Якщо насправді можливо, що в наборі змінних кандидатів є змінні нульові коефіцієнти, ми, швидше за все, матимемо кілька термінів, де справжній коефіцієнт дорівнює нулю в нашій моделі. Як результат, незрозуміло, що гарно вважати всіх їх ненульовими.