Чому p-значення вводять в оману після поетапного вибору?


28

Розглянемо, наприклад, модель лінійної регресії. Я чув, що при обробці даних після поетапного відбору, заснованого на критерії AIC, оманливим є перегляд p-значень для перевірки нульової гіпотези про те, що кожен справжній коефіцієнт регресії дорівнює нулю. Я чув, що слід вважати, що всі змінні, залишені в моделі, мають справжній коефіцієнт регресії, відмінний від нуля. Хтось може мені пояснити, чому? Дякую.



1
У theoreticalecology.wordpress.com/2018/05/03 / ... , я покажу деякі R код , який демонструє інфляцію типу I після вибору АІК. Зауважте, що не має значення, поетапний чи глобальний, справа в тому, що вибір моделі в основному є багаторазовим тестуванням.
Флоріан Хартіг

Відповіді:


33

після проведення поетапного відбору на основі критерію AIC, оманливим є перегляд p-значень для перевірки нульової гіпотези про те, що кожен справжній коефіцієнт регресії дорівнює нулю.

Дійсно, р-значення представляють ймовірність побачити тестову статистику принаймні такою ж крайньою, як і у вас, коли нульова гіпотеза є істинною. Якщо вірно, значення p повинно мати рівномірний розподіл.H0

Але після поетапного відбору (або, дійсно, після різноманітних інших підходів до вибору моделі), p-значення тих термінів, які залишаються в моделі, не мають цього властивості, навіть коли ми знаємо, що нульова гіпотеза є істинною.

Це відбувається тому, що ми обираємо змінні, які мають або мають тенденцію мати невеликі p-значення (залежно від точних критеріїв, якими ми користувалися). Це означає, що p-значення змінних, залишених у моделі, як правило, набагато менші, ніж вони були б, якби ми встановили одну модель. Зауважте, що вибір буде в середньому вибирати моделі, які, здається, підходять навіть краще, ніж справжня модель, якщо клас моделей включає справжню модель або якщо клас моделей є досить гнучким, щоб тісно наблизити справжню модель.

[Крім того, і в основному з тієї ж причини, коефіцієнти, які залишаються, відхиляються від нуля, а їх стандартні похибки є необ'єктивним низьким; це, в свою чергу, впливає на довірчі інтервали та прогнози - наші прогнози будуть занадто вузькими.]

Щоб побачити ці ефекти, ми можемо скористатись множинною регресією, де деякі коефіцієнти дорівнюють 0, а деякі ні, виконати покрокову процедуру, а потім для тих моделей, що містять змінні, що мали нульові коефіцієнти, подивимося на p-значення, що дають результат.

(У тому ж моделюванні ви можете переглянути оцінки та стандартні відхилення для коефіцієнтів та виявити ті, що відповідають ненульовим коефіцієнтам.)

Коротше кажучи, не доцільно вважати звичайні р-значеннями значимими.

Я чув, що слід розглядати всі змінні, залишені в моделі, як значущі.

Щодо того, чи слід усі значення в моделі після ступінчастості вважати "значущими", я не впевнений, наскільки це корисний спосіб поглянути на це. Що тоді мається на увазі "значення"?


Ось результат запуску R stepAICз налаштуваннями за замовчуванням на 1000 модельованих зразків з n = 100 та десятьма змінними-кандидатами (жодна з яких не пов'язана з відповіддю). У кожному випадку кількість підрахунків, залишених у моделі, підраховується:

введіть тут опис зображення

Лише 15,5% часу було обрано правильну модель; решту часу модель включала терміни, які не відрізнялися від нуля. Якщо насправді можливо, що в наборі змінних кандидатів є змінні нульові коефіцієнти, ми, швидше за все, матимемо кілька термінів, де справжній коефіцієнт дорівнює нулю в нашій моделі. Як результат, незрозуміло, що гарно вважати всіх їх ненульовими.


З пропозицією «Я чув , що один повинен розглянути всі змінні , що залишилися в моделі , як значне замість» я мав в виду: «Я чув , що слід враховувати всі змінні , що залишилися в моделі, що мають істинний коефіцієнт регресії відрізняється формою нульовий замість»
Іоанн М

Гаразд; Я додав результати симуляції, що говорить про це.
Glen_b -Встановіть Моніку

10
+1 Я робив ті самі симуляції в ці вихідні, щоб підготуватися до заняття з методів вибору моделі. Я отримав однакові шаблони результатів, досліджуючи до змінних і використовуючи спостережень. Наступний крок - побачити, що може зробити корекція Бонферроні. k=33910k
whuber

7
@whuber дійсно, бачення того, який ефект матиме Бонферроні (на різні аспекти проблеми), також було моїм негайним нахилом до завершення вищевказаного моделювання, але це не те, що люди насправді мають тенденцію робити поетапно, тому я не звертався це тут. Мені буде приємно почути, як ви обговорюєте методи вибору моделі. Я очікую, що я навчусь зовсім небагато.
Glen_b -Встановіть Моніку

@Glen_b: (Цитується з вашої відповіді) Це означає, що p-значення змінних, залишених у моделі, як правило, набагато менші, ніж вони були б, якби ми встановили одну модель, навіть "якщо одна модель, яку ми підходимо, буде той, який генерував дані, чи справжня модель є нульовою, чи ні ". Чи можете ви трохи пояснити виділену частину? Яким чином може бути, що значення p менше в моделі, яка має таку ж специфікацію, як і процес генерування даних (справжня модель)?
шані

8

Аналогія може допомогти. Поетапна регресія, коли змінними-кандидатами є індикаторні (фіктивні) змінні, що представляють взаємовиключні категорії (як в ANOVA), точно відповідає вибору, які групи об’єднати, з’ясувавши, які групи мінімально відрізняються за -тестами. Якщо початковий ANOVA був протестований на але остаточні згорнуті групи тестують на де отримана статистика не має розподілу і хибнопозитивна ймовірність вийде з-під контролю.tFp1,np1Fq1,nq1q<pF

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.