Коли р-значення оманливі?


14

Які умови даних слід слідкувати, коли значення p може бути не найкращим способом визначення статистичної значущості? Чи є конкретні типи проблем, які належать до цієї категорії?


2
Snarky відповідь: майже завжди. Існує величезний стимул створювати помилки типу 1 (тобто "помилкові тривоги"), коли аналітики вивчають дані, тому майже всі р-значення, з якими ви зіткнетеся, "занадто" малі.
statsRus

7
Просто викидаючи це там, але хіба не було б подібного питання найкраще ставитись на перехресну перевірку ?
buruzaemon

1
@buruzaemon: Можливо. Я здійснив пошук, це найближча відповідність: stats.stackexchange.com/questions/67320/… Здається , не так багато питань, які стосуються цього.
Олексій І

Відповіді:


9

Ви запитуєте про драгування даних , що відбувається при тестуванні дуже великої кількості гіпотез щодо набору даних або тестуванні гіпотез щодо набору даних, які були запропоновані тими ж даними.

Зокрема, ознайомтеся з небезпекою декількох гіпотез та тестуванням гіпотез, запропонованих даними .

Рішення полягає у використанні певної корекції для частоти помилкових виявлень або частоти помилок Familywise , таких як метод Шеффе або корекція Бонферроні (дуже старої школи) .

Дещо менш жорстким способом це може допомогти відфільтрувати ваші відкриття за довірчим інтервалом для коефіцієнта шансів (АБО) для кожного статистичного результату. Якщо довірчий інтервал 99% для коефіцієнта шансів становить 10-12, то АБО <= 1 з деякою вкрай малою ймовірністю, особливо якщо розмір вибірки також великий. Якщо ви знайдете щось подібне, це, мабуть, сильний ефект, навіть якщо це вийшло з перевірки мільйонів гіпотез.


1
Хоча Бонферроні, безумовно, старої школи, він все ще досить популярний. З нею пов'язаний метод, який називається корекцією Шідака ( en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction ). Я це закликаю, тому що в широкомасштабній системі націлювання реклами, над якою я працював, ми змогли реалізувати такий підхід як АДС в вулику. Однак це краще працює лише тоді, коли ти маєш незалежність між тестами. Якщо ні, то вам не доведеться повернутися до Бонферроні чи іншого способу.
Кріс Сімокат

5

Не слід розглядати значення p поза контекстом.

Один досить базовий момент (як показано на xkcd ) полягає в тому, що вам потрібно врахувати, скільки тестів ви насправді робите. Очевидно, вам не слід шокувати, коли ви бачите p <0,05 для одного з 20 тестів, навіть якщо нульова гіпотеза відповідає дійсності кожного разу.

Більш тонкий приклад цього є у фізиці високих енергій і відомий як ефект пошуку в іншому місці . Чим більший простір параметрів ви шукаєте сигнал, який може представляти нову частинку, тим більше шансів на те, що ви побачите очевидний сигнал, який насправді обумовлений випадковими коливаннями.


2

Одне, що вам слід знати, - це розмір вибірки, який ви використовуєте. Дуже великі вибірки, наприклад, економісти, що використовують дані перепису, призведуть до спущених p-значень. Ця стаття "Занадто велика для невдачі: великі вибірки та проблема p-значення" охоплює деякі питання.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.