Які умови даних слід слідкувати, коли значення p може бути не найкращим способом визначення статистичної значущості? Чи є конкретні типи проблем, які належать до цієї категорії?
Які умови даних слід слідкувати, коли значення p може бути не найкращим способом визначення статистичної значущості? Чи є конкретні типи проблем, які належать до цієї категорії?
Відповіді:
Ви запитуєте про драгування даних , що відбувається при тестуванні дуже великої кількості гіпотез щодо набору даних або тестуванні гіпотез щодо набору даних, які були запропоновані тими ж даними.
Зокрема, ознайомтеся з небезпекою декількох гіпотез та тестуванням гіпотез, запропонованих даними .
Рішення полягає у використанні певної корекції для частоти помилкових виявлень або частоти помилок Familywise , таких як метод Шеффе або корекція Бонферроні (дуже старої школи) .
Дещо менш жорстким способом це може допомогти відфільтрувати ваші відкриття за довірчим інтервалом для коефіцієнта шансів (АБО) для кожного статистичного результату. Якщо довірчий інтервал 99% для коефіцієнта шансів становить 10-12, то АБО <= 1 з деякою вкрай малою ймовірністю, особливо якщо розмір вибірки також великий. Якщо ви знайдете щось подібне, це, мабуть, сильний ефект, навіть якщо це вийшло з перевірки мільйонів гіпотез.
Не слід розглядати значення p поза контекстом.
Один досить базовий момент (як показано на xkcd ) полягає в тому, що вам потрібно врахувати, скільки тестів ви насправді робите. Очевидно, вам не слід шокувати, коли ви бачите p <0,05 для одного з 20 тестів, навіть якщо нульова гіпотеза відповідає дійсності кожного разу.
Більш тонкий приклад цього є у фізиці високих енергій і відомий як ефект пошуку в іншому місці . Чим більший простір параметрів ви шукаєте сигнал, який може представляти нову частинку, тим більше шансів на те, що ви побачите очевидний сигнал, який насправді обумовлений випадковими коливаннями.
Одне, що вам слід знати, - це розмір вибірки, який ви використовуєте. Дуже великі вибірки, наприклад, економісти, що використовують дані перепису, призведуть до спущених p-значень. Ця стаття "Занадто велика для невдачі: великі вибірки та проблема p-значення" охоплює деякі питання.