Нерозуміння значення P?


17

Тому я багато читав про те, як правильно інтерпретувати P-значення, і з того, що я прочитав, значення p говорить НІЧОГО про ймовірність того, що нульова гіпотеза є правдивою чи помилковою. Однак, читаючи таке твердження:

Значення p представляє ймовірність помилки I типу або відхилення нульової гіпотези, коли вона відповідає дійсності. Чим менше значення p, тим менша ймовірність того, що ви неправильно відкинете нульову гіпотезу.

EDIT: А потім через 5 хвилин я прочитав:

Неправильні тлумачення значень Р дуже поширені. Найпоширеніша помилка - інтерпретувати значення P як вірогідність помилки, відкидаючи справжню нульову гіпотезу (помилка I типу).

Це мене бентежило. Який з них правильний? І може хто-небудь пояснити, як правильно інтерпретувати значення p і як воно належним чином стосується ймовірності помилки I типу?


1
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is trueЗначення p являє собою ймовірність априорі помилки типу I, тобто відхилення нульової гіпотези з припущенням, що це правда.
ttnphns

4
@Paul: ймовірність відхилення нуля, обумовленого нулем, є істинним, це ймовірність помилки I типу, це не те саме, що значення p. Достовірність помилки типу I дорівнює (для безперервних випадкових величин) вибраному рівню значущості, дивіться також мою відповідь нижче.

Так, я бачу зараз, ви абсолютно праві.
Павло

4
@fcoppens Ймовірність помилки I типу дорівнює лише попередньо вибраному рівню альфа, якщо ви умовляєте, що нульова гіпотеза є істинною. У безумовному випадку ви не знаєте, чи є нуль істинним чи хибним, і тому ви можете вказати лише ймовірність помилки I типу, якщо ви надаєте попередню ймовірність істинності нуля.
Майкл Лев - відновити Моніку

@Michael Lew: Ця умова на нуль згадується у моїй відповіді нижче?

Відповіді:


25

Через ваші коментарі я зроблю два окремі розділи:

р-значення

Під час тестування статистичної гіпотези ви можете знайти «статистичні докази» альтернативної гіпотези; Як я пояснив у наступному: якщо нам не вдасться відкинути нульову гіпотезу? , це схоже на "доказ протиріччям" у математиці.

Отже, якщо ми хочемо знайти «статистичні докази», то припустимо протилежне, що позначаємо того, що ми намагаємось довести, що ми називаємо H 1H0H1 . Після цього ми робимо вибірку і з вибірки обчислюємо так звану тестову статистику (наприклад, t-значення в t-тесті).

Тоді, як ми припускаємо, що є істинним, і що наша вибірка є випадковим чином виведена з розподілу за H 0 , ми можемо обчислити ймовірність спостереження значень, що перевищують або дорівнюють значенню, отриманому з нашої (випадкової) вибірки. Ця ймовірність називається значенням p.H0H0

Якщо це значення '' досить мало '', тобто менше, ніж вибраний нами рівень значущості, ми відкидаємо і вважаємо H 1H0H1 є 'статистично доведеним'.

У цьому способі важливо кілька речей:

  • ми отримали ймовірності під припущенням, що H0 є істинним
  • ми взяли випадкову вибірку з дистрибуції, яка була припущена під H0
  • ми вирішуємо знайти докази для якщо статистика випробувань, отримана з випадкової вибірки, має низьку ймовірність перевищення. Тож не неможливо його перевищення, тоді як H 0 є істинним, і в цих випадках ми робимо помилку типу I. H1H0

Отже, що таке помилка I типу: помилка типу I робиться, коли зразок, випадковим чином витягнутий з , призводить до висновку, що H 0H0H0 помилковий, а насправді це правда.

Зауважте, що це означає, що значення p не є ймовірністю помилки I типу . Дійсно, помилка I типу - це неправильне рішення тестом, і рішення може бути прийняте лише шляхом порівняння р-значення з обраним рівнем значущості, при цьому значення р само по собі не може приймати рішення, це лише після порівняння p-значення до обраного рівня значущості, за яким приймається рішення , і поки рішення не приймається, помилка типу I навіть не визначається.

Яке тоді р-значення? Потенційно неправильне відхилення пов'язане з тим, що ми проводимо випадкову вибірку під H 0 , тому може бути, що ми маємо '' невдачу '' шляхом нанесення вибірки, і що ця '' удача '' призводить до помилкового відхилення H 0 . Отже, p-значення (хоча це не зовсім коректно) більше схоже на ймовірність малювання '' поганого зразка ''. Правильна інтерпретація p-значення полягає в тому, що це ймовірність того, що статистика тесту перевищує або дорівнює значенню тестової статистики, отриманої з випадково складеної вибірки під H 0H0H0H0H0


Швидкість виявлення помилок (FDR)

Як було пояснено вище, щоразу, коли нульова гіпотеза відкидається, ми вважаємо це "статистичним доказом" для . Отже ми знайшли нові наукові знання, тому це називається відкриттям . Також пояснено вище, що ми можемо зробити помилкові відкриття (тобто помилково відхилити H 0 ), коли ми робимо помилку типу I. У цьому випадку ми маємо помилкову віру в наукову істину. Ми хочемо лише виявити справді справжні речі, і тому намагаємось звести помилкові відкриття до мінімуму, тобто контролюватимемо помилку типу I. Не так важко бачити, що ймовірність помилки I типу є обраним рівнем значущості α . Отже, для контролю за помилками I типу потрібно виправити αH1H0αα-рівень, що відображає вашу готовність прийняти "неправдиві докази".

Інтуїтивно це означає, що якщо ми намалюємо величезну кількість зразків, і з кожною вибіркою ми виконаємо тест, то частка цих тестів призведе до неправильного висновку. Важливо зазначити, що ми «усереднюємо багато зразків» ; такий же тест, багато зразків. α

Якщо ми використовуємо один і той же зразок, щоб зробити багато різних тестів, то у нас є помилка багаторазового тестування (див. Мій ансер на кордоні помилок у сімейному режимі: чи повторне використання наборів даних для різних досліджень незалежних питань призводить до кількох проблем тестування? ). У цьому випадку можна контролювати інфляцію, використовуючи методи керування рівнем помилок (FWER) , наприклад, виправлення Бонферроні.α

Інший підхід, ніж FWER, - це контроль швидкості виявлення помилок (FDR) . У цьому випадку можна контролювати кількість помилкових відкриттів (FD) серед усіх відкриттів (D), так що один контролює , D - кількість відхиленихH0.FDDH0

Отже, ймовірність помилок типу I пов'язана з виконанням одного і того ж тесту на багатьох різних зразках. Для величезної кількості зразків ймовірність помилок типу I збільшиться до кількості вибірок, що призводить до помилкового відхилення, поділеного на загальну кількість відібраних проб .

FDR повинен робити з великою кількістю тестів на той же зразок і для величезної кількості тестів , він буде сходитися до числа тестів , де проводиться помилка типу I (тобто число помилкових відкриттів) , поділене на загальному число відхилень (тобто загальна кількість відкриттів)H0 .

Зауважте, що, порівнюючи два вище абзаци:

  1. Контекст інший; один тест і багато зразків проти багатьох тестів і один зразок.
  2. Знаменник для обчислення ймовірності помилок I типу явно відрізняється від знаменника для обчислення FDR. Чисельники за певним чином схожі, але мають інший контекст.

FDR повідомляє вам, що якщо ви виконаєте багато тестів на одній вибірці і виявите 1000 відкриттів (тобто відхилень ), тоді при FDR 0,38 у вас буде 0,38 × 1000 помилкових відкриттів.H00.38×1000


5
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0Це так? Це не "дорівнює чи перевищує"? P-значення - це тест, що при істинному H0 ми спостерігаємо різницю або асоціацію, яка ця або сильніша за фактично спостережувану.
ttnphns

@ttnphns Для статистики безперервного тесту немає різниці, оскільки міра точки дорівнює нулю. Для дискретної статистики тесту ви праві (+1). Я відповідно змінив текст.

1
Ви намалюєте дуже корисну відмінність між значеннями P та коефіцієнтами помилок типу I, але, я думаю, вам потрібно бути більш обережними щодо слова "доведено". Додавання модифікатора "статистично" не пом'якшує його достатньо, на мою думку.
Майкл Лев - відновлення Моніки

1
Ви розглядали докази так, ніби він має лише бінарний стан: існує і не існує. У стандартному розумінні нестатистичних доказів слово поняття має ступінчасте існування, і воно складніше, ніж може охопити один вимір сили. Складність пов'язана з несумісністю міркувань щодо рівня помилок із звичайними тлумаченнями доказів. Мені було б дуже цікаво прочитати будь-який запис, який фіксує небінарне тлумачення «доказів» в рамках FDR. (Я його ще не бачив.)
Майкл Лев - відновив Моніку

1
Дякую за виправлення Я внесла відповідні зміни минулої ночі і зараховувала вашу посаду.
Антоні Пареллада

4

Перше твердження не є строго вірним.

З вишуканої статті про нерозуміння значущості: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )

"[Цей вислів] може виглядати схожим на визначення помилки типу I (тобто, ймовірність відхилення H0, хоча насправді це правда), але фактично відхилив H0, це рішення було б неправильним, якщо і лише тоді H0 були правдивими. Отже, ймовірність "того, що ви приймаєте неправильне рішення", є p (H0), і ця ймовірність ... не може бути отримана при тестуванні значущості гіпотези. "

Простіше кажучи, щоб оцінити ймовірність того, що ви неправильно відхилили H0, вам потрібна ймовірність того, що H0 є істинним, якого ви просто не можете отримати, використовуючи цей тест.


Дякую! Отже, коли я читаю першу частину statisticsdonewrong.com/p-value.html , автор робить висновок, що FDR становить 38%, тому ймовірність помилки I типу становить 38%?
rb612

FDR - частота хибних виявлень, і вона сильно відрізняється від помилки I типу, тому відповіді на ваше запитання немає. FDR повинен робити з декількома тестування, тобто , коли ви виконуєте кілька тестів на одному зразку, см stats.stackexchange.com/questions/164181 / ... . FDR є альтернативою частоті помилок Familywise, але пояснити, що кількість символів у коментарі занадто обмежена.

У свою відповідь я додав другий розділ для пояснення FDR.

1
Так само як неможливо визначити ймовірність того, що H0 є істинним без попереднього, неможливо визначити FDR без попереднього. Будьте уважні, як ви інтерпретуєте документи FDR, тому що пріори, які використовуються в них, не обов'язково мають відношення до ваших власних експериментальних обставин.
Майкл Лев - відновити Моніку

1

Правильна інтерпретація p-значення - це умовна ймовірність результату, щонайменше настільки ж сприятлива для альтернативної гіпотези, як і спостережуване значення (принаймні як "крайнє"), якщо вважати, що нульова гіпотеза є істинною . Неправильні інтерпретації зазвичай передбачають або граничну ймовірність, або переключення умови:

p-value=P(At least as extreme as observed outcome|H0)P(Type I error).

-1

The p-value allows us to determine whether the null hypothesis (or the claimed hypothesis) can be rejected or not. If the p-value is less than the significance level, α, then this represents a statistically significant result, and the null hypothesis should be rejected. If the p-value is greater than the significance level, α, then the null hypothesis cannot be rejected. This is the whole reason of looking up the p-value if you're using the table or using an online calculator, such as this one, p-value calculator, to find the p-value from the test statistic.

Now I know that you mentioned type I and type II errors. This really has nothing to do with the p-value. This has to do with the original data, such as the sample size used and the values obtained for the data. If the sample size is too small, for instance, this can lead to a type I error.


2
-1. I'm sorry to welcome you to our site with a downvote, but this answer is plainly incorrect: it simply is not the case that the p-value is the probability of truth of the null hypothesis. This is amply discussed in many threads about p-values and hypothesis tests, such as stats.stackexchange.com/questions/31.
whuber

1
I modified the original answer a little to make it more precise.
user1445657
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.