Через ваші коментарі я зроблю два окремі розділи:
р-значення
Під час тестування статистичної гіпотези ви можете знайти «статистичні докази» альтернативної гіпотези; Як я пояснив у наступному: якщо нам не вдасться відкинути нульову гіпотезу? , це схоже на "доказ протиріччям" у математиці.
Отже, якщо ми хочемо знайти «статистичні докази», то припустимо протилежне, що позначаємо того, що ми намагаємось довести, що ми називаємо H 1H0H1 . Після цього ми робимо вибірку і з вибірки обчислюємо так звану тестову статистику (наприклад, t-значення в t-тесті).
Тоді, як ми припускаємо, що є істинним, і що наша вибірка є випадковим чином виведена з розподілу за H 0 , ми можемо обчислити ймовірність спостереження значень, що перевищують або дорівнюють значенню, отриманому з нашої (випадкової) вибірки. Ця ймовірність називається значенням p.H0H0
Якщо це значення '' досить мало '', тобто менше, ніж вибраний нами рівень значущості, ми відкидаємо і вважаємо H 1H0H1 є 'статистично доведеним'.
У цьому способі важливо кілька речей:
- ми отримали ймовірності під припущенням, що H0 є істинним
- ми взяли випадкову вибірку з дистрибуції, яка була припущена під H0
- ми вирішуємо знайти докази для якщо статистика випробувань, отримана з випадкової вибірки, має низьку ймовірність перевищення. Тож не неможливо його перевищення, тоді як H 0 є істинним, і в цих випадках ми робимо помилку типу I. H1H0
Отже, що таке помилка I типу: помилка типу I робиться, коли зразок, випадковим чином витягнутий з , призводить до висновку, що H 0H0H0 помилковий, а насправді це правда.
Зауважте, що це означає, що значення p не є ймовірністю помилки I типу . Дійсно, помилка I типу - це неправильне рішення тестом, і рішення може бути прийняте лише шляхом порівняння р-значення з обраним рівнем значущості, при цьому значення р само по собі не може приймати рішення, це лише після порівняння p-значення до обраного рівня значущості, за яким приймається рішення , і поки рішення не приймається, помилка типу I навіть не визначається.
Яке тоді р-значення? Потенційно неправильне відхилення пов'язане з тим, що ми проводимо випадкову вибірку під H 0 , тому може бути, що ми маємо '' невдачу '' шляхом нанесення вибірки, і що ця '' удача '' призводить до помилкового відхилення H 0 . Отже, p-значення (хоча це не зовсім коректно) більше схоже на ймовірність малювання '' поганого зразка ''. Правильна інтерпретація p-значення полягає в тому, що це ймовірність того, що статистика тесту перевищує або дорівнює значенню тестової статистики, отриманої з випадково складеної вибірки під H 0H0H0H0H0
Швидкість виявлення помилок (FDR)
Як було пояснено вище, щоразу, коли нульова гіпотеза відкидається, ми вважаємо це "статистичним доказом" для . Отже ми знайшли нові наукові знання, тому це називається відкриттям . Також пояснено вище, що ми можемо зробити помилкові відкриття (тобто помилково відхилити H 0 ), коли ми робимо помилку типу I. У цьому випадку ми маємо помилкову віру в наукову істину. Ми хочемо лише виявити справді справжні речі, і тому намагаємось звести помилкові відкриття до мінімуму, тобто контролюватимемо помилку типу I. Не так важко бачити, що ймовірність помилки I типу є обраним рівнем значущості α . Отже, для контролю за помилками I типу потрібно виправити αH1H0αα-рівень, що відображає вашу готовність прийняти "неправдиві докази".
Інтуїтивно це означає, що якщо ми намалюємо величезну кількість зразків, і з кожною вибіркою ми виконаємо тест, то частка цих тестів призведе до неправильного висновку. Важливо зазначити, що ми «усереднюємо багато зразків» ; такий же тест, багато зразків. α
Якщо ми використовуємо один і той же зразок, щоб зробити багато різних тестів, то у нас є помилка багаторазового тестування (див. Мій ансер на кордоні помилок у сімейному режимі: чи повторне використання наборів даних для різних досліджень незалежних питань призводить до кількох проблем тестування? ). У цьому випадку можна контролювати інфляцію, використовуючи методи керування рівнем помилок (FWER) , наприклад, виправлення Бонферроні.α
Інший підхід, ніж FWER, - це контроль швидкості виявлення помилок (FDR) . У цьому випадку можна контролювати кількість помилкових відкриттів (FD) серед усіх відкриттів (D), так що один контролює , D - кількість відхиленихH0.FDDH0
Отже, ймовірність помилок типу I пов'язана з виконанням одного і того ж тесту на багатьох різних зразках. Для величезної кількості зразків ймовірність помилок типу I збільшиться до кількості вибірок, що призводить до помилкового відхилення, поділеного на загальну кількість відібраних проб .
FDR повинен робити з великою кількістю тестів на той же зразок і для величезної кількості тестів , він буде сходитися до числа тестів , де проводиться помилка типу I (тобто число помилкових відкриттів) , поділене на загальному число відхилень (тобто загальна кількість відкриттів)H0 .
Зауважте, що, порівнюючи два вище абзаци:
- Контекст інший; один тест і багато зразків проти багатьох тестів і один зразок.
- Знаменник для обчислення ймовірності помилок I типу явно відрізняється від знаменника для обчислення FDR. Чисельники за певним чином схожі, але мають інший контекст.
FDR повідомляє вам, що якщо ви виконаєте багато тестів на одній вибірці і виявите 1000 відкриттів (тобто відхилень ), тоді при FDR 0,38 у вас буде 0,38 × 1000 помилкових відкриттів.H00.38×1000
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is true
Значення p являє собою ймовірність априорі помилки типу I, тобто відхилення нульової гіпотези з припущенням, що це правда.