Якщо ми не зможемо відкинути нульову гіпотезу у великому дослідженні, чи не є це свідченням нуля?


59

Основним обмеженням перевірки значущості гіпотези є те, що воно не дозволяє досліднику збирати докази на користь нуля ( Джерело )

Я бачу цю заяву повторювану в декількох місцях, але не можу знайти виправдання для неї. Якщо ми проводимо велику дослідження , і ми не знаходимо статистично значущі докази проти нульової гіпотези , що не то, що докази для нульової гіпотези?


3
Але ми починаємо наш аналіз, вважаючи, що нульова гіпотеза правильна ... Припущення може бути помилковим. Можливо, у нас недостатньо енергії, але це не означає, що припущення є правильним.
SmallChess

13
Якщо ви цього ще не прочитали, я настійно рекомендую «Земля кругла» (p <.05) від Jacob Cohen . Він підкреслює, що при досить великому розмірі вибірки ви можете майже відкинути будь-яку нульову гіпотезу. Він також висловлюється на користь використання розмірів ефектів та довірчих інтервалів, і пропонує акуратно представити байєсівські методи. Плюс - чисте захоплення читати!
Домінік Комтойс

7
Нульові гіпотези можуть бути лише просто помилковими. ... невідхилення нуля не є свідченням проти досить близької альтернативи.
Glen_b

3
Дивіться stats.stackexchange.com/questions/85903 . Але дивіться також stats.stackexchange.com/questions/125541 . Якщо, виконуючи "велике дослідження", ви маєте на увазі "достатньо великий, щоб мати високу потужність для виявлення мінімального ефекту, що цікавить", то відмова відхилення може трактуватися як прийняття нуля.
амеба каже, що відбудується Моніка

7
Розглянемо парадокс підтвердження Хемпеля. Вивчення ворони та переконання, що вона чорна - це підтримка "всі ворони чорні". Але логічно вивчаючи нечорний предмет і бачачи, що це не ворона, слід також підтримувати пропозицію, оскільки висловлювання "всі ворони чорні" та "всі нечорні об'єкти не ворони" є логічно рівнозначними ... Резолюція полягає в тому, що кількість нечорних предметів набагато, набагато більша, ніж кількість ворон, тому підтримка, яку надає чорна ворона, суттєво більша, ніж крихітна підтримка, яку дає не чорна некорона.
Бен

Відповіді:


63

В іншому випадку , щоб відхилити нульову гіпотезу , є доказом того, що нульова гіпотеза вірна, але вона не може бути особливо хорошим доказом, і це , звичайно , НЕ доводить нульову гіпотезу.

Візьмемо короткий об’їзд. Розгляньте на мить старий кліше:

Відсутність доказів не є свідченням відсутності.

Незважаючи на свою популярність, це твердження - нісенітниця. Якщо ви шукаєте щось і не можете його знайти, це абсолютно доказ того, що його там немає. Наскільки хороші ці докази, залежить від того, наскільки ретельним був ваш пошук. Короткий пошук дає слабкі свідчення; вичерпний пошук дає вагомі докази.

Тепер повернемося до тестування гіпотез. Запускаючи тест на гіпотезу, ви шукаєте докази того, що нульова гіпотеза не відповідає дійсності. Якщо ви цього не знайдете, то це, безумовно, свідчить про те, що нульова гіпотеза є правдивою, але наскільки сильні це докази? Щоб це знати, ви повинні знати, наскільки ймовірно, що докази, які змусили б вас відкинути нульову гіпотезу, могли б уникнути вашого пошуку. Тобто, яка ймовірність помилкового негативу на вашому тесті? Це пов'язано з потужністю тесту (конкретно, це доповнення, 1- .)ββ

Тепер потужність тесту, а отже, помилковий негативний показник, як правило, залежить від розміру ефекту, який ви шукаєте. Великі ефекти легше виявити, ніж малі. Тому для експерименту не існує єдиної , а отже, немає остаточної відповіді на питання про те, наскільки сильні докази нульової гіпотези. По-іншому, завжди є якийсь розмір ефекту, достатньо малий, щоб це не було виключено експериментом.β

Звідси йти два способи. Іноді ви знаєте, що вам не байдуже розмір ефекту, менший за деякий поріг. У такому випадку ви, ймовірно, повинні переробити експеримент таким чином, що нульовою гіпотезою є те, що ефект вище цього порогу, а потім перевірити альтернативну гіпотезу про те, що ефект знаходиться нижче порогового значення. Крім того, ви можете використовувати свої результати, щоб встановити межі щодо правдоподібного розміру ефекту. Ваш висновок був би таким, що розмір ефекту лежить у певному інтервалі, з певною вірогідністю. Такий підхід - це лише невеликий крок від байєсівського лікування, про яке ви, можливо, захочете дізнатися більше, якщо ви часто опинитесь у такій ситуації.

Є приємна відповідь на пов’язане питання, яке стосується доказів тестування на відсутність , що може бути корисним.


9
Розглянемо тест гіпотези з , з і незначним р-значенням. Згідно з вашими міркуваннями, це деякі докази для . Інший тест гіпотези з , з і несуттєвим значенням p, надасть би деякі докази для . Ці докази очевидно суперечать. H1:μ>2x¯=3μ2H1:μ<4x¯=3μ4
Macond

4
Я не впевнений, що я слідую за вашим аргументом. З того, що я можу вам сказати, ви описуєте два експерименти, кожен з яких дає (мабуть, досить слабкі) докази однієї з двох взаємно несуперечливих гіпотез. Чому це дивно?
Ніхто

8
Інший приклад: загальний . Якщо ви не відкинути це не означає , що у вас є докази того, що серед всіх інших значень на речовій прямий, справжнє середнє є саме 0 ..? Ця відповідь вводить в оману! H0:μ=0
Тім

3
Мені подобається ваш опис доказів - це, здається, швидко призводить до фактора Байєса як кількісного визначення підтримки даних однієї моделі проти іншої. Чи дає свідчення за або проти ? Ну, це залежить від вашої попередньої щільності для : якщо ви вважаєте, що або десь трохи менше 2, або десь набагато вище 3, дані дають свідчення про це; якщо ви думаєте «s з однаковою ймовірністю перебувати в будь-якому місці в межах від -10 & 10, дані свідчать проти нього. Але в умовах частого аналізу ваш ступінь переконань не представлений цифрою, тож яке поняття доказів застосовується? x¯=3μ2μμμ
Scortchi - Відновлення Моніки

6
Це мені нагадує гіпотезу Рімана. Ми шукали і шукали нетривіальні нулі за межами лінії з реальною частиною 1/2, але не змогли знайти жодної. І хоча ми не вважаємо гіпотезу Рімана правдивою, тому що ми її не довели, більшість математиків вважають, що це правда, і є безліч результатів, які умовно вірні гіпотезі Рімана :) Отже, у цьому випадку ми інтерпретували відсутність доказів як доказів відсутності
мураха

29

NHST покладається на p-значення, які говорять нам: Враховуючи, що нульова гіпотеза є правдивою, яка ймовірність того, що ми спостерігаємо наші дані (або більш крайні дані)?

Ми припускаємо, що нульова гіпотеза є правдивою - це означає, що нульова гіпотеза є 100% правильною. Невеликі p-значення говорять нам про те, що, якщо нульова гіпотеза є правдивою, наші дані (або більш крайні дані) малоймовірні.

Але що нам говорить велика р-величина? Це говорить нам про те, що, враховуючи нульову гіпотезу, наші дані (або більш крайні дані) є ймовірними.

Взагалі, P (A | B) ≠ P (B | A).

Уявіть, що ви хочете взяти велике значення p як доказ нульової гіпотези. Ви покладаєтесь на цю логіку:

  • Якщо нуль істинний, то ймовірність високого р-значення. ( Оновлення: Неправда. Див. Коментарі нижче. )
  • Знайдено високе p-значення.
  • Тому нуль вірно.

Це набуває більш загальної форми:

  • Якщо B вірно, то A ймовірно.
  • A відбувається.
  • Тому B - це правда.

Це помилково, однак, як видно з прикладу:

  • Якщо надворі йшов дощ, то вірогідна земля мокра.
  • Земля мокра.
  • Тому надворі йшов дощ.

Земля могла бути дуже мокрою, бо йшов дощ. Або це може бути через спринклерну систему, хтось чистить їхні водостоки, зламався водогін тощо. Більш екстремальні приклади можна знайти за посиланням вище.

Це дуже складна концепція. Якщо ми хочемо доказів нульового значення, потрібен байєсівський висновок. Для мене найбільш доступне пояснення цієї логіки - Rouder et al. (2016). в папері Чи є вільний обід у висновках? опубліковано в « Темах когнітивної науки», 8, с. 520–547.


3
Мені не подобається, що всі ваші приклади роблять висновок "X - це правда". Мати докази на щось - це не те саме, що робити щось із 100% визначеністю. Якщо я виходжу назовні, а земля мокра, це є свідченням того, що "пішов дощ". Це свідчить, що набагато ймовірніше, що трапився дощ.
Атте Ювонен

Це справедливо. Що Rouder та ін. Папір, до якої я посилався наприкінці своєї відповіді, не має прикладів, які б з певністю мали висновки.
Марк Білий

6
@AtteJuvonen так, у нас є деякі докази дощу, але ми не знаємо, наскільки це ймовірно, тому єдиний висновок, який ви можете зробити, - це те, що "могло піти дощ, або це могло бути щось інше, що зробило землю мокрою" . Отже, у вас є непереконливі докази. Тільки на підставі байєсівської статистики можна зробити протилежний аргумент.
Тім

3
Я не погоджуюся з вашим висновком "Якщо ми хочемо доказів недійсного, потрібен байєсівський висновок"; Дослідження, яке ви цитуєте, ведеться від Wagenmakers, який є дуже голосовим прихильником байєсівської статистики, тому очевидно, що вони це стверджують. Але насправді можна легко виявити докази «нульового» в парадигмі частолістського характеру, наприклад, провівши TOST (два однобічні тести) на еквівалентність. (cc @AtteJuvonen).
Амеба каже, що повернеться до Моніки

10
"Якщо нуль вірно, то ймовірність високого p." - це не правильно. Якщо нульова гіпотеза вірна, тоpU[0,1] , тому високі значення не є більш імовірними, ніж низькі за нульовою гіпотезою. Все, що ви можете сказати, - це те, що високе значення швидше за нульове, ніж під іншими гіпотезами, - але гіпотези є чи то дотриманими, так і ні, тому гіпотези не є простором ймовірності, в якому ми працюємо. Якщо ми не працюємо в байєсівській парадигмі! І саме тут ваш аргумент, на жаль, ламається. pp
S. Kolassa - Відновити Моніку

14

Щоб зрозуміти, що неправильно з припущенням, див. Наступний приклад:

Уявіть вольєр у зоопарку, де ви не можете побачити його мешканців. Ви хочете перевірити гіпотезу про те, що в ній живуть мавпи, поклавши в клітку банан і перевірити, чи не зникне він наступного дня. Це повторюється N разів для посилення статистичної значущості.

Тепер ви можете сформулювати нульову гіпотезу: Зважаючи на те, що в вольєрі є мавпи, велика ймовірність, що вони знайдуть і з'їдять банан, тому якщо банани не торкаються кожного дня, дуже неможливо, що всередині є якісь мавпи.

Але тепер ви бачите, що банани зникають (майже) щодня. Це говорить вам про те, що мавпи всередині?

Звичайно, ні, тому що є й інші тварини, яким подобаються банани, або, можливо, якийсь уважний зоопарк щовечора прибирає банан.

То яка помилка, яка допущена в цій логіці? Справа в тому, що ви нічого не знаєте про ймовірність того, що банани зникнуть, якщо всередині немає мавп. Для підтвердження нульової гіпотези ймовірність випадання бананів повинна бути невеликою, якщо нульова гіпотеза помилкова, але це не повинно бути так. Насправді подія може бути однаково вірогідною (або навіть більш вірогідною), якщо нульова гіпотеза помилкова.

Не знаючи про цю ймовірність, можна точно нічого не сказати про обґрунтованість нульової гіпотези. Якщо кожен з вечорів зоокетери знімають усі банани, експеримент є абсолютно марним, хоча на перший погляд здається, що ви підтвердили нульову гіпотезу.


Це має бути прийнятою відповіддю.
Емілі Л.

2
@amoeba У цьому випадку нульовим хип буде те, що мавпи в клітці. Альт-гіп буде, що жодної мавпи в клітці немає. Я збираю проби - це спостереження "банан пішов" і "банан все ще є" щоранку. Роблячи кілька припущень щодо мавп та їхньої здатності знаходити банани, я можу обчислити ймовірність р, що я побачив би реальний результат з мавпами в клітці. Якщо банани все ще часто є, я відкину нульовий гіп. Якщо бананів завжди немає, це підходить до нульового гіпсу, але це не доводить, що мавпи в клітці.
Терн

1
@amoeba Я не впевнений, чи можна безпосередньо перекласти приклад мавпи до вашого сценарію t-test. Наскільки мені відомо, тестування гіпотез на нулі, як правило, означає те, що також Марк Уайт написав у своїй відповіді: "Враховуючи, що нульова гіпотеза є правдивою, яка ймовірність того, що ми спостерігаємо наші дані (або більш екстремальні дані)?". Ваш сценарій t-тестування є конкретним випадком цього, але наразі я не бачу, як цей сценарій можна узагальнити. З мого відчуття кишечника, я б сказав, що ваш сценарій та приклад мавпи - це два різні способи тестування гіпотез, які не можуть бути безпосередньо зіставлені один з одним.
Терн

1
Якщо так @Nebr, то я знову дуже розгублений у значенні прикладу вашої мавпи. Т-тест - це, мабуть, найпоширеніший тест гіпотези; Я згадував це у своєму коментарі лише тому, що це такий типовий приклад тесту. Якщо ваш приклад мавпи не застосовується (як ви кажете) до цього - типово! - ситуація, тоді я спантеличений її значенням. Насправді, якщо ви говорите, що приклад t-test та мавпа - це "два різні способи тестування гіпотез", то чи можете ви навести приклад статистичного тесту, який слід "прикладом" вашого прикладу мавпи? Що конкретно є прикладом вашої мавпи?
амеба каже, що повернеться до Моніки

1
@Nebr Я згоден, що це загальне питання. Але якщо ви не можете надати мені жодного прикладу реального статистичного тесту, який би мав таке ж властивість, як ваш приклад мавпи, то мені шкода, але мені доведеться вважати ваш приклад мавпи в значній мірі неактуальним для цієї теми. Я не кажу, що приклад мавпи повинен конкретно відповідати t-тесту. Але це має відповідати чомусь !!
амеба каже, що поверніть Моніку

14

У своїй знаменитій статті Чому більшість опублікованих досліджень є помилковими , Іоанідіс використовував байєсівські міркування та помилковість базової ставки, щоб стверджувати, що більшість висновків є помилковими. Незабаром, ймовірність після дослідження, що певна гіпотеза дослідження є істинною, залежить, серед іншого, - від ймовірності попереднього дослідження зазначеної гіпотези (тобто базової норми).

Як відповідь, Moonesinghe та ін. (2007) використовували ті ж рамки, щоб показати, що реплікація значно збільшує ймовірність істинної гіпотези після дослідження. Це має сенс: якщо кілька досліджень можуть повторити певну знахідку, ми впевнені, що гіпотеза гіпотези вірна.

Я використовував формули Moonesinghe et al. (2007), щоб створити графік, який показує ймовірність після дослідження в разі невдачі копії знахідки. Припустимо, що певна гіпотеза дослідження має ймовірність перед дослідженням 50%. Далі я припускаю, що всі дослідження не мають зміщення (нереально!), Мають потужність 80% і використовують 0,05.αЙмовірність після дослідження

На графіку видно, що якщо принаймні 5 з 10 досліджень не досягнуть значущості, наша ймовірність після дослідження є вірною майже 0. Такі ж взаємозв'язки існують і для більшої кількості досліджень. Цей висновок також має інтуїтивний сенс: повторне невдало знайти ефект посилює нашу думку про те, що ефект, швидше за все, помилковий. Це міркування відповідає прийнятій відповіді @RPL.

В якості другого сценарію припустимо, що дослідження мають потужність лише 50% (всі інші рівні).Ймовірність після дослідження_pow50

Тепер наша ймовірність після дослідження зменшується повільніше, оскільки кожне дослідження мало лише потужність для пошуку ефекту, якщо воно дійсно існувало.


Зауважте, що ви отримуєте всі докази про нульову гіпотезу із випадків, коли тест не відповідає цій гіпотезі. Але припущення ОП полягало в тому, що тести підтверджують нульову гіпотезу ("Якщо ми проведемо масштабне дослідження і не знайдемо статистично значущих доказів проти нульової гіпотези, чи не є це свідченням нульової гіпотези?"). Це відповідає більшості лівих ваших діаграм, а отже, випадку, коли ймовірність ефекту все ще становить 50% (або взагалі ймовірність попереднього дослідження), тому ви нічого не отримали.
Терн

@Nebr Я не розумію. Якщо ми виконаємо 1 велике потужне дослідження (скажімо, 95% потужність) і нам не вдасться знайти доказів проти нульової гіпотези (тобто тест статистичної гіпотези не є значущим на рівні 5%), наша ймовірність після дослідження буде бути 0,05 у згаданих рамках (з вірогідністю попереднього дослідження 50%).
COOLSerdash

1
@Nebr Ваш останній коментар не має сенсу: якщо результат не суттєвий, він не може бути "помилковим позитивом".
амеба каже, що повернеться до Моніки

1
@Nebr If you have a negative, you found evidence against the null- Що? Слово «негатив» має саме протилежне значення. Значне р-значення називається "позитивним" результатом; несуттєвим є "негатив".
Амеба каже, що повернеться до Моніки

1
@Nebr 100% потужність НЕ означає "що якщо H0 є правдою, ми можемо бути впевнені, що ми завжди будемо бачити H1". Це означає, що якщо H1 правда, ми завжди будемо бачити H1. Я більше не буду намагатися читати ваш коментар, тому що кожне речення є заплутаним.
Амеба повідомляє, що повернеться Моніка

12

Найкраще пояснення для цього я бачив від того, хто навчається з математики.

Тестування значення нульової гіпотези в основному є доказом протиріччя: припустимо , чи є докази дляH0H1 ? Якщо для є докази , відхиліть і прийміть . Але якщо для немає доказів , круговим є твердження, що є правдою, тому що ви припускали, що істинно для початку.H1H0H1H1H0H0


4
Можливо, варто поглянути на цю тему: stats.stackexchange.com/questions/163957/…

10

Якщо вам не подобається цей наслідок тестування гіпотез, але ви не готові зробити повний перехід до методів Байєса, як щодо інтервалу довіри?

Припустимо, ви перевернете монету разів і побачите голів, що призводить до того, що ви говорите, що 95% довірчий інтервал для ймовірності головок становить . 4207820913[0.492,0.502]

Ви не казали, що бачили докази того, що це насправді , але дані свідчать про певну впевненість у тому, наскільки це може бути близьке до .1212


2
Що Баєсій про довірчий інтервал?
kjetil b halvorsen

3
@kjetilbhalvorsen: Інтервал довіри не є баєсівським (достовірний інтервал був би), але довірчий інтервал дає більше інформації про докази, то просте відхилення / неприйняття гіпотези
Генрі

9

Можливо, було б краще сказати, що неприйняття нульової гіпотези саме по собі не є свідченням нульової гіпотези. Коли ми розглянемо повну вірогідність даних, яка більш чітко враховує обсяг даних, то зібрані дані можуть забезпечити підтримку параметрів, що входять до нульової гіпотези.

Однак нам слід також ретельно продумати свої гіпотези. Зокрема, відсутність відхилення точкової нульової гіпотези не є дуже хорошим доказом того, що точкова нульова гіпотеза є істинною. Реально він накопичує докази того, що справжнє значення параметра не так далеко від точки, про яку йдеться. Точні нульові гіпотези певною мірою є досить штучними конструкціями, і найчастіше ви не вірите правдиво, що вони будуть абсолютно вірні.

Значно розумніше говорити про невідхилення, що підтримує нульову гіпотезу, якщо ви зможете змістовно змінити нульову та альтернативну гіпотезу, а якщо це зробите, ви відкинете свою нову нульову гіпотезу. Коли ви намагаєтеся це зробити зі стандартною точковою нульовою гіпотезою, ви відразу бачите, що вам ніколи не вдасться відкинути її доповнення, оскільки тоді ваша перевернута нульова гіпотеза містить значення довільно близькі до розглядуваної точки.

З іншого боку, якщо ви, скажімо, перевірите нульову гіпотезу проти альтернативи для середнього нормального розподілу, то для будь-якого справжнього значення існує розмір вибірки - якщо тільки нереально справжнє значення є або - для якого у нас майже 100% ймовірність що довірчий інтервал рівня повністю або впаде в межах або поза цим інтервалом. Для будь-якого кінцевого розміру вибірки, звичайно, можна отримати довірчі інтервали, що лежать через межу, і в цьому випадку це не все є вагомим доказом для нульової гіпотези.H0:|μ|δHA:|μ|>δμμδ+δ1α[δ,+δ]


4
+1. Цей ІМХО повинен бути прийнятою відповіддю. Я не розумію, чому так мало відгуків.
амеба каже, що повернеться в Моніку

1
@amoeba, оскільки вона була розміщена пізно, але я згоден і вже поставив +1.
Тім

6

Це швидше залежить від того, як ви використовуєте мову. Згідно з теорією рішення Пірсона та Неймана, це не є свідченням нульового значення, але ви повинні поводитись так, ніби нуль справжній.

Складність виникає з modus tollens. Байєсівські методи - це форма індуктивних міркувань і як така є формою неповного міркування. Нульові методи гіпотези є ймовірнісною формою modus tollens і як такі є частиною дедуктивного міркування і тому є повною формою міркування.

Modus tollens має вигляд "якщо А є правдою, то B є правдою, а B - неправдою; тому A не відповідає істині". У такому вигляді було б, якщо нуль істинний, тоді дані з’являться певним чином, вони не відображаються таким чином, тому (певною мірою впевненості) нуль не відповідає дійсності (або принаймні "підроблений . "

Проблема полягає в тому, що ви хочете "Якщо A, то B і B." З цього ви хочете зробити висновок A, але це не вірно. "Якщо A тоді B", "не виключає", якщо не A, то B "також є дійсним твердженням. Розгляньте твердження "якщо це ведмідь, то він може плавати. Це риба (а не ведмідь)". Висловлювання нічого не говорять про здатність не ведмедів плавати.

Імовірність та статистика - це галузь риторики, а не галузь математики. Це важкий користувач математики, але не є частиною математики. Він існує з різних причин, переконань, прийняття рішень чи висновку. Це поширює риторику на дисципліноване обговорення доказів.


1
+1 для згадки про Неймана та Пірсона (див. Stats.stackexchange.com/questions/125541 ).
Амеба каже: Відновити Моніку

5

Спробую проілюструвати це прикладом.

Давайте подумаємо, що ми беремо вибірку з популяції, маючи намір перевірити її середню . Отримуємо вибірку із середнім значенням . Якщо ми отримаємо несуттєве p-значення, ми також отримали б несуттєві p-значення, якби ми перевірили будь-яку іншу нульову гіпотезу , така що знаходиться між та . Тепер для якого значення ми маємо докази?μx¯H0:μ=μiμiμ0x¯μ

Крім того, коли ми отримуємо значні p-значення, ми не отримуємо доказів для конкретного , натомість це доказ проти (що може вважатися доказом для , або залежно від ситуації). Характер тестування гіпотез не дає доказів для чогось, він робить лише проти чогось, якщо це є.H1:μ=MH0:μ=μ0μμ0μ<μ0μ>μ0


"Тепер для якого значення μ ми маємо докази?" - У нас є більш сильні докази щодо значень, ближчих до середньої вибірки, і більш слабкі докази для значень, що знаходяться далі від середньої вибірки. Наскільки сильний чи слабкий залежить від розміру та дисперсії вибірки. Чи щось не так у цьому тлумаченні?
Атте Ювонен

Так, це неправильне тлумачення. Значення P - це не вірогідність того, що нульова гіпотеза є істинною, або міцність доказів на користь нульової гіпотези. Так само можна зробити оцінку інтервалу із середнім значенням вибірки в середині інтервалу, але це не означає, що існує більша ймовірність того, що середнє значення сукупності буде близьким до середини інтервалу. У коментарі Домініка Комтуа до вашого запитання є посилання на гарне пояснення цього неправильного тлумачення.
Macond

"це не означає, що існує більша ймовірність того, що середня сукупність буде близькою до середини інтервалу." - Це не може бути правильним. Я прочитав документ, але не зміг знайти щось, що підтверджувало б це.
Атте Ювонен

Середина довірчого інтервалу відповідає 's, що дасть спостережувану середню вибірку з більшою ймовірністю. Але це не рівносильно твердженню: " ближче до середини " мають більшу ймовірність бути справжнім середнім ". Як багато разів заявляли інші: . μμP(A|B)P(B|A)
Macond

4

Розглянемо невеликий набір даних (на малюнку нижче) із середнім значенням , скажімо, що ви провели двоступеневий -тест з , де . Тест видається незначним при . Чи означає це, що ваш справжній? Що робити, якщо ви протестували проти ? Оскільки розподіл симетричний, тест повертає аналогічну величину. Отже, у вас є приблизно стільки ж доказів, що і що .x¯0tH0:x¯=μμ=0.5p>0.05H0μ=0.5tpμ=0.5μ=0.5

Дві альтернативні гіпотези

Наведений вище приклад показує , що мале -значення відводить нас від віри в і що високі -значення припустити , що наші дані як - то більше відповідає , в порівнянні з . Якби ви провели багато таких тестів, ви могли б знайти таке яке, швидше за все, дано наші дані, і фактично ви б використовували напівмаксимальну оцінку ймовірності . Ідея MLE полягає в тому, щоб ви шукали таке значення яке максимально збільшує ймовірність спостереження за вашими даними даними , що призводить до імовірності функціїpH0pH0 H1μμμ

L(μ|X)=f(X|μ)

MLE - це дійсний спосіб пошуку точки оцінки для , але він нічого не говорить про ймовірність спостереження за вашими даними. Що ви зробили, це ви вибрали єдине значення для і запитали про ймовірність спостереження за даними вашими даними. Як уже помітили інші, . Щоб знайти нам потрібно було б врахувати той факт, що ми перевірили різні значення кандидатів для . Це призводить до теореми Байєсаμ^μ^μ^f(μ|X)f(X|μ)f(μ|X)μ^

f(μ|X)=f(X|μ)f(μ)f(X|μ)f(μ)dμ

що перший, вважає , як , ймовірно , відрізняються «s апріорі (це може бути однорідним, що і призводить до результатів , узгоджується з ЗМЗ) та другий, нормалізує за те , що ви вважали різних кандидатів на . Більше того, якщо ви запитаєте про з імовірнісним виразом, вам потрібно розглянути це як випадкову змінну, тому це ще одна причина для прийняття байєсівського підходу.μμ^μ

Підсумовуючи, тест гіпотези говорить про те, що більше ймовірний, ніж , але оскільки процедура вимагала, щоб ви припустили, що є істинним, і вибрати для нього конкретне значення. Щоб дати аналогію, уявіть, що ваш тест - це оракул. Якщо ви запитаєте її: "земля мокра, чи можливо, що йшов дощ?" , вона відповість: "так, можливо, у 83% випадків, коли йшов дощ, земля стає мокрою" . Якщо ви запитаєте її ще раз, "чи можливо, хтось просто пролив воду по землі?" , вона відповість "впевнено, це теж можливо, у 100% випадків, коли хтось пролив воду на землю, вона стає мокрою"H1H0H0і т. д. Якщо ви попросите її для якихось цифр, вона дасть вам їх, але цифри не були б порівнянні . Проблема полягає в тому, що тест гіпотези / оракул працює в рамках, де вона може дати переконливі відповіді лише на запитання, чи відповідають дані, якась гіпотеза , а не навпаки, оскільки ви не розглядаєте інші гіпотези.


2

Давайте наслідуємо простий приклад.

Моя нульова гіпотеза полягає в тому, що мої дані відповідають нормальному розподілу. Альтернативна гіпотеза полягає в тому, що розподіл моїх даних не є нормальним.

Я малюю два випадкових вибірки з рівномірного розподілу на [0,1]. Я не можу багато зробити лише з двома зразками, тому я не зміг би відкинути свою нульову гіпотезу.

Чи означає це, що я можу зробити висновок, що мої дані слід нормального розподілу? Ні, це рівномірний розподіл !!

Проблема в тому, що я зробив припущення про нормальність у своїй нульовій гіпотезі. Таким чином, я не можу зробити висновок, що моє припущення є правильним, оскільки я не можу його відкинути.


3
Я не думаю, що дослідження з двома зразками не кваліфікується як "дослідження". Щойно ми намалюємо достатню кількість точок даних, цей приклад не працює. Якщо ми намалюємо 1000 точок даних і вони виглядають як рівномірний розподіл, ми маємо докази проти нашої нульової гіпотези. Якщо ми намалюємо 1000 точок даних і вони виглядають як нормальний розподіл, ми маємо докази нашої нульової гіпотези.
Атте Ювонен

1
@AtteJuvonen Моя відповідь - це не спроба визначити, яким має бути дослідження. Я просто намагаюся навести простий приклад, щоб проілюструвати відсутність статистичної сили для питання. Ми всі знаємо, що 2 зразки це погано.
SmallChess

4
Правильно. Я просто кажу, що ваш приклад ілюструє проблему робити висновки з 2-х зразків. Це не ілюструє проблему залучення доказів для нульової гіпотези.
Атте Ювонен

2

Відхилення вимагає від вашого дослідження достатньої статистичної потужності . Якщо ви зможете відхилити , ви можете сказати, що ви зібрали достатньо даних, щоб зробити висновок.H0H0

З іншого боку, для відхилення взагалі не потрібні дані, оскільки за замовчуванням це вважається істинним. Отже, якщо ваше дослідження не відкидає , неможливо сказати, що є більш імовірним: вірно, або ваше дослідження просто не було достатньо великим .H0H0H0


Мати докази на щось - це не те саме, що знати щось зі 100% визначеністю. Нам не потрібно , щоб «знати , є чи правда». Навіть якщо ми врешті-решт відхилимо ми все ще не «знаємо», чи вірно. H0H0H0
Атте Ювонен

0

Ні, це не докази, якщо у вас немає доказів, що це докази. Я не намагаюся бути симпатичним, скоріше буквальним. У вас є лише ймовірність побачити такі дані, якщо врахувати, що нуль відповідає дійсності. Це ВСЕ, що ви отримуєте від p-значення (якщо це так, оскільки значення p засноване на самих припущеннях).

Чи можете ви представити дослідження, яке показує, що для досліджень, які "не відповідають" нульовій гіпотезі, більшість нульових гіпотез виявляється правдивою? Якщо ви зможете знайти ЦЕ дослідження, то ваше неспроможність спростувати нульові гіпотези принаймні відображає ДУЖЕ загальну ймовірність того, що нуль відповідає дійсності. Б'юсь об заклад, що у вас такого дослідження немає. Оскільки ви не маєте доказів, що стосуються нульових гіпотез істинних на основі p-значень, вам просто потрібно піти з порожніми руками.

Ви почали з припущення, що ваше null було правдивим для отримання цього p-значення, тому p-значення не може нічого не сказати про нуль, лише про дані. Подумайте над цим. Це однонаправлений висновок - період.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.