Тепер, коли я відкинув нульову гіпотезу, що далі?


23

Я раз і знову відкидав або не зміг відхилити нульову гіпотезу. Якщо ви не відхилили випадок, ви робите висновок про відсутність достатніх доказів для відхилення, і ви "рухаєтесь далі" (тобто збираєте більше даних, закінчуєте експеримент тощо)

Але коли ви "так" відкидаєте нульову гіпотезу, надаючи деякі докази альтернативної гіпотези, ви не можете насправді "довести", що ваша альтернативна гіпотеза справді відповідає дійсності.

Отже, які спільні наступні кроки, коли ви відкинете нульову гіпотезу? Які інструменти / методи використовує для "подальшого аналізу проблеми", щоб зробити висновки більш переконливими? Які логічні "наступні кроки", коли статистик вимагає подальшого аналізу?

Наприклад:

Н0:мк1=мк0

(скажімо, ми знаємо очікуваний напрямок)Н1:мк1>мк0

Після того, як ми відкидаємо нульову гіпотезу на певному рівні значущості, ми маємо «деякі докази», щоб альтернатива була правдивою, але ми не можемо зробити такий висновок. Якщо мені дуже хочеться зробити такий висновок остаточно (пробачте подвійну гру слів), що мені робити?

Я ніколи не замислювався над цим питанням під час своїх недоотриманих днів, але тепер, коли я роблю неабияку перевірку гіпотез, я не можу не задатися питанням, що попереду :)



3
Взагалі кажучи, ваші дії після прийняття рішення також повинні бути обрані перед тестуванням (як ще можна зважити витрати на два види помилок і так вибрати розумний ?). Принаймні, ви, ймовірно, переходите до розгляду оцінених розмірів ефекту. Нуль не є прийнятним (за критеріями, які ви вибрали - якщо цього вам недостатньо, що було б?), Тож які значення натомість є правдоподібними? наприклад, у вказаному тесті, які значення для μ 1 - μ 0 були б досить правдоподібними, враховуючи дані? αмк1-мк0
Glen_b -Встановити Моніку

Відповіді:


10

Як правило, ви можете продовжувати вдосконалювати свою оцінку будь-якого параметра, який ви можете протестувати за допомогою більшої кількості даних. Припинення збору даних, коли тест досягає певної напіввільної ступеня значущості, є хорошим способом зробити погані умовиводи. Те, що аналітики можуть неправильно зрозуміти вагомий результат як знак того, що робота виконана, є одним із багатьох ненавмисних наслідків рамки Неймана-Пірсона, згідно з якими люди інтерпретують значення p як причини або відхиляти, або не відхиляти нуль без застереження залежно від на яку сторону критичного порогу вони падають.

Не враховуючи байєсівських альтернатив паралігмі частолістів (сподіваємось, що хтось інший зробить), інтервали довіри продовжують бути більш інформативними за межі того моменту, коли основну нульову гіпотезу можна відкинути. Якщо припустити, що збір більшої кількості даних просто зробить ваш основний тест на значущість досягти ще більшої значущості (і не виявить, що ваше попереднє знаходження значимості було помилковим позитивом), ви можете виявити це марним, оскільки ви відкинете нуль в будь-якому випадку. Однак у цьому випадку ваш довірчий інтервал навколо відповідного параметра продовжуватиме скорочуватися, покращуючи ступінь впевненості, за допомогою якого ви зможете точно описати свою зацікавлену групу.


мк=0

One Sample t-test

data:  rnorm(99) 
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 -0.377762241 -0.006780574 
sample estimates:
 mean of x 
-0.1922714

t.test(rnorm(99))α=.05rnorm

set.seed(8);t.test(rnorm(99,1))мк=[.69,1.12]

мк=.8 test з mu=.8, що дає p = .33. Моє середнє значення вибірки є досить високим, щоб виглядати значущо відмінним від нуля відповідно до цього .8 поріг; збір більше даних може допомогти покращити мою впевненість, що різниця принаймні така велика, а не просто тривіально більша за нуль.

set.seed(8);t.test(rnorm(999,1),mu=.8)мк=0мк=.8мк=[.90,1.02]мк=.89

Н0:мк=.9set.seed(9);t.test(rnorm(999,1),mu=.9)

Тестування прогресивніших суворіших нульових гіпотез, а ще краще - просто зосередитись на зменшенні ваших довірчих інтервалів - лише один із способів. Звичайно, більшість досліджень, які відкидають нульові гіпотези, лежать в основі інших досліджень, які ґрунтуються на альтернативній гіпотезі. Наприклад, якби я тестував альтернативну гіпотезу про те, що кореляція більша за нуль, я міг би протестувати медіаторів чи модераторів у наступному дослідженні далі… і, хоча я буду в цьому, я б точно хотів би переконатися Я міг би повторити вихідний результат.


Інший підхід, який слід врахувати, - це тестування на . Якщо ви хочете зробити висновок, що параметр знаходиться в певному діапазоні можливих значень, а не просто відрізняється від одного значення, ви можете вказати той діапазон значень, який ви хочете, щоб параметр лежав у відповідності з вашою звичайною альтернативною гіпотезою і протестував його проти іншого набору нульових гіпотез, які разом представляють можливість того, що параметр лежить поза цим діапазоном. Ця остання можливість може бути найбільш схожа на те, що ви мали на увазі, коли писали:

У нас є "деякі докази", щоб альтернатива була правдивою, але ми не можемо зробити такий висновок. Якщо я справді хочу зробити цей висновок остаточно ...

set.seed(8)rnorm(99)rnorm(99,1)-1мк=.8-.2мк.2

require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)

tostмк=[-.27,.09]rnorm(999)мк=[-.09,.01] p = 4,55E-07.

Я все ще думаю, що інтервал довіри цікавіший, ніж результат тесту на еквівалентність. Він відображає те, що дані підказують, що означає популяція, більш конкретно, ніж альтернативна гіпотеза, і припускає, що я можу бути впевненим, що вона лежить у ще меншому інтервалі, ніж я вказав в альтернативній гіпотезі. Щоб продемонструвати, я знов зловживаю своїми нереальними силами моделювання та "повторюю", використовуючи set.seed(7);tost(rnorm(999),epsilon=.09345092): досить впевнено, p = .002.


Просвітницька! Не могли б ви показати швидкий і брудний приклад останньої частини, де ви говорите про тестування на еквівалентність? Було б дуже корисно побачити на високому рівні, як це може бути застосовано.
Кандидат наук

@PhD: зроблено. Думаю, це "швидше і брудніше", ніж "на високому рівні". Я новачок у тестуванні на еквівалентність сам, і, як ви побачите, я його точно не продаю.
Нік Стаунер

10

Спершу зауважте, що @Nick Stauner робить кілька дуже важливих аргументів щодо необов'язкової зупинки . Якщо ви неодноразово перевіряєте дані під час надходження зразків, зупиняючись, коли тест є значним, вам все-таки гарантується значний результат. Однак гарантований результат практично нічого не вартий.

Далі я викладу свої найкращі спроби розробити дедуктивістську, скептичну, фальсифікаційну позицію. Це, звичайно, не єдиний, але я думаю, що це досить мейнстрім, або хоча б той, який має трохи традицій.

Наскільки я розумію, Фішер спочатку запровадив випробування на значимість як перший крок у вивченні даних - встановіть, які чинники, можливо, варто вивчити далі. Якщо нулева гіпотеза, яку ви поставили під тест, насправді не була критичною гіпотезою, від якої залежала (навряд чи) ваша прихильна теорія, певний спосіб вашого початкового тесту був досить дослідним. Я бачу серед можливих кроків після розвідки

  • Подальша розвідка
  • Оцінка параметрів
  • Прогнозування та підтвердження

Подальша розвідка складається з подальших тестів, де ви намагаєтеся зробити висновок про те, чи є якісь змінні відомості про помірний або взаємодієте з вашим ефектом. Наприклад, може вік учасників відіграє певну роль? Зауважте, що такі аналізи повинні бути чітко позначені як дослідницькі, або вони в основному складають брехню. Якщо ви натрапите на щось, для початку потрібно підтвердження. Як правило, ви завжди повинні бути чіткими - і в своїх думках, і в своїх працях - про те, коли ви працюєте в пошукових роботах і коли підтверджуєте.

Далі, як тільки ви встановите, що у вас немає впевненості у тому, що значення одного параметра буде точно нульовим - як тільки ви вирішите, ви зараз вважаєте, що тестуваний фактор має деякий вплив - одним можливим наступним кроком може бути подальша оцінка точного значення параметра . Наприклад, поки що ви виключили лише одне значення 0 (припускаючи двосторонній тест). Однак ваші дані також ставлять під сумнів багато інших можливих значень.

αα

Юм чудово стверджував, що ми ніколи не можемо індуктивно довести правильне твердження. Взагалі, нетривіальні гіпотези завжди набагато простіше підробити, ніж підтримувати; бути принципово простим підробляти (будучи нетривіальним, робити точні прогнози), але поки не підроблятись, насправді є однією з найвищих чеснот теорії.

Таким чином, ІП не допоможе вам довести конкретне значення. Однак це звужує набір кандидатів. Можливо, єдині кандидати, які залишилися живими, допоможуть вам вибрати між двома теоріями, обидві несумісні з H0. Наприклад, можливо 0 виключається, але теорія 1 передбачає значення близько 5, а теорія 2 прогнозує значення близько 15. Якщо ваш 95% ІС включає 5, але виключає 15, ви також втратили довіру до теорії 2, але теорії 1 залишається в грі. Зауважте, що це насправді не залежить від того, щоб ваш початковий тест був значущим - навіть якщо 0 серед значень не відхилених, багато значень будуть відхилені. Можливо, для інших дослідників деякі з цих цінностей зацікавили.

Після того, як ви дещо уточнили своє розуміння ефекту, який ви можете отримати, ви в ідеалі зможете зробити більш точний прогноз для подальшого підтверджуючого експерименту, який має на меті перевірити більш точну гіпотезу, яку ви можете отримати з вашого поточного аналізу. Щоправда, відхилення вашої початкової статистичної нульової гіпотези не було таким серйозним тестом вашої оригінальної гіпотези дослідження , чи не так? Багато більше пояснень, ніж те, що ви віддаєте перевагу, не залежать від H0. Крім того, оскільки вам ніколи не загрожувало фактично прийняти H0, ви не змогли підробити свою прихильну теорію! Тож вам потрібен більш суворий тест. Можливо, це насправді те, чого ти хочеш; ви не хочете доводити свою теорію, ви хочете поставити її під все більш жорсткі випробування, намагаючись фальсифікувати її. Витримуючи такі справжні (але справедливі) зусилля, щоб спростувати це - найкраще, що може запропонувати теорія. Але для жорсткого випробування вам потрібна більш точна теорія, ніж "0 це не так".

Тепер ви дізналися багато важливих фактів щодо підтверджуючого дослідження; наприклад, ви маєте уявлення про дисперсію та величину ефекту, про які йдеться, що дозволяє оцінити необхідний розмір вибірки для подальшого дослідження шляхом аналізу потужності. Ви також можете передбачити конкретне значення та припустити навколо нього область практичної еквівалентності / ROPE. Ви ніколи не зможете довести, що саме ця цінність є справжньою цінністю; однак, якщо КІ від подальшого експерименту повністю належить до вашої ROPE, у вас є підтвердження вашої теорії (і, можливо, спричинило проблеми конкуренція).


6

Ідея, що ви не можете довести позитивну наукову пропозицію, а лише спростувати її, є принципом фальсифікації Поппера . Я погоджуюсь, що ви не можете довести ефект, точно такий же, як будь-яке задане бальне значення (пор., Моя відповідь тут: Чому статистики кажуть, що несуттєвий результат означає «ви не можете відкинути нуль» на відміну від прийняття нульової гіпотези? ). Але так що?

Люди (або принаймні я ) багато скаржаться на тестування гіпотез. Це відбувається томуp-значення зазвичай неправильно зрозуміли, і тести гіпотез використовуються для завдань, які логічно не можуть виконати. Наприклад, тестування гіпотез не слід використовувати для генерування гіпотез або вибору змінних. Більше того, що стосується даних спостережень, по суті всі нульові гіпотези повинні бути помилковими, тому тестування таких має мало сенсу. Однак вчені часто мають апріорні гіпотези, запропоновані сучасними теоріями, які вони хочуть перевірити, і в справжньому експерименті нульовий нуль міг бути істинним, тому тестування цього є цілком розумним. Як правило, у дослідників є певні підстави підозрювати, що нуль може бути помилковим, тому значний результат у поєднанні з сильним експериментом є вагомою інформацією.

Ви завжди можете формувати довірчі інтервали, щоб отримати більш чітку картину точності вашої оцінки, і продовжувати збирати більше даних для підвищення її точності. Тим не менш, в економічному плані ви отримаєте зменшуваний прибуток . У якийсь момент ви просто не вірите, що нульова гіпотеза забезпечує розумний виклад досліджуваного явища. У такому випадку, чому ви турбуєтесь?

Якщо у вашій галузі є ще інші, які ще не впевнені, але були б з більшою кількістю (однакових) даних, то ви можете продовжити, але це здається нечастою ситуацією. Мені здається більш ймовірним, що скептики мають інші, суттєві занепокоєння щодо того, чи є ця лінія дослідження достатньо інформативною щодо основного питання. Таким чином, вам потрібно визначити характер цих проблем, і якщо ви вважаєте, що вони заслуговують на роботу, шукайте різні дані, які більш адекватно вирішують існуючі проблеми. Наприклад, ви можете спробувати повторити знахідку, використовуючи інший захід, в іншому налаштуванні та / або з різними умовами контролю.

З іншого боку, кожен (більш-менш) може бути задоволений вашими даними та висновками (вітаємо!). За таких щасливих обставин, ви можете продовжити свою дослідницьку програму за двома напрямками:

  1. Редукціоністская підхід буде прагнути зрозуміти механізми , які справляють враження , що ви встановили. У статистичному плані ви часто шукаєте посередників та / або уточнення структури причинно-наслідкових сил, що з'єднують змінні, з якими ви показали, що пов'язані.

  2. Ви також можете рухатися в іншому напрямку, прагнучи інтегрувати свої висновки у більш широку схему. Це свого роду системне мислення . Г.Х. Харді колись визначив витонченість теорії як коло явищ, які вона могла пояснити в поєднанні з легкістю та масштабністю епістемічного зрушення, яке вона викликала. Звичайно, вам може не пощастило, що встановлене вами явище є досить глибоким , проте воно все одно може бути частиною чогось більшого, ніж він сам. Встановлення зв’язку міжБ і С що дає можливість це побачити А уніфікація розрізнених явищ може бути настільки ж важливою для процесу і настільки ж важливим моментом, як і відкриття А себе.

tl; dr: Якщо у вас є достатньо доказів для ваших цілей, що нуль неправдивий, з’ясуйте, на які інші теоретично вмотивовані питання ви могли б спробувати відповісти та рухайтеся далі.


0

Думаю, я хотів би додати, що ваше запитання нагадує мені мою молодшу власну особистість: я відчайдушно хотів довести свою гіпотезу, бо я не писав, як "гіпотеза була неправильною" таким чином, що допомогло вдосконалити документ, який я писав . Але тоді я зрозумів, що "чорт моєї абсолютно прекрасної гіпотези не може бути доведений" також має наукове значення: 1. Подумайте, Чому ваша гіпотеза не тримає води. Це якась проблема з даними, чи, можливо, щось із самою гіпотезою? 2. Які наслідки для старих досліджень?

Як приклад: я написав магістерську дисертацію про етнічну конфліктність за допомогою нового тодішнього набору даних, який був більшим, ніж попередні набори даних. Я перевірив декілька суперечливих гіпотез, таких як "етнічний конфлікт з нафтовим паливом" або "гірські регіони мають більшу вірогідність конфлікту". Я не міг довести, що етнічний конфлікт є нафтовим паливом, але я написав дві сторінки про те, як якість наявного набору даних про нафту впливала на аналіз (сам набір даних є часовим рядом, набір даних про свердловину нафти - не). Теза "гори викликають конфлікт" також була невдалою - але плідною: попереднє дослідження проаналізувало цю тезу з даними на рівні країни (наприклад, середня висота країни або близько того),

Майте на увазі: спростування гіпотези - це не провал, а результат такий же хороший, як доведена гіпотеза.


Згадані вами гіпотези не є (звичайними) нульовими гіпотезами. Я думаю, ви, можливо, пропустили пункт OP.
Нік Стаунер

0

Існує метод комбінування ймовірностей в описаних тут дослідженнях . Не слід застосовувати формулу наосліп, не враховуючи схему результатів.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.