Прийняття нульової гіпотези


15

Це дискусійне питання про перетин статистики та інших наук. Я часто стикаюся з однією і тією ж проблемою: дослідники моєї галузі схильні говорити, що ефекту немає, коли значення p не менше рівня значущості. На початку я часто відповідав, що це не тестування гіпотез. З огляду на те, як часто виникає це питання, я хотів би обговорити це питання з більш досвідченими статистиками.

Розглянемо нещодавню статтю в науковому журналі від «найкращої видавничої групи» Nature Communications Biology (є кілька прикладів, але зупинимось на одному)

Дослідники трактують не статистично значимий результат таким чином:

Таким чином, хронічне помірне обмеження калорій може продовжити тривалість життя та покращити здоров'я примата, але це впливає на цілісність сірого речовини мозку, не впливаючи на когнітивні показники .

Доказ:

Однак виступи у завданні лабіринту Барнса не відрізнялися між контрольними та обмеженими калоріями тваринами (LME: F = 0,05, p = 0,82; рис. 2а). Аналогічно, завдання мимовільного чергування не виявило різниці між контрольними та обмеженими калоріями тваринами (LME: F = 1,63, p = 0,22; рис. 2b).

Автори також пропонують пояснення відсутності ефекту, але ключовим моментом є не пояснення, а сама претензія. Надані сюжети для мене виглядають значно по-різному "на очі" (мал. 2).

Більше того, автори ігнорують попередні знання:

Повідомлялося про шкідливий вплив обмеження калорій на когнітивні показники як для щурів, так і для мозкових та емоційних функцій у людини

Я можу зрозуміти те саме твердження щодо величезних розмірів вибірки (жодного ефекту = ніякого практично значущого ефекту там немає), але в конкретних ситуаціях використовувались складні тести, і мені не очевидно, як виконувати розрахунки потужності.

Запитання:

  1. Чи я пропустив якісь деталі, які роблять їх висновки дійсними?

  2. Беручи до уваги необхідність повідомляти про негативні результати в науці, як довести, що це не "відсутність результату" (що ми маємо з ), а "негативний результат (наприклад, різниці між групами немає") використовуючи статистику? Я розумію, що для величезних розмірів вибірки навіть невеликі відхилення від нуля викликають відхилення, але припустимо, що ми маємо ідеальні дані і все ж потрібно довести, що нуль практично відповідає дійсності.p>α

  3. Чи повинні статистики завжди наполягати на математично правильних висновках на кшталт "маючи цю силу, ми не змогли виявити ефект значного розміру"? Дослідники з інших галузей сильно не люблять подібні формулювання негативних результатів.

Я був би радий почути будь-які думки з цієї проблеми, і я прочитав і зрозумів відповідні питання на цьому веб-сайті. Є чітка відповідь на питання 2) -3) з точки зору статистики, але я хотів би зрозуміти, як відповідати на ці питання у випадку міждисциплінарного діалогу.

UPD: Я думаю, що хорошим прикладом негативного результату є 1-й етап медичних випробувань, безпека. Коли вчені можуть вирішити, що препарат безпечний? Я думаю, вони порівнюють дві групи та роблять статистику щодо цих даних. Чи є спосіб сказати, що цей препарат безпечний? Кокран використовує точні "жодних побічних ефектів не виявлено", але лікарі кажуть, що цей препарат безпечний. Коли баланс між точністю та простотою опису дотримується, і ми можемо сказати, що "немає наслідків для здоров'я"?


2
Результати, які не є статистично значимими, ви називаєте "негативним" дослідженням. Це зневажлива мова. Я переглянув його, щоб назвати його таким, який він є: нестатистично значущим, наприклад, . Якщо я помиляюся, скажіть, будь ласка, як. В іншому випадку це корисна мова для вас та ваших співробітників для опису дослідження. означає лише, що . Якщо це може бути дуже позитивною в деяких аспектах; можливо, це перше масштабне епідеміологічне дослідження з метою виявлення взаємозв'язку впливу хімічних речовин та здоров'я людини, яке виявляє, що це насправді безпечно. p > α p > α n = 500p>αp>αp>αn=500,000
АдамО

4
Побічна примітка: Я б ніколи не пропонував використовувати природу як настанову щодо правильного використання статистики.
Кліф АВ

1
@AdamO У мене є приклад двох робіт, опублікованих більш-менш одночасно; в одній роботі автори заявляли сильно негативний результат (це був їх головний висновок), в другому, більш потужне дослідження, вони знайшли і діють. Але, якби перший автор написав "потужність 80% з розміром ефекту 1, ми не змогли знайти значного ефекту" - він не був би опублікований навіть у журналі негативних результатів.
Німець Демидов

2
але нестатисти питають мене "як ти доводиш негативні результати?" - і я не знаю, як відповісти. Що з гіпотезою, яка часто використовується в дослідженнях еквівалентності ? Це включає додатковий термін як "запас еквівалентності" і може враховувати середню різницю.
Penguin_Knight

2
Поширена помилка, що Nature Publishing Group експлуатує, але різниця в престижності між журналами величезна. Зважаючи на це, звичайно, документи в самій Nature також можуть мати неохайну статистику.
амеба каже, що повернеться в Моніку

Відповіді:


7

Я думаю, що часом доцільно інтерпретувати нестатистично значущі результати в дусі "прийняти нульову гіпотезу". Насправді я бачив статистично значущі дослідження, інтерпретовані таким чином; дослідження було занадто точним, і результати відповідали вузькому діапазону ненульових, але клінічно незначних ефектів. Ось дещо кричуща критика дослідження (або, крім того, його преси) щодо зв'язку між споживанням шоколаду / червоного вина та його "корисним" впливом на діабет. Криві ймовірності розподілу резистентності до інсуліну високим / низьким рівнем споживання є істеричними.

Чи можна інтерпретувати результати як "підтверджуючі H_0", залежить від великої кількості факторів: обгрунтованості дослідження, потужності, невизначеності оцінки та попередніх доказів. Повідомлення інтервалу довіри (CI) замість p-значення - це, мабуть, найкорисніший внесок, який можна внести як статистик. Я нагадую дослідникам та колегам-статистикам, що статистика не приймає рішень, як це роблять люди; опускання значень р насправді заохочує більш продумане обговорення результатів.

Ширина ІС описує діапазон ефектів, які можуть включати або не включати нульові показники, а можуть включати дуже клінічно значущі значення, такі як потенціал для збереження життя. Однак вузький КІ підтверджує один тип ефекту; або останній тип, який є "значущим" у справжньому сенсі, або перший, який може бути нульовим, або щось дуже близьке до нуля.

Можливо, потрібне ширше розуміння того, що таке "нульові результати" (та нульові ефекти). Мені здається невтішним у дослідницькій співпраці, коли дослідники не можуть апріорі констатувати, на який діапазон ефектів вони спрямовані: якщо втручання призначене для зниження артеріального тиску, на скільки мм рт.ст.? Якщо препарат призначений для лікування раку, через скільки місяців виживає пацієнт? Хтось, хто захоплюється дослідженнями та "підключився" до своєї галузі та науки, може розгубити найдивовижніші факти про попередні дослідження та те, що було зроблено.

У вашому прикладі я не можу не помітити, що значення p 0,82, ймовірно, дуже близьке до нуля. З цього можу сказати, що CI зосереджено на нульовому значенні. Я не знаю, чи охоплює це клінічно значущі ефекти. Якщо КІ дуже вузький, то інтерпретація, яку вони дають, є, на мою думку, правильною, але дані не підтверджують це: це було б незначним редагуванням. Навпаки, друге p-значення 0,22 порівняно ближче до його порогу значущості (яким би воно не було). Автори відповідно трактують це як "не даючи жодних доказів різниці", що відповідає інтерпретації типу "не відкидайте H_0". Щодо актуальності статті, я можу сказати дуже мало. Я сподіваюся, що ви переглянете літературу, де ви знайдете більш яскраві обговорення результатів дослідження! Що стосується аналізів,


1
Adamo, що не F статистики ближче до нульової рівним до середнім з F розподілу для заданого чисельник і знаменник ступенів свободи? Якщо що, я думаю, що F- статистика, близька до 0, передбачає всебічне підтвердження еквівалентності. Насправді, Веллек саме це мотивує у випробувальних статистичних гіпотезах рівноваги та неферріорності , розділ 7.2 тест на еквівалентність нормальних розподілів, сторінки 221–225. kFk
Олексій

@ Алексис Дякуємо за вказівку властивостей F-тесту. Не знаючи ступенів свободи, мені важко коментувати тест інтелектуально. Можливо, я повинен переглянути відповідь, щоб вказати виключно на -значення. У будь-якому випадку, головний момент моєї відповіді полягає в тому, що ми не можемо провести дві гіпотези та з однаковою інтригою: одна з них завжди правдива, тому тестування не має сенсу. Ми повинні використовувати описові методи, але їх можна зробити суворими з довірчим інтервалом. μ = μ 0 μ μ 0pμ=μ0μμ0
AdamO

Звичайно! (і +1, якщо це не було зрозуміло). Якщо серйозно, то вам слід доцільно перевірити еквівалентність: вона з'явилася в рамках клінічної епідеміології та біостатистики (почесна спадщина для цієї галузі!), але загалом важлива для частого виведення. :)
Олексій

1
@GermanDemidov Я чітко дотримуюся цих питань: я думаю, що складні аналізи не повинні розглядатися, якщо їх наслідки неможливо інтерпретувати. Вони роблять мають інтерпретацію. Аналіз виживання 2-е видання Хосмера, Lemeshow, May, має цілий розділ (4), присвячений інтерпретації виходу моделі Кокса. Дефіцит тестів, як у Шапіро, найкраще вирішувати за допомогою сюжетів (це часто виключає сам тест). Статистика перекомпонування надає потужний засіб для обчислення КІ за найрізноманітніших умов моделювання, але вони вимагають коректного використання звукової теорії.
AdamO

3
У жорстких рамках умовиводу немає такого поняття, як "0,82 близько до нуля", оскільки значення р є випадковим числом, його конкретний рівень не має значення. Значення р не може бути великим або малим за абсолютною величиною. Її рівень має значення лише щодо встановленого порогу, значення . Ви порівнюєте з порогом, і на основі результату порівняння відхиляєте його або не відхиляєте . H 0αH0
Аксакал

12

Якщо говорити до назви вашого запитання: ми ніколи не приймаємо нульову гіпотезу, оскільки тестування дає лише докази проти (тобто висновки завжди стосуються альтернативної гіпотези, або ви знайшли докази або якщо ви не знайшли доказів для ). H 0 H A H AH0H0HAHA

Однак ми можемо визнати, що існують різні види нульової гіпотези:

  • Ви, напевно, дізналися про односторонні нульові гіпотези форми та H 0 : θ θ 0H0:θθ0H0:θθ0

  • Ви, напевно, дізналися про двосторонні нульові гіпотези (так само двосторонні нульові гіпотези) форми або синонімічно у випадку одного зразка, і , або синонімічно у двох -приклад випадку. Я підозрюю, що ця конкретна форма нульової гіпотези - це питання, про яке йдеться. Слідом за Reagle та Vinod я називаю нульові гіпотези такої форми позитивістськими нульовими гіпотезами і роблю це явним позначенням . Позитивістські нульові гіпотези надають або не надають доказів різниці абоH0:θ=θ0H0:θθ0=0H0:θ1=θ2H0:θ1θ2=0H0+докази ефекту . Позитивістські нульові гіпотези мають форму омнібусів для груп:для всіх .kH0+:θi=θj;i,j{1,2,k};  and ij

  • Ви, можливо, зараз дізнаєтесь про спільні односторонні нульові гіпотези , які є нульовими гіпотезами такої форми у випадку одного зразка та у випадку з двома зразками, де - це мінімальна відповідна різниця, яку ви дбаєте про апріорі (тобто ви говорите спереду, що різниці менші ніж це не має значення). Знову ж таки, слідуючи за Reagle та Vinod, я називаю нульові гіпотези такої форми негативістськими нульовими гіпотезами і роблю це явним позначенням . Негативістські нульові гіпотези свідчать про еквівалентність (в межахH0:|θθ0|ΔH0:|θ1θ2|ΔΔH0±Δ), або докази відсутності ефекту (більше, ніж ). Негативістські нульові гіпотези мають форму омнібусів для груп:для всіх (Wellek, глава 7)|Δ|kH0:|θi=θj|Δ;i,j{1,2,k};  and ij

Дуже класна річ , щоб зробити , це об'єднати тести на різницю з тестами для еквівалентності. Це називається тестуванням на відповідність і явно розміщує статистичну потужність та розмір ефекту в межах висновків, зроблених з тесту, як це детально описано в описі [tost]тегу. Подумайте: якщо ви відхилите це тому, що існує справжній ефект розміру, який ви вважаєте релевантним? Або це тому, що розмір вибірки був просто таким великим, що ваш тест був перевантажений живленням? І якщо ви не зможете відхилити , це тому, що немає справжнього ефекту, або тому, що розмір вибірки був занадто малим, а ваш тест недостатньо живився? Тести на відповідність вирішують ці проблеми лоб. Н + 0H0+H0+

Існує кілька способів проведення тестів на еквівалентність (поєднується чи ні один з тестами на різницю):

  • Два однобічні тести (TOST) перетворюють загальну негативістську нульову гіпотезу, висловлену вище, у дві конкретні однобічні нульові гіпотези:
    • H - 01 : θ 1 - θ 2ΔH01:θθ0Δ (один зразок) або (дво зразка)H01:θ1θ2Δ
    • H - 01 : θ 1 - θ 2- ΔH02:θθ0Δ (один зразок) або (дво зразка)H01:θ1θ2Δ
  • Уніфіковано найпотужніші тести на еквівалентність, які, як правило, значно більш арифметично складніші, ніж TOST. Веллек є остаточним посиланням на них.
  • Підхід до інтервалу довіри, я вважаю, спочатку мотивував Шуйрман, і вдосконалював інші, наприклад Трион.


Список літератури Reagle, DP та Vinod, HD (2003). Висновок для негативістської теорії з використанням чисельно обчислених областей відхилення . Обчислювальна статистика та аналіз даних , 42 (3): 491–512.

Schuirmann, DA (1987). Порівняння двох односторонніх процедур випробувань та силового підходу для оцінки еквівалентності середньої біодоступності . Журнал фармакокінетики та біофармацевтики , 15 (6): 657–680.

Tryon, WW та Lewis, C. (2008). Метод інтерференційного довірчого інтервалу для встановлення статистичної еквівалентності, який коригує коефіцієнт зниження Триона (2001) . Психологічні методи , 13 (3): 272–277.

Тріон, WW та Lewis, C. (2009). Оцінка незалежних пропорцій для статистичної різниці, еквівалентності, невизначеності та тривіальної різниці за допомогою інфекційних довірчих інтервалів . Журнал статистики освіти та поведінки , 34 (2): 171–189.

Веллек, С. (2010). Тестування статистичних гіпотез еквівалентності та неферріоризму . Chapman and Hall / CRC Press, друге видання.


1
Той, хто мене голосував, повинен посилити відгуки про те, чому: повинно бути зрозуміло, що я надаю детальні відповіді, і я реагую на вклад.
Олексій

9

Ви маєте на увазі стандартну практику висновків, що викладаються на курсах статистики:

  1. H0,Ha
  2. α
  3. α
  4. H0HaH0

Це добре, і це використовується на практиці. Я б навіть ризикну здогадатися, що ця процедура може бути обов'язковою в деяких регульованих галузях, таких як фармацевтична продукція.

Однак це не єдиний спосіб застосування статистики та висновку, що застосовуються в дослідженнях та практиці. Наприклад, погляньте на цей документ : "Спостереження за новою частинкою при пошуку бозону стандартної моделі Хіггса з детектором ATLAS в LHC". У статті вперше було представлено докази існування бозона Хіггса в так званому експерименті ATLAS. Це був також один із тих робіт, де список авторів дорівнює його фактичному змісту :)

  • H0HaH0
  • ασ
  • α
  • вони представляють інтервали довіри на звичайних рівнях довіри, таких як 95%

Ось як формулюється висновок: "Ці результати дають переконливі докази відкриття нової частинки масою 126,0 ± 0,4 (стат) ± 0,4 (sys) GeV". Слова "stat" відноситься до статистичних та "sys" до систематичних невизначеностей.

Отже, як ви бачите, не всі роблять процедуру чотири кроки, яку я окреслив на початку цієї відповіді. Тут дослідники показують значення p без попереднього встановлення порогу, всупереч тому, що викладається на уроках статистики. По-друге, вони не принаймні формально танцюють "відхиляти / не відмовлятись". Вони вирізають погоню і кажуть "ось значення р, і тому ми говоримо, що ми знайшли нову частинку масою 126 ГеВ".

Важлива примітка

Автори статті Хіггса ще не оголосили бозона Хіггса. Вони лише стверджували, що знайдена нова частинка і що деякі її властивості, такі як маса, відповідають бозону Хіггса.

Минуло кілька років, щоб зібрати додаткові докази, перш ніж було встановлено, що частинка справді є бозоном Хіггса. Дивіться цю публікацію в блозі з раннього обговорення результатів. Фізики продовжували перевіряти різні властивості, такі як нульове віджимання. І хоча в якийсь момент були зібрані докази, ЦЕРН заявив, що частинка є бозоном Хіггса.

Чому це важливо? Тому що неможливо трівіалізувати процес наукового відкриття до якоїсь жорсткої процедури статистичного висновку. Статистичний висновок - це лише один інструмент, що використовується.

Коли CERN шукав цю частинку, фокус робився на першому її пошуку. Це була кінцева мета. Фізик мав уявлення, куди подивитися. Після того, як вони знайшли кандидата, вони зосередилися на доведенні того, що це саме той. Врешті-решт, сукупність доказів, не один експеримент із р-значенням та значимістю, переконали всіх, що ми знайшли частинку. Додайте сюди всі попередні знання та стандартну модель . Це не просто статистичний висновок, науковий метод ширший за це.


вау, ваша відповідь чудова! це справді хороший приклад. Я сподіваюся, що через максимум 10 років науковці з життя також прийдуть до цього стилю звіту!
Німець Демидов

5

Існують способи підходу до цього, які не покладаються на розрахунки потужності (див. Wellek, 2010). Зокрема, ви також можете перевірити, чи відхиляєте ви нуль, що ефект має апріорну значущу величину.

У цій ситуації Даніель Лакенс виступає за тестування на еквівалентність. Зокрема, Лакенс використовує " TOST " (два однобічні тести) для середнього порівняння, але є й інші способи дійти до тієї самої думки.

У системі TOST ви перевіряєте складну нуль: однобічну нульову гіпотезу про те, що ваш ефект є більш негативною, ніж найменша негативна різниця інтересів, і нуль, що ваш ефект є більш позитивною, ніж найменша позитивна різниця інтересів. Якщо ви відкинете обидва, то ви можете стверджувати, що значущої різниці немає. Зауважте, що це може статися, навіть якщо ефект суттєво відрізняється від нуля, але ні в якому разі не потрібно підтвердження нуля.

Лакенс, Д. (2017). Тести на еквівалентність: практичний праймер для t- тестів, кореляцій та мета-аналізів . Соціальна психологічна та особистісна наука , 8 (4), 355-362.

Веллек, С. (2010). Тестування статистичних гіпотез еквівалентності та неферріоризму . Chapman and Hall / CRC Press, друге видання.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.