Як перевірити гіпотезу про відсутність групових відмінностей?


39

Уявіть, що у вас є дослідження з двома групами (наприклад, чоловіки та жінки), які розглядають числову залежну змінну (наприклад, бали тестів інтелекту), і у вас є гіпотеза про відсутність групових відмінностей.

Питання:

  • Який хороший спосіб перевірити, чи немає групових відмінностей?
  • Як би ви визначили розмір вибірки, необхідний для адекватного тестування на відсутність групових відмінностей?

Початкові думки:

  • Недостатньо було б зробити стандартний t-тест, тому що, якщо відхилення нульової гіпотези не означає, що параметр інтересу дорівнює або близький до нуля; особливо це стосується невеликих зразків.
  • Я міг би переглянути інтервал довіри 95% і перевірити, чи всі значення знаходяться в досить малому діапазоні; можливо плюс-мінус 0,3 стандартних відхилень.

що ви маєте на увазі під "цим передбачається, що нульова гіпотеза є істинною"?
Робін Жирард

Якщо ви хочете мати можливість контролювати ймовірність оголошення неправильно "є різниця", вам потрібно розділити дві гіпотези (я вже згадував, я люблю цю цитату: stats.stackexchange.com/questions/726/… ;))
Робін Жирард

@Robin р значення тесту на значення нульової гіпотези - це ймовірність бачити як або більш екстремальні дані, ніж ті, що спостерігаються, припускаючи, що нульова гіпотеза є істинною; але, можливо, я міг би краще сказати твердження вище.
Джеромі Англім

@Robin Я змінив питання, щоб спробувати зробити свою точку яснішою
Jeromy Anglim

Відповіді:


20

Я думаю, ви запитуєте про тестування на еквівалентність . По суті, вам слід вирішити, наскільки велика різниця є прийнятною для вас, щоб все-таки зробити висновок, що дві групи є рівнозначними. Це рішення визначає 95% (або інші) межі довірчого інтервалу, і на цій основі проводяться розрахунки розміру вибірки.

На цю тему є ціла книга .

Дуже поширеним клінічним «еквівалентом» тестів на еквівалентність є тест / випробування на неповноцінність . У цьому випадку ви «віддаєте перевагу» одній групі над іншою (усталене лікування) і проектуєте свій тест, щоб показати, що нове лікування не поступається встановленому лікуванню на якомусь рівні статистичних даних.

Я думаю, що мені потрібно віддати кредит Харві Мотульському для сайту GraphPad.com (у розділі "Бібліотека" ).


16

Окрім уже згаданої можливості певного тесту на еквівалентність , про який більшість із них, наскільки мені відомо, здебільшого розбиті за старою доброю традицією частотистів, існує можливість проведення тестів, які справді забезпечують кількісну оцінку доказів у користь нульових гіфтез, а саме тести байєса .

Реалізацію байесівського тесту можна знайти тут: Wetzels, R., Raaijmakers, JGW, Jakab, E., & Wagenmakers, E.-J. (2009). Як кількісно оцінити підтримку і проти нульової гіпотези: Гнучка реалізація WinBUGS типового байєсівського тесту за замовчуванням. Психономічний вісник та огляд, 16, 752-760.

Також є підручник про те, як все це зробити в R:

http://www.ruudwetzels.com/index.php?src=SDtest


Альтернатива (можливо, більш сучасний підхід) байєсівського тесту надана (з кодом) у цій статті Крушке:

Крушке, ЖК (2013). Байєсова оцінка витісняє t-тест . Журнал експериментальної психології: Загальне , 142 (2), 573–603. doi: 10.1037 / a0029146


Усі реквізити на цю відповідь (до того, як додав Крушке) повинні надходити до мого колеги Девіда Келлена. Я вкрав його відповідь з цього питання .


Мені було цікаво, чи хтось забезпечить байєсівський підхід. Відмінно. Спасибі.
Джеромі Англім

1
Можливо, варто буде оновити цю відповідь, щоб включити посилання на дивовижний пакет BayesFactor для R.
crsh

13

Після відповіді Тілаколео я провів невелике дослідження.

Пакет еквівалентності в R має tost()функцію.

Докладнішу інформацію див. У розділі Robinson and Frose (2004) " Валідація моделі за допомогою тестів на еквівалентність ".


Дякуємо за посилання та вказівник на equivalenceпакет.
chl

8

7

Нещодавно я думав про альтернативний спосіб "тестування на еквівалентність", заснований на відстані між двома розподілами, а не між їх засобами.

Існують деякі методи, що забезпечують довірчі інтервали для перекриття двох розподілів Гаусса:введіть тут опис зображення

Перекриття (між?) Двох розподілів і має приємну ймовірнісну інтерпретацію: де- загальна відстань варіації між та .O(P1,P2)P1P2

1O(P1,P2)=TV(P1,P2)
TV(P1,P2)=supA|P1(A)P2(A)|P1P2

Це означає, що, наприклад, якщо то ймовірності, задані і будь-якої події, не відрізняються більше ніж . Грубо кажучи, два розподіли роблять однакові прогнози до .O(P1,P2)>0.9P1P20.110%

Таким чином, замість того, щоб використовувати критерій прийняття на основі критичного значення для різниці між засобами та , як у класичному тестуванні на еквівалентність, ми могли б базувати його на критичному значенні для різниці між ймовірностями прогнозів, заданими два розподіли.μ1μ2

Я думаю, що є перевага з точки зору "об'єктивності" критерію. Критичне значенняексперт повинен надати справжню проблему: це має бути цінністю, за якою різниця має практичне значення. Але іноді ніхто не має ґрунтовних знань про справжню проблему, і немає жодного експерта, здатного надати критичну цінність. Прийняття звичайного критичного значення щодо може бути способом до критерію, не залежного від фізичної проблеми, що розглядається.|μ1μ2|TV(P1,P2)

У випадку Гаусса з однаковими дисперсіями перекриття є один на один, пов'язане зі стандартизованою середньою різницею .|μ1μ2|σ


Чи є у вас ресурси, які показують, що перекриття використовуються в деяких реальних проблемах? Це звучить неймовірно багатообіцяюче, але мені незрозуміло, як можна було б застосувати це у реальній проблемі (де ваші висновки потенційно є декількома кроками, вилученими з "цей розподіл досить схожий на X", тим самим злегка зрозуміти, як це 10% телевізора перекладається на розмір впливу на умовиводи).
Stumpy Joe Pete

1
@StumpyJoePete Я написав щось у тому ж дусі у своєму блозі: stla.github.io/stlapblog/posts/…
Stéphane Laurent

5

У медичних науках переважно використовувати підхід довірчого інтервалу, а не два однобічні тести (тост). Я також рекомендую скласти графіки точкових оцінок, CI та априорно-визначених меж еквівалентності, щоб зробити все зрозумілим.

Ваше питання, ймовірно, буде вирішено таким підходом.

У цьому плані досить корисні рекомендації КОНСОРТУ для досліджень, які не є неповноцінними / еквівалентними.

Дивіться Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ та CONSORT Group. Повідомлення про рандомізовані випробування щодо неінференційності та еквівалентності: розширення заяви CONSORT. JAMA. 2006 р., 8 березня; 295 (10): 1152–60. (Посилання на повний текст.)


1
Я не обов'язково сказав, що переважні інтервали довіри. Насправді довірчі інтервали відповідають тестам гіпотез. TOST можна досягти, переглянувши довірчі інтервали, отримані шляхом перетину двох двосторонніх довірчих інтервалів, які відповідають двом одностороннім t тестам, які використовуються в процедурі.
Майкл Черник

4

Так. Це тестування на еквівалентність. В основному ви перетворюєте нульову та альтернативну гіпотезу та базуєте розмір вибірки на потужності, щоб показати, що різниця засобів знаходиться у вікні еквівалентності. Блеквелдер назвав це "Доведення нульової гіпотези". Це зазвичай робиться у фармацевтичних клінічних випробуваннях, коли перевіряється еквівалентність генеричного лікарського засобу до лікарського засобу, що продається, або затверджений препарат порівнюється з новим препаратом (часто називають біоеквівалентністю). Односторонній варіант називається неповноцінністю. Інколи препарат може бути затверджений, лише показавши, що новий препарат не поступається конкурентам, що продається. Shao та Pigeot розробили послідовний підхід до завантаження біоеквівалентності з використанням кросоверних конструкцій.


0

Різниці завантаження (наприклад, різниця між засобами) між двома групами вибірки та перевірка на статистичну значимість. Більш детальний опис цього підходу, хоча і в іншому контексті, можна знайти тут http://www.automated-trading-system.com/a-different-application-of-the-bootstrap/


1
Ви плутаєте помилковість прийняття нульової гіпотези без різниці і знаходите докази того, що дві величини еквівалентні .
Олексій
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.