Тести на еквівалентність нестандартних даних?


9

У мене є деякі дані, які я не можу обов'язково вважати отриманими з звичайних розподілів, і я хотів би провести тести на еквівалентність між групами. Для нормальних даних існують такі методи, як TOST (два однобічних t-тести). Чи є щось аналогічне TOST для ненормативних даних?


1
Я не знайомий з TOST, але ти шукаєш Ман-Вітні? Це непараметричний тест (у тому сенсі, що жодних припущень щодо розподілів не робиться), який може свідчити про те, що дві групи походять з різних розподілів.
Нік Саббе

1
Я шукаю тест, де нульова гіпотеза полягає в тому, що є різниця, а альтернативна гіпотеза полягає в тому, що різниці немає (майже).
Райан К. Томпсон

Для невеликих зразків ви можете ознайомитися з відповідями в stats.stackexchange.com/questions/49782/… . Класичний підхід із t-тестами для більш великих зразків чудовий завдяки теоремі про центральний межа.
Майкл М

3
Ніщо у фразі "Два однобічні тести" - ні основна логіка не передбачає нормальної теорії. Потрібно цілком можливо адаптувати його до альтернативи зміщення місця розташування з ненормальним розподілом. Але будьте обережні - у багатьох випадках із неординарними даними те, що ви насправді хочете, - це тест на еквівалентність у зміні масштабу , а натомість з іншими видами даних щось інше. Знання того, що потрібно, насправді залежить від того, що ви вимірюєте, і яку проблему ви вирішуєте. Замість того, щоб намагатися втиснути свій кілочок у круглий отвір, варто оглянути кілочок.
Glen_b -Встановіть Моніку

Відповіді:


8

Логіка TOST, використовувана для статистики тестів Wald-типу t і z (тобтоθ/сθ і θ/σθвідповідно) можна застосувати до наближень z для непараметричних тестів, таких як тести знаків, знаків та суми рангів. Для простоти я припускаю, що еквівалентність виражається симетрично одним терміном, але розширення моєї відповіді на асиметричні умови еквівалентності є простим.

Одне питання, яке виникає при цьому, полягає в тому, що якщо він звик виражати термін еквівалентності (скажімо, Δ) в тих же одиницях, що і θ, То цей термін еквівалентності повинен бути виражений в одиницях конкретного знака, підписаний ранг, або суми рангів статистики, яка є одночасно заумної, і в залежності від N .

Однак можна також виразити терміни еквівалентності TOST в одиницях самої тестової статистики. Вважайте, що в TOST, якщоz=θ/σθ, тоді z1=(Δθ)/σθ, і z2=(θ+Δ)/σθ. Якщо ми дозволимоε=Δ/σθ, тоді z1=εz, і z2=z+ε. (Статистичні дані, викладені тут, обидва оцінюються в правильному хвості:p1=P(Z>z1) і p2=P(Z>z2).) Використання одиниць розподілу z для визначення порогу еквівалентності / відповідності може бути кращим для непараметричних тестів, оскільки альтернатива визначає поріг в одиницях підписаних рангів або рангових сум, що може бути суттєво безглуздим для дослідників і важким для інтерпретувати.

Якщо ми визнаємо, що (для симетричних інтервалів еквівалентності) неможливо відкинути будь-яку нульову гіпотезу TOST, коли εz1α, то ми можемо приступити до прийняття рішень щодо відповідного розміру терміну еквівалентності відповідно. Наприкладε=z1α+0.5.

Такий підхід був реалізований з опціями для корекції безперервності і т.д. в пакеті Тост для Stata (який тепер включає в себе конкретні реалізації Тост для випробувань Шапіро-WILK і Шапіро-FRANCIA), які ви можете отримати доступ, набравши в Stata:

Редагувати: Чому логіка TOST є обґрунтованою, і тестові формації еквівалентності застосовуються до тестів омнібусів, я переконав, що моє рішення ґрунтувалося на глибокому нерозумінні приблизної статистики для тестів Шапіро-Вілк і Шапіро-Франція.


3

Це не ТОСТ сам по собі, але тест Комолгорова-Смірнова дозволяє перевірити значущість різниці між розподілом вибірки та другим еталонним розподілом, який ви можете вказати. Ви можете використовувати цей тест для виключення конкретного виду різного розподілу, але не різних розподілів загалом (принаймні, не без контролю за інфляцією помилок у тестах усіх можливих альтернатив ... якщо це якось само собою можливо). Альтернативна гіпотеза для будь-якого одного тесту залишатиметься менш специфічною гіпотезою "все-таки", як зазвичай.

Якщо ви можете погодитися з тестом на розподільні відмінності між двома групами, де нульовою гіпотезою є те, що дві групи розподілені рівномірно, ви можете використовувати тест Комолгорова-Смірнова для порівняння розподілу однієї групи з іншим. Це, мабуть, звичайний підхід: ігноруйте відмінності, якщо вони не є статистично значущими, і обґрунтуйте це рішення тестовою статистикою.

У будь-якому випадку, ви можете розглянути деякі більш глибокі проблеми, що виникають із підходу "все або нічого", щоб відкинути нульову гіпотезу. Одне з таких питань є дуже популярним тут на Cross Valified: " Чи тестування на нормальність" по суті є марним "? Люди люблять відповідати на питання тестування на нормальність на запитання:" Чому ви хочете перевірити це? " Я припускаю, як правило, загалом визнати недійсним причину тестування, що в кінцевому рахунку може призвести до правильного напрямку. Суть корисних відповідей на питання, яке я тут пов’язував, здається таким:

  1. Якщо ви стурбовані порушеннями параметричних припущень тесту, вам слід просто знайти непараметричний тест, який замість цього не робить припущення щодо розподілу. Не перевіряйте, чи потрібно використовувати непараметричний тест; просто використовуйте його!
  2. Вам слід замінити питання "Чи є мій розподіл значно ненормальним?" з: "Наскільки ненормальний мій розподіл, і як це може вплинути на мій аналіз інтересів?" Наприклад, тести на центральну тенденцію (особливо із залученням засобів) можуть бути більш чутливими до косості, ніж до куртозу, і навпаки для тестів на (спів) дисперсію. Тим не менш, є надійні альтернативи для більшості аналітичних цілей, які не дуже чутливі до будь-якого виду нестандартності.

Якщо ви все ще хочете пройти тест на еквівалентність, ось ще одна популярна дискусія щодо крос-валідації, яка включає тестування на еквівалентність.


1
Тестування на еквівалентність добре встановлено, і ви неправильно розумієте його нульові гіпотези, які, як правило, мають форму H0-:|θ-θ0|Δ. Це інтервальна гіпотеза, яка може перевести, наприклад, два однобічні тести (TOST): H01-:θ-θ0Δабо H01-:θ-θ0-Δ. Якщо хто відкидає Н01- & H02-, тоді ви повинні зробити висновок про це -Δ<θ-θ0<Δ, тобто, що ваші групи є еквівалентними в інтервалі[-Δ,Δ].
Олексій

Справедливо; Я, мабуть, трохи вводив в оману. Я видалив частини, на які ви, здається, заперечуєте. Однак я думаю, що ви сформулювали ваш коментар занадто сильно. Незважаючи на те, що примусовий дихотомічний fail to/ rejectпідхід добре встановлений, більшість вибірок не можуть повністю виключати можливість того, що нуль відповідає дійсності. Майже завжди є ймовірність помилкової помилки відхилення, якщо наполягають на відхиленні, що, як правило, не є буквально необхідним. Це, мабуть, був більш важливим моментом, який я мав намір зробити спочатку. Сподіваємось, це тепер трохи зрозуміліше без видалених речей
Nick Stauner

2
Ну, на мій погляд, міцність еквівалентних тестів (наприклад, H0-) походить від поєднання їх із знайомими тестами на різницю (наприклад, H0+). Перевірте це: (1) Відхилити Н0+ & Не відхиляти H0-, укласти відповідну різницю ; (2) Не відхиляти H0+ & Відхилити H0-, укласти еквівалентність (дляΔ); (3) Відхилити Н0+ & Відхилити H0-, зробіть висновок про банальну різницю (тобто вона є, але вам все одно); та (4) Не відхиляти H0+ & Не відхиляти H0-, зробіть висновок про невизначеність _ / _ тестів, що не мають повноважень . Корисно вводить живлення в аналіз.
Олексій

Звичайно, питання чутливості та специфічності, PPV та NPV не оминаються.
Олексій

-1

Еквівалентність ніколи не є те, що ми можемо перевірити . Подумайте над гіпотезою:Н0:fхfу проти Н1:fх=fу. Теорія NHST говорить нам , що під нуль, ми можемо вибрати що - небудь підН0що найкраще відповідає даним. Це означає, що ми майже завжди можемо довільно наблизитись до розподілу. Наприклад, якщо я хочу протестуватиfхN(0,1), ймовірнісна модель, яка дозволяє проводити окремі розподіли f^х і f^узавжди буде більше імовірним, якщо це є нульовим, порушення критичних припущень тестування. Навіть якщо зразокХ=Y однаково я можу отримати коефіцієнт ймовірності, який довільно близький до 1 с fуfх.

Якщо ви знаєте відповідну модель ймовірності для даних, ви можете використовувати критерій пеніфікованої інформації для ранжирування альтернативних моделей. Один із способів полягає у використанні BIC двох моделей ймовірностей (тієї, що оцінюється підН0 і Н1. Я використовував звичайну модель ймовірності, але ви можете легко отримати BIC з будь-якого типу процедури максимальної ймовірності, вручну або за допомогою GLM. Цей пост Stackoverflow отримує азотну крупу для підгонки розподілу. Приклад цього можна зробити тут:

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

дає

> mean(p)
[1] 0.034

pтут пропорція разів, коли BIC нульової моделі (окремі моделі) краща (нижча), ніж альтернативна модель (еквівалентна модель). Це надзвичайно близько до номінального рівня 0,05 статистичних тестів.

З іншого боку, якщо взяти:

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  x <- x + 0.4*g
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

Дає:

> mean(p)
[1] 0.437

Як і у NHST, існують тонкі питання щодо потужності та помилково позитивних помилок, які слід вивчити за допомогою моделювання, перш ніж робити остаточні висновки.

Я думаю, що аналогічний (можливо, більш загальний метод) використовує баєсівську статистику для порівняння задніх оцінок за будь-якою імовірнісною моделлю.


2
Адамо, ви, здається, пов'язуєте "перевірку рівності" з "тестуванням на еквівалентність". У методах та застосуванні останньої існує десятиліття старої і міцної літератури.
Олексій

1
Див., Наприклад, Wellek, S. (2010). Тестування статистичних гіпотез еквівалентності та неферріоризму . Chapman and Hall / CRC Press, друге видання.
Олексій

@ Алексис хм, ми, на жаль, не маємо доступу до бібліотеки. Ви хочете сказати, що еквівалентність те саме, що непіддатність, якщо оцінки, що лежать в межах норми, вважаються еквівалентними?
AdamO

1
Не зовсім: неповноцінність - це однобічний тест на те, чи нове лікування не гірше якогось стандарту мінус найменшої відповідної різниці, яка визначена апріорі . Тести на еквівалентність - це тести нульової гіпотези про те, що дві (або більше) величини різні - в будь-якому напрямку - більш ніж за найменшу відповідну різницю, визначену апріорі . Деякі доповіді:
Олексій

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.