Коли використовувати тест Wilcoxon-рейтингу замість непарного тесту?


26

Це додаткове запитання до того, що тут написав Френк Харрелл :

На мій досвід, необхідний розмір вибірки для точного розподілу t часто перевищує розмір вибірки. Як ви вже говорили, тест з підписом Wilcoxon є надзвичайно ефективним, і він надійний, тому я майже завжди віддаю перевагу йому над тестом t

Якщо я правильно це розумію - при порівнянні місця розташування двох невідповідних зразків, ми б вважали за краще використовувати тест рейтингової суми Wilcoxon для непарного t-тесту, якщо розміри нашої вибірки невеликі.

Чи існує теоретична ситуація, коли ми віддаємо перевагу тесту Вілкоксона за ранговою сумою перед непарним тестом, навіть якщо розміри вибірки наших двох груп порівняно великі?

Моя мотивація до цього питання випливає зі спостереження, що для одного тестового зразка, використовуючи його для не дуже малого зразка перекошеного розподілу, виникла помилка помилки I типу:

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error

1
Мені 0,0572 видається досить близьким до 0,05.
mar999

Привіт Марк - коли ми проводимо при повторенні нульової гіпотези 100000, ми не очікуємо, що ми отримаємо цей рівень різниці від 0,05. Як правило, ми очікували б різницю плюс мінус приблизно як два рази sqrt (0,05 * 0,95 / 100000) від 0,05
Тал Галілі

1
Я згоден, що це неправильно. Я просто мав на увазі, що це здається досить близьким для практичних цілей.
mar999

1
Питання, пов’язані з цим: як вибрати між t-тестом або непараметричним тестом, наприклад, Wilcoxon у невеликих зразках , який розглядає як парні, так і непарні парні тести, а також альтернативи Wilcoxon, такі як Brunner-Munzel. Є також відмінна відповідь Френка Харрелла, яка пояснює, чому він вважає виправданим свій підхід більш детально, ніж вищевказаний витяг (наприклад, важливість інваріантності рангів при монотонній трансформації).
Срібна рибка

@TalGalili: чому ви не розраховували б отримати такий рівень різниці, враховуючи, що ви робите t-тест, і припущення про нормальність порушено (я бачу, що ваш зразок розподілений в експоненціальному масштабі)? Я прошу з точки зору новачка тут. Я просто намагаюся зрозуміти, чого ми очікуємо, роблячи один зразок t-тесту, коли припущення про нормальність порушено. Чому середня помилка I типу повинна бути меншою, ніж 5%, або більшою, ніж 5%, або що-небудь ще? Як я це бачу, те, що ми тестуємо, є і розподіл є нормальним. Н0:мк=50
Еросеннін

Відповіді:


23

Так, є. Наприклад, будь-яка вибірка з розподілів з нескінченною дисперсією буде руйнувати t-тест, але не Вілкоксона. Посилаючись на непараметричні статистичні методи (Голландер і Вулф), я бачу, що асимптотична відносна ефективність (ARE) Вілкоксона відносно t-тесту становить 1,0 для рівномірного розподілу, 1,07 (тобто, Вілкоксон кращий) для логістичного, 1,5 для подвійний Експоненціальний (Лаплас) і 3,0 для Експоненціалу.

Ходжес і Леманн показали, що мінімальний показник ARE Вілкоксона відносно будь-якого іншого тесту - 0,864, тому ви ніколи не можете втратити більше ніж 14% ефективності, використовуючи його відносно будь-чого іншого. (Звичайно, це асимптотичний результат.) Отже, використання Вілкоксоном як дефолту Фреком Гарреллом, мабуть, має бути прийняте майже всім, включаючи і мене.

Редагувати: Відповідаючи на відповідне запитання в коментарях, для тих, хто віддає перевагу довірчим інтервалам, оцінювач Ходжеса-Леманна є тим оцінником, який "відповідає" тесту Вілкоксона, і навколо цього можуть бути побудовані довірчі інтервали.


1
Чи є простий спосіб отримати довірчий інтервал, якщо використовується тест Вілкоксона? Здається, спонукає людей робити занадто великий акцент на р-значення, навіть більше, ніж вони би параметричним методом.
mar999

Так, оцінювач Ходжеса-Леманна є відповідним оцінювачем, і я відредагував частину відповіді, щоб майбутнім читачам не доводилося проходити коментарі.
jbowman

Спасибі jbowman Я не знайомий з оцінкою Ходжеса-Леманна, але побачу, що я можу дізнатися про нього.
mark999

3
biostat.mc.vanderbilt.edu/WilcoxonSoftware показує, як використовувати R, щоб отримати оцінку Ходжеса-Леманна та його довірчий інтервал.
Френк Харрелл

1
(+1) від зухвалих анти-рангових традиціоналістів. Однак викликом рангових тестів є те, що гіпотеза розпливчаста. Зазвичай це не та ж гіпотеза, що і t-тест. Тест t-тесту - середня різниця завжди, Вілкоксон - тестова середня середньозважена різниця. Безумовно, якщо середня різниця є статистично значущою, ми знаємо, що розподіли повинні відрізнятися, навіть якщо їх засоби однакові. Жоден тест не використовується для виявлення розподільних відмінностей у всіх випадках. Я кажу лише стільки, оскільки я віддаю перевагу інтерпретації. (1/2)
АдамО

24

Дозвольте повернути вас до нашої дискусії в коментарях до цього вашого питання. Тест за рейтингом Вілкоксона еквівалентний тесту Манна-Вітні U (і його пряме розширення для більш ніж двох зразків називається тестом Крускала-Уолліса). Як у Вікіпедії, так і в цьому тексті ви бачите, що Ман-Вітні (або Крускал-Уолліс) зазвичай порівнює не засоби та медіани. Він порівнює загальну поширеність значень: який із зразків "стохастично більший". Тест не розповсюджується. Т-тест порівнює засоби. Він передбачає нормальний розподіл. Отже, тести включають різні гіпотези. У більшості випадків ми не плануємо порівнювати конкретно засоби, скоріше, ми хочемо знати, який зразок більший за значеннями, і це робить Ман-Уітні тестом за замовчуванням для нас. З іншого боку, коли обидва розподілу симетричні, завдання перевірити, чи є одна вибірка "більшою", ніж інша, перероджується в завдання порівняння двох засобів, і тоді, якщо розподіли нормальні, з рівними відхиленнями t-тест стає дещо більш потужний.


+1 - прив’язання відповіді до значення гіпотез, які перевіряються.
Джош Геман

Під "який із зразків" стохастично більший "", ви маєте на увазі "який із зразків зазвичай приймає більші значення порівняно з іншим"? Якщо ні, що ти означає? Не могли б ви детальніше зупинитися на цьому?
Ердоган ЦЕВЕР

1
@Erdogan, так, ми можемо сказати так, як ви сказали. Суворе формулювання таке: у випадково вибраній парі об'єктів, по одному від кожної вибірки, об'єкт з "стохастично більш домінуючої" вибірки буде вище (за значенням), ніж об'єкт з іншого вибірки з вірогідністю> 0,5.
ttnphns
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.