Різниця між тестом ANOVA та Крускалом-Уоллісом


20

Я вивчаю R і експериментував з дисперсійним аналізом. Я керував обома

kruskal.test(depVar ~ indepVar, data=df)

і

anova(lm(depVar ~ indepVar, data=dF))

Чи є практична різниця між цими двома тестами? Я розумію, що вони обидва оцінюють нульову гіпотезу про те, що популяції мають однакове значення.

Відповіді:


28

Існують відмінності в припущеннях і гіпотезах, які перевіряються.

ANOVA (і t-тест) явно є тестом рівності значень засобів. Крускал-Уолліс (і Манн-Вітні) технічно можна розглядати як порівняння середніх рангів .

Отже, що стосується початкових значень, Крускал-Уолліс є більш загальним, ніж порівняння засобів: він перевіряє, чи є ймовірність того, що випадкове спостереження з кожної групи однаково ймовірне вище або нижче випадкового спостереження з іншої групи. Реальна кількість даних, що лежить в основі цього порівняння, не є ні різницею середніх значень, ні різницею в медіанах (у двох вибіркових випадках) насправді є медіаною всіх парних різниць - різниці Ходжеса-Леманна між вибіркою.

Однак якщо ви вирішите зробити деякі обмежувальні припущення, то Крускал-Уолліс можна розглядати як перевірку рівності засобів населення, а також квантових (наприклад, медіанів), а також широкого спектру інших заходів. Тобто, якщо припустити , що група-розподіл при нульовій гіпотезі є однаковим, і що при альтернативі, єдина зміна є дистрибутивної зрушення (так званим « місце зсуву альтернативи »), то це також випробування рівності засобів населення (і одночасно з медіанами, нижчими квартилами тощо).

[Якщо ви робите це припущення, ви можете отримати оцінки та інтервали для відносних зрушень, як і у випадку з ANOVA. Ну, також можна отримати інтервали без цього припущення, але їх складніше інтерпретувати.]

Якщо ви подивитесь на відповідь тут , особливо наприкінці, в ній обговорюється порівняння між t-тестом і Wilcoxon-Mann-Whitney, які (якщо робити принаймні двоступеневі тести) є еквівалентом ANOVA та Kruskal-Wallis застосовується для порівняння лише двох зразків; це дає трохи більше деталей, і значна частина цієї дискусії переноситься на Крускал-Уолліс проти АНОВА.

Не зовсім зрозуміло, що ви маєте на увазі під практичною різницею. Ви використовуєте їх загалом подібним чином. Якщо застосовуються обидва набори припущень, вони, як правило, дають досить подібні різновиди результатів, але вони, безумовно, можуть давати досить різні p-значення в деяких ситуаціях.

Редагувати: Ось приклад подібності умовиводів навіть у малих зразках - ось спільна область прийняття для зсуву розташування між трьома групами (друга та третя кожна порівняно з першою), відібрана від звичайних розподілів (з невеликими розмірами вибірки) для певного набору даних на рівні 5%:

Регіони прийняття різниць за місцем розташування в Крускал-Уолліс та Анова

Можна виділити чимало цікавих особливостей - дещо більша область прийняття для КВ в цьому випадку з її межею, що складається з вертикальних, горизонтальних та діагональних прямих відрізків (не важко зрозуміти, чому). Два регіони розповідають нам дуже схожі речі про параметри, які тут цікавлять.


2
+1. Я наважився її трохи відредагувати, щоб додати акцент там, де вважав за потрібне. Перегляньте, чи згодні ви чи ні.
ttnphns

@ttnphns дякую за редагування. Є деякі конкретні причини, чому деякі речі, які ви змінили, були там, тому я можу відредагувати частину оригіналу. Однак, можливо, я повинен зробити більш зрозумілим, чому я написав це так, як це було раніше. Але спершу я хочу добре подумати над тим, як найкраще зберегти якнайбільше своїх змін.
Glen_b -Встановити Моніку

4

Так, є. anovaЄ параметричним підходом , а kruskal.testне є параметричним підходом. Тому kruskal.testне потрібно ніякого розподілу припущення.
З практичної точки зору, коли ваші дані перекошені, anovaце не буде хорошим підходом до використання. Погляньте, наприклад, на це питання .


4
Я б сказав, що Крускал-Уолліс ANOVA робить розслаблені припущення щодо розподілів порівняно з параметричними ANOVA: спостереження в кожній групі походять від груп із подібною формою . Гетероскедастичність або сильно перекошені розподіли залишаються настільки ж проблемними, як і традиційні тести.
chl

2
Як так, @chl? Чини не змінюються косою, і KW базується на ранзі. Що я пропускаю?
Пітер Флом - Відновити Моніку

6
3/π

Н0

1
@ StéphaneLaurent Якщо форми не однакові, це може призвести до поганого висновку. дивіться мій приклад тут
колба

3

Δвведіть тут опис зображення

Назвемо це припущення. Тест KW перевіряє нульову гіпотезу H 0 :()Н0:{Δ=0}Н1:{Δ0}()Н0Н0)()Н0:{розподіли рівні}

()Δ>0Δ

хун=1000Н0

set.seed(666)
n <- 1000
x <- rnorm(n)
y <- (2*rbinom(n,1,1/2)-1)*rnorm(n,3)
plot(density(x, from=min(y), to=max(y)))
lines(density(y), col="blue")

введіть тут опис зображення

> kruskal.test(list(x,y))

    Kruskal-Wallis rank sum test

data:  list(x, y)
Kruskal-Wallis chi-squared = 2.482, df = 1, p-value = 0.1152

Як я стверджував на початку, я не впевнений у точній конструкції KW. Можливо, моя відповідь більш правильна для іншого непараметричного тесту (Манна-Вітні? ..), але підхід повинен бути подібним.


1
Kruskal-Wallis test is constructed in order to detect a difference between two distributions having the same shape and the same dispersionЯк згадується у відповіді Глена, коментарі та в багатьох інших місцях на цьому веб-сайті, це правда, але це звуження читання того, що робить тест. same shape/dispersionнасправді не є сутнісним, але є додатковим припущенням, яке використовується в одних і не використовується в інших ситуаціях.
ttnphns

PS Ваш 2-й приклад не суперечить і не спростовує тест KW. Н0 тесту немає distributions are equal , помилково вважати так. H0 лише в тому, що, фігурно, дві точки "конденсації гравітацій" не відхиляються одна від одної.
ttnphns

Н0

1
krusal.test()Н0

1
Так. the equality of the location parameters of the distributionє правильним формулюванням (хоч "місцеположення" не слід розглядати як лише середнє чи середнє значення, в загальному випадку). Якщо припустити однакові форми, то, природно, цей самий H0 стає "однаковим розподілом".
ttnphns

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.