U-тест Манна-Вітні: довірчий інтервал для розміру ефекту

Згідно з Фріцем, Моррісом та Ріхлером (2011; див. Нижче), може бути обчислений як розмір ефекту для U-тесту Манна-Вітні, використовуючи формулу Це зручно мене, як я повідомляю також і в інших випадках. Я хотів би повідомити про довірчий інтервал для на додаток до міри розміру ефекту. $r$

r = \frac{z}{\sqrt{N}}

$r = \frac{z}{\sqrt N}$

r

$r$

r

$r$

Ось мої запитання :

Чи можна обчислити довірчі інтервали для r як для r Пірсона, хоча він використовується як міра розміру ефекту для непараметричного тесту?
Про які довірчі інтервали потрібно повідомити для тестування з одним хвостиком та двостороннім?

Редагувати щодо другого питання: "Про які довірчі інтервали потрібно повідомити для тестування з одним хвостиком проти двосторонніх?"

Я знайшов ще трохи інформації про те, що ІМХО може відповісти на це питання. "Якщо двосторонні межі довіри утворюють довірчий інтервал, їх однобічні аналоги називають нижньою або верхньою довірчою межею." ( http://en.wikipedia.org/wiki/Confidence_interval ). З цієї інформації я роблю висновок, що не головне питання, чи було тестування на значущість (наприклад, test) одно- або двоступеневим, а яка інформація зацікавлена щодо КІ щодо розміру ефекту. Мій висновок (будь ласка, виправте мене, якщо ви не згодні): $t$

двостороння CI зацікавлена у верхній та нижній межах (як наслідок, можливо, що двосторонній CI приводить до 0, хоча однобічний тест значущості був p <0,05, особливо якщо значення було близьким до .05.) $\rightarrow$
односторонній "CI" цікавить лише верхню або нижню межу (завдяки теоретичним міркуванням); однак це не обов'язково є головним питанням, що цікавить, після перевірки спрямованої гіпотези. Двосторонній ІС цілком доречний, якщо акцентовано увагу на можливому діапазоні розміру ефекту. Правильно? $\rightarrow$

Дивіться нижче текстовий уривок Fritz, Morris, & Richler (2011) щодо оцінки розмірів ефекту для тесту Манна-Вітні з статті, про яку я згадуюсь вище.

"Більшість описаних тут оцінок ефекту припускають, що дані мають нормальний розподіл. Однак деякі дані не відповідають вимогам параметричних тестів, наприклад, дані в порядковій, але не інтервальній шкалі. Для таких даних дослідники зазвичай звертаються до непараметричних статистичних тестів, таких як тести Манна – Вітні та Вілкоксона. Значимість цих тестів зазвичай оцінюється через наближення розподілів статистичних даних випробувань до розподілу, коли розміри вибірки не надто малі, і статистичні пакети, такі як SPSS, які виконують ці тести, подають відповідне значення на додаток до значень або ; $z$ $z$ $U$ $T$ $z$ можна також обчислити вручну (наприклад, Siegel & Castellan, 1988). Значення може бути використане для обчислення розміру ефекту, такого як запропонований Коеном (1988); Керівні принципи Коена для r полягають у тому, що великий ефект - 5, середній ефект - 3, а малий - .1 (Coolican, 2009, стор. 395). З цих значень легко обчислити , або тому що і $z$ $r$ $r$ $r^2$ $\eta^2$ $z$
$r = \frac{z}{\sqrt{N}}$ $r = \frac{z}{\sqrt N}$ $r^{2} o r η^{2} = \frac{z^{2}}{N}$ $r^2\quad{\rm or}\quad \eta^2 = \frac{z^2}{N}$ Ці оцінки розміру ефекту залишаються незалежними від розміру вибірки, незважаючи на наявність N у формулах. Це тому, що z чутливий до розміру вибірки; поділ на функцію N знімає ефект розміру вибірки з оцінюваного розміру ефекту. "(стор. 12)

— сірий
джерело

Папір тут доступний безкоштовно .

— asac

Відповіді:

Один з варіантів розміру ефекту для тесту Манна-Вітні U - це загальний розмір ефекту мови. Для Манна-Вітні U це частка вибіркових пар, яка підтримує заявлену гіпотезу.

Другий вибір - кореляція рангів; оскільки кореляція рангів коливається від -1 до +1, вона має властивості, подібні до r Pearson r. Крім того, за простою формулою різниці співвідношення рангів - це різниця між розміром ефекту загальної мови та його доповненням, що сприяє інтерпретації. Наприклад, якщо є 100 пар вибірки, і якщо 70 пар вибірки підтримують гіпотезу, то розмір ефекту загальної мови становить 70%, а кореляція рангів - r = .70 = .30 = .40. Кербі в журналі «Інноваційне навчання: Кербі» (2014) «Інноваційне навчання» чітке обговорення розміру ефекту загальної мови та чотирьох формул для обчислення рангової кореляції.

До речі, хоч документ не згадує про це, я цілком впевнений, що Сомерс d і кореляційна кореляція для Манна-Вітні рівнозначні.

— ДСК
джерело

Ви маєте на увазі "Наприклад, якщо є 100 можливих пар"? U-тест Манна-Вітні призначений для непарних даних, тому фразування неоднозначне - можливо, ви захочете уточнити для читачів, які можливі пари.

— gung - Відновіть Моніку

Дякуємо за коментар та можливість уточнити. Я посилався на вибіркові пари. Якщо в експериментальній вибірці є 10 спостережень, а в контрольній вибірці - 10 спостережень, то 10 пар 10 зразків 100 . За словами Роберта Гріссома, розмір ефекту вибірки є неупередженим оцінкою розміру ефекту популяції. Таким чином, якщо кореляційна кореляція r = .40 для вибірки, це неупереджений оцінка розміру ефекту популяції.

— ДСК

Я підозрював, що це ви мали на увазі, @DSK. Я думаю, що пояснення допоможе людям. Ви можете відредагувати це у своїй відповіді. Ласкаво просимо в CV.

— gung - Відновіть Моніку

Ваше посилання приводить мене до можливості придбати статтю.

Більш фундаментальним для 2-зразкового тесту Вілкоксона-Манна-Уітні є ймовірність узгодження, що є чистою мірою поділу двох груп. Ви можете отримати довірчі інтервали для цього -index різними способами, наприклад, в R функція пакета, яка не передбачає однакової дисперсії в двох групах. Ви також можете перетворити в кореляцію рангів Сомера через . $c$ Hmiscrcorr.cens $c$ $D_{xy}$ $D_{xy} = 2\times (c - \frac{1}{2})$

— Френк Харрелл
джерело

Дякую, що повідомили про це моє повідомлення (посилання). Зараз я вставив уривок про тест Манна-Вітні у своєму питанні.

— сірий

Дуже дякую за вашу відповідь. Чи є у вас під рукою посилання про те, як інтерпретувати c-індекс та D Somers? Мене особливо зацікавить, чи можна останнє трактувати порівняно з r. У мене два зразки, а у другому зразку (більший N та нормальний розподіл) я повідомляю r. Я думаю, було б полегшити порівняння результатів, якби застосовані заходи були подібними - наскільки це можливо, звичайно. Ось чому мене зацікавила формула, згадана Fritz et al. (2011). Отже, CI для їх r не можна обчислити, як для r Пірсона, я припускаю? Велике спасибі ще раз!

— сірий

Я не зміг прочитати цю статтю, але я думаю, що базування індексу на статистиці може бути не оптимальним. Ви можете використовувати двійковий, порядковий і безперервний . Я не впевнений, який найкращий підручник для і ; можливо, інші можуть задзвонити.

z

$z$

D_{x y}

$D_{xy}$

Y

$Y$

D

$D$

c

$c$

— Френк Харрелл

Велике спасибі за вашу відповідь. Я шукав додаткову інформацію про те, як інтерпретувати Сомер, але поки що не був надто успішним. Чи можна зрозуміти, що Сомер може бути подібним до коефіцієнта кореляції Пірсона, наприклад, чи квадратичне значення дає коефіцієнт визначення? Я був би дуже радий знайти розмір ефекту, який можна інтерпретувати аналогічно r, якщо такий існує.

— сірий

Я знайшов додаткову інформацію щодо формули r = Z / √ (N): Розенталь (1991) пише, що "ми можемо корисно оцінити розмір ефекту r від рівня ap лише до тих пір, поки нам відомо розмір дослідження (N). Ми перетворюємо отриманий p у його стандартний нормальний відхилення, еквівалентний за допомогою таблиці значень Z ".

— сірий