"Більшість чоловіків швидші, ніж більшість жінок", можливо, є дещо неоднозначним, але я, як правило, інтерпретую його намір таким чином, що якщо ми подивимось на випадкові пари, більшість часу чоловік буде швидшим - тобто для випадкових (де - "час для -го чоловіка" тощо).P(Mi<Fj)>12i,jMii
Звичайно, можливі й інші тлумачення фрази (ось, в чому полягає неоднозначність, зрештою), і деякі з цих інших можливостей можуть відповідати вашим міркуванням.
[У нас також є питання, чи говоримо ми про вибірки чи популяції ... "більшість чоловіків [...] більшість жінок", схоже, є твердженням про населення (про населення потенційних часів), але ми спостерігали лише часи що ми, здається, розглядаємо як зразок, тому ми повинні бути обережними з тим, наскільки широко ми заявляємо претензію.]
Зауважте, що не мається на увазі через . Вони можуть йти в протилежні сторони.P(Mi<Fj)>12M˜<F˜
[Я не кажу, що ви помиляєтесь, думаючи, що частка випадкових пар МФ, де чоловік був швидшим за жінку, перевищує 1/2, - ви майже напевно правильні. Я просто кажу, що ви не можете цього сказати, порівнюючи медіанів. Ви також не можете цього сказати, дивлячись на частку в кожному зразку вище або нижче медіани іншого зразка. Вам доведеться зробити інше порівняння.]
Тобто, хоча середній чоловік може бути швидшим за медіанну жінку, можливо, мати вибірку разів (або безперервний розподіл разів, в цьому питанні), де шанс, що випадковий чоловік швидший, ніж випадкова жінка, є менше , ніж . У великих пробах два протилежних показання можуть бути вагомими.12
Приклад:
Набір даних A:
1.58 2.10 16.64 17.34 18.74 19.90 1.53 2.78 16.48 17.53 18.57 19.05
1.64 2.01 16.79 17.10 18.14 19.70 1.25 2.73 16.19 17.76 18.82 19.08
1.42 2.56 16.73 17.01 18.86 19.98
Набір даних B:
3.35 4.62 5.03 20.97 21.25 22.92 3.12 4.83 5.29 20.82 21.64 22.06
3.39 4.67 5.34 20.52 21.10 22.29 3.38 4.96 5.70 20.45 21.67 22.89
3.44 4.13 6.00 20.85 21.82 22.05
Набір даних C:
6.63 7.92 8.15 9.97 23.34 24.70 6.40 7.54 8.24 9.37 23.33 24.26
6.18 7.74 8.63 9.62 23.07 24.80 6.54 7.37 8.37 9.09 23.22 24.16
6.57 7.58 8.81 9.08 23.43 24.45
(Дані є тут , але вони використовуються для іншої мети там - на мій спогад, я створив цей сам)
Зауважимо, що частка A <<B становить 2/3, частка A <C - 5/9, а частка B <C - 2/3. І А, і В, і В проти С є значущими на рівні 5%, але ми можемо досягти будь-якого рівня значущості, просто додавши достатню кількість копій зразків. Ми навіть можемо уникнути зв’язків, дублюючи зразки, але додаючи досить крихітний тремтіння (достатньо менший за найменший проміжок між точками)
Медіани вибірки йдуть в іншому напрямку: медіана (A)> медіана (B)> медіана (C)
Знову ми могли досягти значущості для порівняння медіанів - до будь-якого рівня значущості - шляхом повторення зразків.
Щоб пов’язати це з цією проблемою, уявіть, що А - це "часи жінки", а В - "часи чоловіків". Тоді середній час чоловіків проходить швидше, але випадково вибраний чоловік буде на 2/3 часу повільніше, ніж випадково обрана жінка.
Беручи набір сигналів із зразків A і C, ми можемо генерувати більший набір даних (в R) наступним чином:
n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))
Медіана F становитиме близько 16,25, тоді як медіана M буде приблизно 11,25, але частка випадків, коли F <M, буде 5/9.
[Якщо ми замінили n / 3 біноміальною змінною з параметрами та
ми б вибірку з популяції, де медіана розподілу F становить 16,25, а медіана розподілу M - 11,25. Тим часом у цій популяції ймовірність того, що F <M знову буде 5/9.]n13
Зауважимо також, що і а (на значну відстань).P(F<med(M))=23P(M>med(F))=23med(M)<med(F)