Відповідей на це питання дуже багато. Ось такий, який ви, мабуть, не побачите в іншому місці, тому я включаю його сюди, тому що я вважаю, що це стосується цієї теми. Люди часто вірять, що оскільки медіана вважається надійною мірою стосовно людей, що не належать до людей, що вона також є надійною для більшості всього. Насправді це також вважається надійним упередженням у перекошених розподілах. Ці два стійкі властивості медіани часто навчаються разом. Можна відзначити, що основні перекошені дистрибуції також мають тенденцію до отримання невеликих зразків, схожих на те, що у них є вищі люди, а загальноприйнята мудрість полягає в тому, що в таких ситуаціях можна використовувати медіанів.
#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
}
(лише демонстрація того, що це перекос і основна форма)
hist(rexg(1e4, 0, 1, 1))
Тепер давайте подивимося, що станеться, якщо ми виберемо з цього розподілу різні розміри вибірки та обчислимо медіану та маємо на увазі, що таке різниці між ними.
#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red')
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)
Як видно з наведеного сюжету, медіана (червоним кольором) набагато більш чутлива до n, ніж середня. Це суперечить деякій загальноприйнятій мудрості щодо використання медіанів із низьким рівнем ns, особливо якщо розподіл може бути перекошеним. І це підкреслює те, що середнє значення є відомим значенням, а медіана чутлива до інших властивостей, одна з яких - n.
Цей аналіз схожий на Miller, J. (1988). Попередження про середній час реакції. Журнал експериментальної психології: сприйняття та ефективність людини , 14 (3): 539–543.
РЕВІЗІЯ
Розмірковуючи над проблемою перекосу, я вважав, що вплив на медіану може бути лише тому, що в невеликих вибірках більша ймовірність того, що медіана знаходиться в хвості розподілу, тоді як середнє значення майже завжди буде зважене на значення, ближчі до значення режим. Тому, можливо, якщо хтось просто брав вибірки з вірогідністю випускників, то, можливо, відбудуться ті самі результати.
Тож я подумав про ситуації, коли можуть виникнути люди, що переживають люди, і експериментатори можуть спробувати їх усунути.
Якщо випадкові випадки трапляються послідовно, наприклад, у кожному окремому відборі даних, то медіани стійкі до ефекту цієї чужої людини, і звичайна історія використання медіанів має місце.
Але зазвичай це не відбувається.
Можна виявити чужий в дуже мало клітинок експерименту і вирішити використовувати медіану замість середнього в цьому випадку. Знову ж таки, медіана є більш стійкою, але її фактичний вплив порівняно невеликий, оскільки людей, які переживають мало часу, дуже мало. Це, безумовно, був би більш поширений випадок, ніж той, що описаний вище, але ефект від використання медіани, ймовірно, буде настільки малим, що це мало би мало значення.
Можливо, більш часто люди, що випадають, можуть бути випадковим компонентом даних. Наприклад, справжнє середнє та стандартне відхилення сукупності може становити приблизно 0, але є відсоток часу, який ми відбираємо з популяції, що перебуває поза межами, де середнє значення 3. Розглянемо наступне моделювання, де саме така популяція відбирається, змінюючи вибірку розмір.
#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
numOutliers <- sum(outPos)
y <- matrix( rnorm(N*n), ncol = N )
y[which(outPos==1)] <- rnorm(numOutliers, 4)
return(y)
}
outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red')
lines(ns,yM)
Медіана - червона, середня - чорна. Це схожий висновок зі скасованим розподілом.
У відносно практичному прикладі використання медіанів для уникнення наслідків, що втратили люди, можна створити ситуації, коли на оцінку впливає n набагато більше, коли використовується медіана, ніж коли використовується середнє значення.