Середні та середні властивості


18

Чи може хтось пояснити мені, що я зрозумів математичну логіку, яка поєднала б два твердження (а) та (б) разом? Будемо мати набір значень (деякий розподіл). Тепер,

а) медіана не залежить від кожного значення [воно просто залежить від одного або двох середніх значень]; б) Медіана - це місце мінімальних відхилень суми абсолютних відхилень від неї.

І так само, і навпаки,

а) середнє арифметичне залежить від кожної величини; б) Середнє місце - місце мінімальних відхилень суми квадрата від нього.

На сьогоднішній день я розумію це.


1
Варто переглянути старішу версію того ж питання: stats.stackexchange.com/questions/2547/… І, опис
надійної

Тож те, що ви хочете отримати для першої пари, є доказом того, що медіана, як правило, визначається як середнє значення (для непарного числа значень у будь-якому випадку для початку з найпростішого випадку), також є значенням, яке мінімізує суму абсолютних відхилень? Переважно доказ, який також дає деяке інтуїтивне розуміння? Сам я не знаю жодного доказу, тому це здається гарним питанням, і я хотів би знати відповідь також.
onestop

Ви мене правильно відчуваєте. (а) та (б) на даний момент є окремими аспектами / властивостями для обох статистичних даних; але інтуїція пропонує два аспекти пов'язані. Хочу знати - як вони пов’язані, щоб все це глибоко зрозуміти.
ttnphns

Відповіді:


19

Це два питання: одне про те, як середня та медіанна мінімізують функції втрат, а інше - про чутливість цих оцінок до даних. Як бачимо, ці два питання пов'язані між собою.

Мінімізація втрат

Короткий підсумок (або оцінювач) центру партії чисел може бути створений, дозволяючи змінювати підсумкове значення і уявляючи, що кожне число в партії чинить відновлення на це значення. Коли сила ніколи не відштовхує значення від числа, то, мабуть, будь-яка точка, в якій баланс сил є "центром" партії.

Квадратична ( ) ВтратаL2

Наприклад, якби ми прив’язували класичну пружину ( за законом Гука ) між підсумком і кожним числом, сила була б пропорційна відстані до кожної пружини. Пружини витягували підсумок таким чином, і, врешті-решт, осідаючи до унікального стабільного місця з мінімальною енергією.

Мені хотілося б звернути увагу на невеликий хитромудрий рух, який щойно стався: енергія пропорційна сумі квадратних відстаней. Механіка Ньютона вчить нас, що сила - швидкість зміни енергії. Досягнення рівноваги - мінімізація енергії - призводить до врівноваження сил. Чиста швидкість зміни енергії дорівнює нулю.

Назвемо це " підсумком " або "підсумком збитків у квадраті".L2

Абсолютна ( ) ВтратаL1

Інший підсумок може бути створений, якщо припустити, що розміри відновлювальних сил є постійними , незалежно від відстані між величиною та даними. Однак самі сили не є постійними, оскільки вони повинні завжди тягнути значення до кожної точки даних. Таким чином, коли значення менше точки даних, сила спрямована позитивно, але коли значення більше, ніж точка даних, сила спрямована негативно. Тепер енергія пропорційна відстані між величиною та даними. Зазвичай буде ціла область, в якій енергія постійна, а сила нетто дорівнює нулю. Будь-яке значення в цьому регіоні ми можемо назвати " підсумком " або "абсолютним підсумком збитків".L1

Ці фізичні аналогії дають корисну інтуїцію щодо двох підсумків. Наприклад, що відбувається з підсумком, якщо ми перемістимо одну з точок даних? У корпусі із приєднаними пружинами переміщення однієї точки даних або розтягує, або розслабляє її пружину. Результатом є зміна, що діє в резюме, тому воно має змінюватися у відповідь. Але у випадку L 1 більшість випадків зміна точки даних не робить нічого підсумкового, оскільки сила локально постійна. Єдиний спосіб, коли сила може змінитись, - це точка даних переміщатися через зведення.L2L1

(Насправді, повинно бути очевидним, що чиста сила на значення задається кількістю очок, більших за неї - які тягнуть її вгору - за вирахуванням кількості очок, менших за неї, - які тягнуть її вниз. Таким чином, Резюме повинно відбуватися в будь-якому місці , де число значень даних , що перевищує його точно дорівнює числу значень даних менше , ніж це.)L1

Зображення втрат

Оскільки сили і енергії складаються, то в будь-якому випадку ми можемо розкласти чисту енергію на індивідуальні внески з точок даних. Графікуючи енергію чи силу як функцію підсумкового значення, це дає детальну картину того, що відбувається. Підсумок буде місцем, де енергія (або "втрата" в статистичному мовленні) є найменшою. Рівнозначно, це буде місце, в якому сили врівноважуються: центр даних виникає там, де чиста зміна втрат дорівнює нулю.

Цей малюнок показує енергію та сили для невеликого набору даних із шести значень (позначених слабкими вертикальними лініями на кожному графіку). Пунктивні чорні криві - це підсумки кольорових кривих, що показують внески від окремих значень. Вісь x вказує можливі значення резюме.

Фігура 1

Середнє арифметичне є точка , в якій квадрат втрати зведені до мінімуму: він буде розташований в вершині (внизу) чорного параболи в верхньому лівому ділянці. Це завжди унікально. Медіана є точкою , в якій зведена до мінімуму абсолютної втрата. Як зазначалося вище, це має відбуватися в середині даних. Це не обов'язково унікально. Він буде розташований у нижній частині зламаної чорної кривої в правому верхньому куті. (Дно насправді складається з короткого плоского перерізу між та - 0,17 ; будь-яке значення в цьому проміжку є середнім.)0.230.17

Аналіз чутливості

Раніше я описав, що може статися з підсумком, коли точка даних змінюється. Повчально побудувати, як зміна підсумків у відповідь на зміну будь-якої однієї точки даних. (Ці графіки по суті є емпіричними функціями впливу . Вони відрізняються від звичайного визначення тим, що вони показують фактичні значення оцінок, а не наскільки ці значення змінюються.) Значення підсумків позначається "Оцінка" на у -осі нагадує нам, що цей підсумок визначає, де лежить середина набору даних. Нові (змінені) значення кожної точки даних відображаються на їх осях x.

Малюнок 2

На цьому малюнку представлені результати зміни кожного зі значень даних у партії (те саме, що аналізувались на першому малюнку). Для кожного значення даних є один графік, який виділяється на його графіку довгим чорним галочкою уздовж нижньої осі. (Інші значення даних показані короткими сірими кліщами.) Синя крива простежуєпідсумок L 2 - середнє арифметичне - а червона крива простежує L 11.02,0.82,0.23,0.17,0.08,0.77L2L1резюме - медіана. (Оскільки часто медіана є діапазоном значень, тут дотримується конвенція про побудову середини цього діапазону.)

Зверніть увагу:

  1. Чутливість середнього не обмежена: ці сині лінії простягаються нескінченно далеко вгору і вниз. Чутливість медіани обмежена: до червоних кривих є верхня та нижня межі.

  2. Там, де медіана дійсно змінюється, вона змінюється набагато швидше, ніж середня. Нахил кожної синьої лінії дорівнює (правилоце 1 / п для набору даних з п значень),той час як схили похилих частин червоних ліній все 1 / 2 .1/61/nn1/2

  3. Середнє значення чутливе до кожної точки даних, і ця чутливість не має меж (як вказують ненульові нахили всіх кольорових ліній у нижній лівій графіці першої фігури). Хоча медіана чутлива до кожної точки даних, чутливість обмежена (саме тому кольорові криві в нижньому правому графіку першої фігури розташовані у вузькому вертикальному діапазоні навколо нуля). Це, звичайно, лише візуальні повторення закону основної сили (втрати): квадратичного для середнього, лінійного для медіани.

  4. Інтервал, протягом якого медіану можна змінити, може змінюватись між точками даних. Він завжди обмежений двома значеннями близько-середнього серед даних, які не змінюються . (Ці межі позначені слабкими вертикальними пунктирними лініями.)

  5. 1/2

Хоча зазвичай відзначається лише перший пункт, усі чотири пункти є важливими. Зокрема,

  • Однозначно помилково, що "медіана не залежить від кожної величини". Цей показник дає контрприклад.

  • Тим не менш, медіана не залежить "суттєво" від кожного значення в тому сенсі, що хоча зміна окремих значень може змінити медіану, кількість змін обмежена прогалинами серед значення середнього значення в наборі даних. Зокрема, кількість змін обмежена . Ми кажемо, що медіана - це "стійке" резюме.

  • Незважаючи на те, що середнє значення не є стійким і змінюватиметься кожного разу, коли будь-яке значення даних буде змінено, швидкість зміни порівняно мала. Чим більший набір даних, тим менша швидкість змін. Еквівалентно, щоб здійснити істотну зміну середнього великого набору даних, принаймні одне значення повинно зазнавати порівняно великі зміни. Це дозволяє припустити, що середня стійкість до опору викликає занепокоєння лише для (a) малих наборів даних або (b) наборів даних, де один або більше даних можуть мати значення, надзвичайно далекі від середини партії.

Ці зауваження - на які я сподіваюся, що цифри очевидні - виявляють глибокий зв’язок між функцією втрати та чутливістю (або стійкістю) оцінювача. Щоб дізнатися більше про це, почніть з однієї зі статей Вікіпедії про М-оцінювачі, а потім виконайте ці ідеї, наскільки вам заманеться.


Код

Цей Rкод давав фігури і може бути легко модифікований для вивчення будь-якого іншого набору даних таким же чином: просто замініть випадковим чином створений вектор yбудь-яким вектором чисел.

#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
  sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
  apply(col2rgb(c)/255 * x, 2, function(s)  rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics, 
                         function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
  #
  # Create a standard, consistent plot region.
  #
  plot(x.limits, y.limits, type="n", 
       xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
       main=paste("Sensitivity to y[", i, "]", sep=""))
  #legend("topleft", legend=names(statistics), col=colors, lwd=1)
  #
  # Mark the limits of the possible medians.
  #
  n <- length(y)/2
  bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
  abline(v=range(bars), lty=2, col="Gray")
  rug(y, col="Gray", ticksize=0.05);
  #
  # Show which value is being varied.
  #
  rug(y[1], col="Black", ticksize=0.075, lwd=2)
  #
  # Plot the statistics as the value is varied between x.limits.
  #
  invisible(mapply(function(f,c) 
    curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
    statistics, colors))
  y <- c(y[-1], y[1])    # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
                   "Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
  f <- losses[[j]]
  y.range <- range(c(0, 1.1*loss(y, y, f)))
  #
  # Plot the loss (or its rate of change).
  #
  curve(loss(x, y, f), from=min(x.limits), to=max(x.limits), 
        n=1001, lty=3,
        ylim=y.range, xlab="Value", ylab=loss.types[j],
        main=names(losses)[j])
  #
  # Draw the x-axis if needed.
  #
  if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
  #
  # Faintly mark the data values.
  #
  abline(v=y, col="#00000010")
  #
  # Plot contributions to the loss (or its rate of change).
  #
  for (i in 1:length(y)) {
    curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
  }
  rug(y, side=3)
}

3
Я пропоную виграшну суму, завдяки кропітливому, неквапливому стилю відповіді, окрім якості.
ttnphns

Дякую! Ваша вдячність за цю посаду є найбільш вдячною.
whuber

11

x1,x2,,xnnyf(y)yxif(y)=|x1y|+|x2y|++|xny|yf(y)lxiyr=nlyyyf(y)

Δyyxiy|xiy|Δyy|xiy|ΔyΔyyf(y)lΔyrΔy=(lr)Δyf(y)xiyyf(y)lr=0xiyyxi

f(y)f(y)=(x1y)2++(xny)2f(y)yxiy

f(y)


1
xi

дякую за вишукане пояснення. Однак мені це звучить так: "Це число y, яке невелика зміна не змінює функцію Sum | x_i-y | не залежить від кожного x_i і називається медіаною". Це цікава примітка про медіану рівних n даних. Але я просив довести це: "Це число y, яке мінімізує функцію Sum | x_i-y | , не залежить від кожного x_i і називається медіаною". І так само: "Це число y, яке мінімізує функцію Sum (x_i-y) ^ 2, однаково залежить від кожного x_i і називається середнім".
ttnphns

1
як я повинен довести частину "називається серединною"? Це божевільно.
shabbychef

Це тропа справи. Ця частина не є доказом, я сподівався, що ви зрозумієте.
ttnphns

1
Чи є подібний результат для медіани абсолютних відхилень замість суми абсолютних відхилень? Оскільки середнє абсолютне відхилення від медіани також є досить цікавою мірою розсіювання.
samthebest

3
  • x(n)2x(n) , скажіть, воно не змінює медіану. Але це змінює середнє арифметичне. Це, простіше кажучи, показує, що медіана не залежить від кожного значення, а середня. Власне, медіана залежить лише від рангів. Математична логіка, що стоїть за цим, просто виникає з математичних визначень медіани та середнього.
  • aR

i=1n|ximedian|i=1н|хi-а|

і

i=1н(хi-меан)2i=1н(хi-а)2


Ну, як досвідчений статистик, якому не вистачає фундаментальної освіти з математики, я все ще багато знаю про середні та середні відмінності та програми. Що мені тут потрібно - це хтось, щоб малювати - логічно чи математично - або (а) від (b), або (b) від (a), для мене. Я відчуваю, що не можу раціонально гармонізувати (а) з (б). Марко, мені важко зрозуміти вашу нотацію. Якщо ваші формули - це відрахування, яке мені потрібно, будь ласка, чи не могли б ви "пережовувати" ідею менш технічно для мене?
ttnphns

PS Поки ваші дві нерівності остаточно відобразилися правильно на моєму екрані, я бачу, що це лише мої (б) твердження. Ви пишете, "може бути показано, що ...". Тож покажіть мені це. Мені потрібен певний математичний доказ, який можна зрозуміти аналітикам даних, який не є професійним математиком.
ttnphns

2
@ttnphns: ваш запит на математичний, а не інтуїтивний відповідь здається несумісним із вашим запитом на щось менш технічне, ніж те, що пропонували люди.
rolando2

Чи можемо ми спростити ситуацію до 2 чи трьох балів і запитати, чи має медіана в подвійному підсумовуванні суворої нерівності вище, має унікальне значення? З двома пунктами, здавалося б, задоволений будь-який момент між двома.
DWin

2

Гей, ось внесок, після того як я трохи прочитав про це. Напевно, трохи запізнюється на людину, яка запитала, але, можливо, варто для когось іншого.

Для середнього випадку:

Розглянемо проблему аrгмiнхi=1н(уi-х)

Представляємо f(х)=i=1н(уi-х)2

f'(х)=02i=1н(уi-х)=0

f'(х)=0i=1нуi=i=1нх

f'(х)=0х=i=1нн

Оскільки функція опукла, це мінімум

Для медіанного випадку

Розглянемо проблему аrгмiнхi=1н|уi-х|

Представляємо f(х)=i=1н|уi-х|

f'(х)=0i=1нсгн(уi-х)=0

(де сгн(х) є знаком x: сгн(х)=1 якщо х>0 і сгн(х)=-1 якщо х<0)

f'(х)=0#{уi/уi>х}-#{уi/уi<х}=0

(де # є кардиналом простору, тому в цьому дискретному випадку кількість елементів у ньому)

f'(х)=0х є медіаною, якщо n непарне (ви повинні трохи уточнити, якщо це парне, але принцип той же).

Оскільки функція теж опукла, це знову мінімум.


Спасибі. Це може бути корисним для мене та інших. Чи можете ви додати кілька коментарів до слів для основних своїх виразів - для того, хто не дуже добре розуміє формули. Зокрема, ваш останній по одному рядку - що це означає і що таке #?
ttnphns

Чи зрозуміло це зараз? Я визначив дві менш звичні функції
Ентоні Мартін,
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.