Чи є прийняте визначення медіани вибірки на площині чи вищих упорядкованих пробілів?


33

Якщо так, то що? Якщо ні, то чому б і ні?

Для вибірки на лінії медіана мінімізує повне абсолютне відхилення. Здавалося б, природно розширити визначення на R2 тощо, але я його ніколи не бачив. Але потім я давно був у лівому полі.


Відповіді:


19

Я не впевнений, що існує одне прийняте визначення для багатоваріантної медіани. Мене знайоме - серединна точка Ожі , яка мінімізує суму обсягів симплетів, утворених над підмножинами точок. (Технічне визначення див. За посиланням.)

Оновлення: на веб-сайті, на яке посилається визначення Оя вище, також є приємний документ, що охоплює ряд визначень багатоваріантної медіани:


1
Приємна довідка: спасибі. Він всебічно охоплює все, що тут згадується.
whuber

Цей же веб-сайт також містить огляд nive
Aditya

15

Як заявив @Ars , немає прийнятого визначення (і це хороший момент). Є загальні сімейства альтернативних способів узагальнення квантових елементів на , я вважаю, що найбільш значущими є:Rг

  • Узагальнити квантильний процес Нехай- емпірична міра (= частка спостережень в). Тоді, за допомогоюдобре вибраного підмножини наборів Бореля втареальна цінна міра, ви можете визначити емпіричну квантильну функцію:A A R d λПн(А)ААRгλ

    Uн(т)=інф(λ(А):Пн(А)тАА)

    Припустимо, ви можете знайти один який дає мінімум. Тоді множина (або елемент множини) дає вам медіану, коли зроблений досить малим. Визначення медіани відновлюється при використанні та . Відповідь Ars потрапляє в цю рамку, я думаю ... місце розташування половинного простору Тукі може бути отримане за допомогою та (з , ).1 / 2 - & epsi ; ∩ 1 / 2 + & epsi ; & epsi ; = ( ] - , х ] х R ) λ ( ] - , хАтА1/2-ϵА1/2+ϵϵА=(]-,х]хR)( ) = ( Н х = ( t R d :λ(]-,х])=хλА(а)=(Нх=(тRг:а,тх)х RR dλ(Нх)=ххRаRг

  • варіаційне визначення та M-оцінка . Ідея тут полягає в тому, що кількіснийвипадкової змінноївможе бути визначений через варіаційну рівність.Q α Y RαQαYR

    • Найпоширенішим визначенням є використання функції квантової регресії (також відома як втрата пінболу, здогадуйтесь чому?) . Випадок даєі ви можете узагальнити цей вищий розмір, використовуючи відстані як це зроблено в @Srikant Answer . Це теоретична медіана, але дає емпіричну медіану, якщо ви заміните очікування емпіричним очікуванням (середнім). ; Q & alpha ; = г г інф х R Е [ р & alpha ; ( У - х ) ] & alpha ; = 1 / 2ραQα=аrгінфхRЕ[ρα(Y-х)]α=1/2l 1ρ1/2(у)=|у|л1

    • Але Колшинський пропонує використовувати перетворення Легенда-Фенхеля: оскільки де для . Він наводить багато глибоких причин для цього (див. Статтю;)). Узагальнення цього на більш високі розміри вимагає роботи з векторіальною та заміною на але ви можете взяти .f ( s ) = 1Qα=Аrгсупс(сα-f(с))sR& alphas& alphas,& alpha& alpha=(1/2,...,1/2)f(с)=12Е[|с-Y|-|Y|+с]сRαсαс,αα=(1/2,,1/2)

  • Часткове впорядкування Ви можете узагальнити визначення квантилів уяк тільки ви зможете створити частковий порядок (з класами еквівалентності).Rг

Очевидно, є мости між різними складами. Вони не всі очевидні ...


Гарна відповідь, Робіне!
АРС

12

Існують чіткі способи узагальнення поняття медіани до вищих вимірів. Ще не згаданий, але запропонований давно, - це сконструювати опуклий корпус, відшаровувати його та повторювати на довгий час: те, що залишилося в останньому корпусі, - це набір точок, які всі кандидати мають бути " медіани ».

"Удар головою" - ще одна нещодавня спроба (близько 1980 р.) Побудувати надійний центр до хмари 2D точок. (Посилання - на документацію та програмне забезпечення, доступні в Національному інституті раку США.)

Основна причина, чому існує багато різних узагальнень, і немає жодного очевидного рішення, полягає в тому, що R1 можна замовити, але R2, R3, ... не може бути.


Будь-яка міра, яка збігається зі звичайною медіаною при обмеженні R1, є узагальненням кандидата. Їх повинно бути багато.
phv3773

phv:> можна попросити узагальнення '', щоб зберегти (у вищих вимірах) деякі цікаві властивості медіани. Це суттєво обмежує кількість кандидатів (див. Коментар після відповіді Шріканта нижче)
user603

@Whuber:> тоді поняття впорядкування можна узагальнити до R ^ n для одномодальних розподілів (див. Мою відповідь нижче).
user603

@kwak: ви могли б трохи детальніше розібратися? Звичайне математичне визначення впорядкування простору не залежить від будь-якого типу розподілу ймовірностей, тому ви повинні неявно мати на увазі деякі додаткові припущення.
whuber

1
@Whuber:> Ви заявляєте: "R1 можна замовити, але R2, R3, ... не може бути". R2, .., R3 можна впорядкувати багатьма способами, зіставивши з Rn в R. Одним із таких способів є глибина туйки. Він має багато важливих властивостей (стійкість до деякого розширення, непараметричність, інваріантність, ...), але вони справедливі лише для унімодальних розподілів. Повідомте мене, якщо ви хочете отримати більше деталей.
user603


6

Медіану напівпростору Тукі можна розширити на> 2 виміри, використовуючи DEEPLOC, алгоритм, зумовлений Струйфом та Руссеу; дивіться тут деталі.

Алгоритм використовується для ефективного наближення точки найбільшої глибини; наївні методи, які намагаються точно визначити це, зазвичай стикаються з (обчислювальною версією) "прокляття розмірності", де час виконання, необхідний для обчислення статистики, зростає в експоненціальному вимірі з кількістю вимірів простору.



0

Я не знаю, чи існує таке визначення, але я спробую розширити стандартне визначення медіани до . Я буду використовувати наступні позначення:R2

, Y : випадкові величини, пов'язані з двома вимірами.XY

, m y : відповідні медіани.mxmy

: спільний pdf для наших випадкових зміннихf(x,y)

Щоб розширити визначення медіани до , виберемо m x і m y, щоб мінімізувати наступне:R2mхmу

E(|(x,y)(mx,my)|

Зараз проблема полягає в тому, що нам потрібно визначення того, що ми маємо на увазі під:

|(х,у)-(мх,му)|

Вищезазначене в певному сенсі є метрикою відстані і можливі декілька можливих визначень кандидата.

Евклідова метрика

|(х,у)-(мх,му)|=(х-мх)2+(у-му)2

f(х,у)

Метрика такси

|(х,у)-(мх,му)|=|х-мх|+|у-му|

ХYху


Срікант:> Ні. Визначення повинно мати дві важливі ознаки універсальної медіани. а) Інваріантне монотонному перетворенню даних, б) стійке до забруднення людей, що переживають інші люди. Жодне із запропонованих вами розширень не має. Глибина Тукі має ці якості.
user603

@kwak Те, що ви говорите, має сенс.

@Srikant:> Перевірте R&S-папір, про яку згадував Гері Кемпбелл вище;). Найкраще,
user603

@kwak Якщо подумати ще дещо, метрика таксикаби має ті згадані вами риси, оскільки вона в основному зводиться до однозначних медіан. ні?

2
@Srikant:> на запитання phv немає неправильної відповіді, оскільки немає і «хороших відповідей»; ця сфера досліджень ще знаходиться на стадії розробки. Я просто хотів зазначити, чому це все ще відкрита проблема.
user603
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.