Якщо так, то що? Якщо ні, то чому б і ні?
Для вибірки на лінії медіана мінімізує повне абсолютне відхилення. Здавалося б, природно розширити визначення на R2 тощо, але я його ніколи не бачив. Але потім я давно був у лівому полі.
Якщо так, то що? Якщо ні, то чому б і ні?
Для вибірки на лінії медіана мінімізує повне абсолютне відхилення. Здавалося б, природно розширити визначення на R2 тощо, але я його ніколи не бачив. Але потім я давно був у лівому полі.
Відповіді:
Я не впевнений, що існує одне прийняте визначення для багатоваріантної медіани. Мене знайоме - серединна точка Ожі , яка мінімізує суму обсягів симплетів, утворених над підмножинами точок. (Технічне визначення див. За посиланням.)
Оновлення: на веб-сайті, на яке посилається визначення Оя вище, також є приємний документ, що охоплює ряд визначень багатоваріантної медіани:
Як заявив @Ars , немає прийнятого визначення (і це хороший момент). Є загальні сімейства альтернативних способів узагальнення квантових елементів на , я вважаю, що найбільш значущими є:
Узагальнити квантильний процес Нехай- емпірична міра (= частка спостережень в). Тоді, за допомогоюдобре вибраного підмножини наборів Бореля втареальна цінна міра, ви можете визначити емпіричну квантильну функцію:A A R d λ
Припустимо, ви можете знайти один який дає мінімум. Тоді множина (або елемент множини) дає вам медіану, коли зроблений досить малим. Визначення медіани відновлюється при використанні та . Відповідь Ars потрапляє в цю рамку, я думаю ... місце розташування половинного простору Тукі може бути отримане за допомогою та (з , ).1 / 2 - & epsi ; ∩ 1 / 2 + & epsi ; & epsi ; = ( ] - ∞ , х ] х ∈ R ) λ ( ] - ∞ , х( ) = ( Н х = ( t ∈ R d :λх ∈ R ∈ R d
варіаційне визначення та M-оцінка . Ідея тут полягає в тому, що кількіснийвипадкової змінноївможе бути визначений через варіаційну рівність.Q α Y R
Найпоширенішим визначенням є використання функції квантової регресії (також відома як втрата пінболу, здогадуйтесь чому?) . Випадок даєі ви можете узагальнити цей вищий розмір, використовуючи відстані як це зроблено в @Srikant Answer . Це теоретична медіана, але дає емпіричну медіану, якщо ви заміните очікування емпіричним очікуванням (середнім). ; Q & alpha ; = г г інф х ∈ R Е [ р & alpha ; ( У - х ) ] & alpha ; = 1 / 2l 1
Але Колшинський пропонує використовувати перетворення Легенда-Фенхеля: оскільки де для . Він наводить багато глибоких причин для цього (див. Статтю;)). Узагальнення цього на більш високі розміри вимагає роботи з векторіальною та заміною на але ви можете взяти .f ( s ) = 1s∈R& alphas& alpha⟨s,& alpha⟩& alpha=(1/2,...,1/2)
Очевидно, є мости між різними складами. Вони не всі очевидні ...
Існують чіткі способи узагальнення поняття медіани до вищих вимірів. Ще не згаданий, але запропонований давно, - це сконструювати опуклий корпус, відшаровувати його та повторювати на довгий час: те, що залишилося в останньому корпусі, - це набір точок, які всі кандидати мають бути " медіани ».
"Удар головою" - ще одна нещодавня спроба (близько 1980 р.) Побудувати надійний центр до хмари 2D точок. (Посилання - на документацію та програмне забезпечення, доступні в Національному інституті раку США.)
Основна причина, чому існує багато різних узагальнень, і немає жодного очевидного рішення, полягає в тому, що R1 можна замовити, але R2, R3, ... не може бути.
Геометрична медіана - точка з найменшою середньою евклідовою відстані від зразків
Медіану напівпростору Тукі можна розширити на> 2 виміри, використовуючи DEEPLOC, алгоритм, зумовлений Струйфом та Руссеу; дивіться тут деталі.
Алгоритм використовується для ефективного наближення точки найбільшої глибини; наївні методи, які намагаються точно визначити це, зазвичай стикаються з (обчислювальною версією) "прокляття розмірності", де час виконання, необхідний для обчислення статистики, зростає в експоненціальному вимірі з кількістю вимірів простору.
Визначення, яке наближається до нього, для одномодальних розподілів, є медіаною напівпростору тукі
Я не знаю, чи існує таке визначення, але я спробую розширити стандартне визначення медіани до . Я буду використовувати наступні позначення:
, Y : випадкові величини, пов'язані з двома вимірами.
, m y : відповідні медіани.
: спільний pdf для наших випадкових змінних
Щоб розширити визначення медіани до , виберемо m x і m y, щоб мінімізувати наступне:
Зараз проблема полягає в тому, що нам потрібно визначення того, що ми маємо на увазі під:
Вищезазначене в певному сенсі є метрикою відстані і можливі декілька можливих визначень кандидата.