Знизу вгорі пояснення відстані махаланобіса?


127

Я вивчаю розпізнавання образів і статистику, і майже кожна книга, яку я відкриваю на тему, натрапляю на концепцію відстані махаланобіса . Книги дають свого роду інтуїтивні пояснення, але все ще недостатньо хороші для мене, щоб насправді зрозуміти, що відбувається. Якби хтось запитав мене: "Яка відстань махаланобіса?" Я могла відповісти лише: "Це гарна річ, яка вимірює відстань якоїсь" :)

Визначення зазвичай також містять власні вектори та власні значення, які у мене є невеликі труднощі при підключенні до відстані Махаланобіс. Я розумію визначення власних векторів та власних значень, але як вони пов'язані з відстані махаланобіса? Чи має щось спільне зі зміною основи в лінійній алгебрі тощо?

Я також прочитав ці попередні запитання на цю тему:

Я також прочитав це пояснення .

Відповіді хороші, а малюнки приємні, але все-таки я не дуже розумію ... Я маю ідею, але все ще в темряві. Чи може хтось дати пояснення "Як би ви пояснили це своїй бабусі", щоб я, нарешті, міг обернути це питання і більше ніколи не замислюватися, яка біса - відстань махаланобіса? :) Звідки воно береться, що, чому?

ОНОВЛЕННЯ:

Ось щось, що допомагає зрозуміти формулу Mahalanobis:

https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-ellipsoid

Відповіді:


188

Ось розкид декількох багатоваріантних даних (у двох вимірах):

введіть тут опис зображення

Що ми можемо зробити з цього, коли осі залишаються опущеними?

введіть тут опис зображення

Введіть координати, запропоновані самими даними.

Походження буде центроїда точок (точки) їх середніх значень . Перший координатна вісь (синя на наступному малюнку) буде проходити уздовж «хребта» точок, які (за визначенням) є будь-яким напрямком , в якому дисперсія є найбільшою. Друга вісь координат (червоний на малюнку) буде поширюватися перпендикулярно по відношенню до першої. (У більш ніж двох вимірах він буде обраний у тому перпендикулярному напрямку, в якому дисперсія є якомога більшою тощо).

введіть тут опис зображення

Нам потрібна шкала . Стандартне відхилення вздовж кожної осі буде чудово встановити одиниці вздовж осей. Пам'ятайте правило 68-95-99.7: приблизно дві третини (68%) точок повинні знаходитися в межах однієї одиниці початку (уздовж осі); близько 95% повинні бути в межах двох одиниць. Це полегшує очне яблуко правильних одиниць. Для довідки, ця цифра включає одиничне коло в цих одиницях:

введіть тут опис зображення

Це насправді не схоже на коло, чи не так? Це тому, що ця картина спотворена (про що свідчать різні відстані між числами на двох осях). Давайте перемальовуємо її за допомогою осей у власних орієнтаціях - зліва направо і знизу вгору - і з одиничним співвідношенням сторін, щоб одна одиниця по горизонталі дійсно дорівнювала одній одиниці вертикально:

введіть тут опис зображення

Ви вимірюєте відстань махаланобіса на цій фотографії, а не в оригіналі.

Що тут сталося? Нехай дані розповідають нам, як побудувати систему координат для вимірювання в розсіювачі. Ось і все. Хоча у нас було кілька варіантів зробити на цьому шляху (ми завжди могли перевернути одну або обидві осі; і в рідкісних ситуаціях напрямки вздовж «колючок» - основні напрямки - не є унікальними), вони не змінюють відстаней у заключному сюжеті.


Технічні коментарі

(Не для бабусі, яка, ймовірно, почала втрачати інтерес, як тільки на сюжетах з'явилися номери, а для вирішення інших питань, які були поставлені.)

  • Одиничні вектори вздовж нових осей є власними векторами (або матриці коваріації, або її зворотної).

  • Ми зазначили, що спотворення еліпса для створення кола ділить відстань уздовж кожного власного вектора на стандартне відхилення: квадратний корінь коваріації. Якщо поступає на функцію коваріації, нове (махаланобіс) відстань між двома точками х і у - це відстань від х до у, поділене на квадратний корінь С ( х - у , х - у ) . Відповідні алгебраїчні операції, думаючи тепер про C з точки зору його представлення як матриці і x і yCxухyC(x-у,х-у)Схуз точки зору їх уявлення як векторів, записані . Це працюєнезалежно від того, яка основа використовується для представлення векторів та матриць. Зокрема, це правильна формула відстані махаланобісау вихідних координатах.(х-у)'С-1(х-у)

  • Суми, за допомогою яких осі розширюються на останньому кроці, - це (квадратні корені) власних значень матриці зворотної коваріації. Рівно, осі стискаються (коренями) власних значень матриці коваріації. Таким чином, чим більше розкид, тим більше скорочення потрібно для перетворення цього еліпса в коло.

  • Хоча ця процедура завжди працює з будь-яким набором даних, вона виглядає дуже приємно (класична хмара у формі футболу) для даних, які є приблизно багатоваріантними нормальними. В інших випадках точка середніх можливостей не є гарним поданням центру даних або "шипи" (загальні тенденції в даних) не будуть точно визначені, використовуючи дисперсію як міру поширення.

  • Зсув координатного початку, обертання та розширення осей у сукупності утворюють афінну трансформацію. Крім початкового зсуву, це зміна базису від початкового (за допомогою одиничних векторів, що вказують на позитивні координатні напрямки), до нового (з використанням вибору одиничних власних векторів).

  • Існує міцний зв’язок з аналізом основних компонентів (PCA) . Це одне проходить довгий шлях до пояснення питань "звідки воно походить" і "чому" - якщо ви вже не переконалися в елегантності та корисності дозволу даних визначати координати, які ви використовуєте для їх опису та вимірювання їх відмінності.

  • Для багатоваріантних нормальних розподілів (де ми можемо здійснити ту саму побудову, використовуючи властивості щільності ймовірності замість аналогічних властивостей точкової хмари), відстань махаланобіса (до нового початку) з'являється замість виразу " " exp ( - 1хщо характеризує щільність ймовірності стандартного нормального розподілу. Таким чином, у нових координатах багатоваріантний нормальний розподіл виглядаєстандартним нормальним,коли проектується на будь-яку лінію через початок. Зокрема, це стандартна нормальна для кожної з нових координат. З цієї точки зору, єдиний істотний сенс, в якому багатоваріантні нормальні розподіли відрізняються один від одного, з точки зору того, скільки розмірів вони використовують. (Зверніть увагу, що ця кількість розмірів може бути, а іноді і менше, ніж номінальна кількість розмірів.)досвід(-12х2)


3
Якщо комусь цікаво, афінне перетворення - це "перетворення, яке зберігає прямі лінії ... і співвідношення відстаней між точками, що лежать на прямій". (@whuber, я не знаю, чи ви можете додати щось подібне до пункту відмітки.)
gung

@gung Моя згадка про афінних перетворень негайно супроводжується їх характеристикою: переклад з подальшим зміною основи. Я вибрав цю мову, оскільки вона однаково використовується в питанні. (Ми повинні прийняти «зміну основи» дещо ліберально, щоб охопити незворотні лінійні перетворення: це важливе питання для PCA, яке ефективно скидає деякі базові елементи.)
whuber

13
@whuber, твоє пояснення, мабуть, найкраще, що я коли-небудь бачив. Як правило, коли це пояснюється, це висвітлюється дуже абстрактно, коли вони згадують про еліпсоїди та сфери, і вони не показують, що вони означають. Кудо вам для демонстрації того, як перетворення осі перетворює розподіл даних у "сферу", щоб відстань можна було "розглядати" як кратні sd даних від середніх даних, як це легко стосується одного розмірного дані. Ця візуалізація, на мою думку, є ключовою, і, на жаль, не залишається в більшості дискусій з цієї теми. Хороша робота --- ваші пояснення

Чи є надійний PCA? Варіація, яка дозволяє нам викинути зовнішні точки даних, дивлячись на розмір матриці коваріації?
EngrStudent

@Engr Впевнений: будь-яка надійна оцінка коваріаційної матриці призведе до надійної PCA. Існують інші прямі методи, на що вказують посилання на них у відповідях на запитання про надійну PCA .
whuber

37

Моя бабуся готує. Можливо, і ваші. Кулінарія - дуже смачний спосіб викладання статистики.

Гарбузове печиво Habanero приголомшливо! Подумайте, якими чудовими можуть бути кориця та імбир у різдвяних частуваннях, а потім зрозумійте, наскільки вони гарячі самі по собі.

Інгредієнти:

  • перець хабанеро (10, насіння і дрібно нарізаний фарш)
  • цукор (1,5 склянки)
  • вершкове масло (1 склянка)
  • екстракт ванілі (1 ч.л.)
  • яйця (2 середніх)
  • борошно (2,75 склянки)
  • харчова сода (1 ч.л.)
  • сіль (1 ч.л.)

Уявіть, що ваші координатні осі для вашого домену є об'ємами інгредієнтів. Цукор. Борошно. Сіль. Харчова сода. Різноманітність за цими напрямками, при рівності інших, майже не впливає на якість смаку, як зміна кількості перців хабанеро. 10% -на зміна борошна або масла зробить його менш великим, але не вбивчим. Додавання лише невеликої кількості більше хабанеро переможе вас за смаковим обривом - від звикання-десерту до болю на основі тестостерону.

Махаланобіс - це не стільки відстань в "обсягах інгредієнтів", скільки відстань від "найкращого смаку". Справді "сильнодіючі" інгредієнти, дуже чутливі до змін, - це ті, які ви повинні ретельно контролювати.

Якщо ви думаєте про будь-який розподіл Гаусса порівняно зі стандартним нормальним розподілом, у чому різниця? Центр і шкала на основі центральної тенденції (середня величина) та тенденції до зміни (стандартне відхилення). Одне - перетворення координат другого. Махаланобіс - це та трансформація. Він показує, як виглядає світ, якби ваш розподіл інтересів був переведений як звичайний звичайний замість гаусса.


4
Гауссові розподіли - це звичайні розподіли, тож яку відмінність ви намагаєтеся зробити в своєму останньому абзаці?
whuber

1
@Whuber - стандартний. Я мав на увазі стандарт. Думав, що я це сказав. Слід перевірити історію редагування. Наступні речення повторюють основну думку.
EngrStudent

2
Що ж ви маєте в виду під « в гауссовский розподілі»?
whuber

1
Краще? Це може бути розподіл Гаусса з будь-яким середнім і відхиленням, але перетворення відображається до стандартного нормального шляхом віднімання середнього та масштабування за стандартним відхиленням.
EngrStudent

4
Так, тепер зрозуміліше. Мені спантеличено, чому ви використовуєте два терміни (гауссовий і нормальний), щоб посилатися на одне й те саме, але це нормально зараз, коли ви це пояснили. Я також трохи розгублений з приводу вашої останньої претензії, яка, схоже, говорить про те, що кожен багатоваріантний розподіл може бути перетворений на стандартний нормальний (який, згідно з визначенням, на яке ви посилаєтесь, є універсальним ): я думаю, ви маєте на увазі, що це може бути зроблено так, щоб виглядати стандартно Нормальний для кожного компонента. Незалежно, аналогія, з якої ви починаєте, приємна.
whuber

10

d(x,y)=x,yxyRnxyX

xy

xC

Збираючи вищезгадані ідеї, ми доходимо цілком природно

D(x,y)=(xy)C1(xy)

XiX=(X1,,Xn)Cij=δijXiVar(Xi)=1D(x,y) xyC(x,y)


9

Розглянемо випадок двох змінних. Бачачи цю картину двовимірного нормального (спасибі @whuber), ви не можете просто стверджувати, що AB більший від змінного. Відзначається позитивна коваріація; дві змінні пов'язані між собою.

Ви можете застосовувати прості евклідові вимірювання (прямі, такі як AB та AC), лише якщо є змінні

  1. незалежний
  2. мають відхилення, рівні 1.

По суті, махаланобіська міра відстані виконує наступне: вона перетворює змінні в некорельовані змінні з відхиленнями, рівними 1, а потім обчислює просту евклідову відстань.


1
Ви припускаєте, що кожного разу, коли я бачу співвідношення у графі, як показано у вашій відповіді тут, я повинен думати лише про обчислення махаланобіса, а не про евклідову відстань? Що б сказати мені, коли користуватися яким?
Сандіп

7

Я спробую пояснити вам якомога простіше:

Відстань махаланобіса вимірює відстань точки x від розподілу даних. Розподіл даних характеризується середньою та коваріаційною матрицею, тому гіпотезується як багатоваріантний гаусс.

Він використовується в розпізнаванні шаблонів як міра подібності між шаблоном (розподіл даних навчального прикладу класу) та тестовим прикладом. Коваріаційна матриця надає форму розподілу даних у просторі функцій.

На рисунку позначено три різні класи, а червона лінія позначає однакову відстань махаланобіса для кожного класу.  Усі точки, що лежать на червоній лінії, мають однакову відстань від середнього класу, оскільки в ній використовується матриця коваріації.

На рисунку позначено три різні класи, а червона лінія позначає однакову відстань махаланобіса для кожного класу. Усі точки, що лежать на червоній лінії, мають однакову відстань від середнього класу, оскільки в ній використовується матриця коваріації.

Ключова особливість - використання коваріації як чинника нормалізації.


6

Я хотів би додати трохи технічної інформації до відмінної відповіді Вюбера. Ця інформація може не зацікавити бабусю, але, можливо, її онук знайде її корисною. Далі йде пояснення від нижньої до верхньої відповідної лінійної алгебри.

d(x,y)=(xy)TΣ1(xy)ΣΣΣΣ=QTDQΣ1=QD12D12QTd(x,y)=[(xy)TQ]D12D12[QT(xy)]=zTzQ(xy)D12D12D1zTz


5

Я можу трохи запізнитися на відповідь на це питання. Цей документ тут є гарним початком для розуміння відстані махаланобіса. Вони надають повний приклад з числовими значеннями. Що мені подобається в цьому, це геометричне зображення проблеми.


4

Тільки для додання відмінних пояснень, наведених вище, відстань махаланобіса виникає природним шляхом у (багатоваріантній) лінійній регресії. Це простий наслідок деяких зв’язків між відстані Махаланобіс та розподілом Гаусса, про які йдеться в інших відповідях, але я вважаю, що це все одно варто проаналізувати.

(x1,y1),,(xN,yN)xiRnyiRmβ0Rmβ1Rm×nyi=β0+β1xi+ϵiϵ1,,ϵNm0Cxiyixiβ0+β1xiC

yixiβ=(β0,β1)

logp(yixi;β)=m2log(2πdetC)+12(yi(β0+β1xi))C1(yi(β0+βxi)).
С
аргмінβ[-журналp(уiхi;β)]=аргмінβDС(β0+β1хi,уi),
DС(у^,у)=(у-у^)С-1(у-у^)
у^,уRм

журналp(ух;β)у=(у1,,уN)х=(х1,,хN)

журналp(ух;β)=i=1Nжурналp(уiхi;β)
аргмінβ[-журналp(ух;β)]=аргмінβ1Ni=1NDС(β0+β1хi,уi),
1/N

β0,β1


1
logdetCnxβxβ

(x,y)yϵlogdetCargminβ[logp(yx;β)]=argminβ(yβx)C1(yβx)

Важливо пояснити, на що посилаються ваші символи, а не вимагати від читачів відгадування. Цілком можливо, ваше пояснення є хорошим, але без цього пояснення (яке ви розпочали з цього останнього коментаря) я підозрюю, що у більшості читачів будуть проблеми з розумінням вашого значення.
whuber

2
Я бачу вашу думку. Я відредагував оригінальну відповідь, щоб включити деякі ідеї в ці коментарі.
Ben CW

2

Махаланобісова відстань - це евклідова відстань (природна відстань), яка враховує коваріантність даних. Це надає більшу вагу галасливим компонентам, тому дуже корисно перевірити подібність двох наборів даних.

Як ви можете бачити в вашому Exemple тут , коли змінні корельовані, то розподіл зміщується в одну сторону. Ви можете видалити ці ефекти. Якщо врахувати кореляцію на відстані, ви можете зняти ефект зсуву.


2
Я вважаю, що відстань махаланобіса ефективно зменшує зменшення напрямків великої коваріації, а не надає там "більших" ваг.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.