Максимальна середня розбіжність (розподіл відстані)


15

У мене є два набори даних (вихідні та цільові дані), які слідують за різним розподілом. Я використовую MMD - це непараметричний розподіл відстані - для обчислення граничного розподілу між вихідними та цільовими даними.

вихідні дані, Xs

цільові дані, Xt

адаптаційна матриця A

* Прогнозовані дані, Zs = A '* Xs і Zt = A' Xt

* MMD => Відстань (P (Xs), P (Xt)) = | mean (A'Xs) - означає (A ' Xt) |

Це означає: відстань розподілу між вихідними та цільовими даними у вихідному просторі еквівалентна відстані між засобами проектованого джерела та цільовими даними у вбудованому просторі.

У мене питання про концепцію MMD.

У формулі MMD: Чому за допомогою обчислювальної відстані в латентному просторі ми могли б виміряти відстань розподілу у вихідному просторі?

Дякую


Ви ще фактично не ставили запитання: ви лише сказали нам, що ви плутаєтесь!
whuber

Відповіді:


44

Це може допомогти дати трохи більше огляду MMD.

В цілому MMD визначається ідеєю представлення відстаней між розподілами як відстані між середніми вбудованими ознаками. Тобто, скажімо , у нас є розподіл P і Q над безліччю X . MMD визначається картою функцій φ:XH , де H називається відтворюючим простором Гільберта ядра. Загалом, MMD є

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

Як один із прикладів, ми можемо мати та . У цьому випадку: тому цей MMD - це просто відстань між засобами двох розподілів. Відповідні розподіли подібно до цих засобів відповідають їх можливостям, хоча вони можуть відрізнятися за своєю відмінністю чи іншими способами.X=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

Ваш випадок трохи інший: у нас є та , з , де - матриця . Так ми маємо X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
Цей MMD - це різниця між двома різними прогнозами середнього значення. Якщо або відображення іншому випадку не є зворотним,p<dA ніж попередній: він не розрізняє деякі розподіли, які робить попередній.

Ви також можете побудувати більш сильні відстані. Наприклад, якщоX=R і ви використовуєте , то MMD стає , і може розрізняти не тільки розподіли різними засобами, але й різними варіаціями.φ(x)=(x,x2)(EXEY)2+(EX2EY2)2

І ви можете отримати набагато сильніше, ніж це: якщо відображає загальний відтворюючий простір Гільберта ядра, то ви можете застосувати фокус ядра для обчислення MMD, і виявиться, що багато ядер, включаючи ядра Гаусса, ведуть до MMD дорівнює нулю, якщо і тільки розподіли однакові.φ

Зокрема, відпустивши , ви отримаєте яку можна прямо оцінити за допомогою зразків.k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y')Н-2ЕХПφ(Х),ЕYQφ(Y)Н=ЕХ,Х'Пк(Х,Х')+ЕY,Y'Qк(Y,Y')-2ЕХП,YQк(Х,Y)


Оновлення: ось звідки походить "максимум" у назві.

Карта особливостей відображає у відтвореному просторі Гільберта ядро. Це пробіли функцій і задовольняють ключову властивість (називається властивістю, що відтворює ):φ:ХНf,φ(х)Н=f(х)F H для будь-якого .fН

У найпростішому прикладі з , ми розглядаємо кожну як функцію, відповідну деякому , поХ=Н=Rгφ(х)=хfНшRгf(х)=ш'х . Тоді властивість відтворення має мати сенс.f,φ(х)Н=ш,хRг

У більш складних налаштуваннях, як-от ядро ​​Гаусса, f набагато складніша функція, але властивість відтворення все-таки виконується.

Тепер ми можемо дати альтернативну характеристику MMD:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
Другий рядок є загальним фактом щодо норм у просторах Гільберта:supf:f1f,gH=g досягається . Четверте залежить від технічного стану, відомого як інтеграція Бохнера, але справедливо, наприклад, для обмежених ядер або дистрибутивів з обмеженою підтримкою. Потім в кінці ми використовуємо властивість, що відтворює.f=g/g

Останній рядок, тому його називають "максимальною середньою невідповідністю" - це максимальна серед тестових функцій в одиничній кулі середня різниця між двома розподілами.fH


Дякую за ваше пояснення, для мене це стає більш зрозумілим; Все-таки я не зрозумів цю концепцію. На початку ви сказали: "MMD визначається ідеєю представлення відстаней між розподілами як відстані між середніми вбудованими ознаками". Чому ця ідея реалізується?
Махса

"MMD визначається ідеєю представлення відстаней між розподілами як відстані між середніми вбудованими ознаками." Чому ця ідея реалізується? Це пов'язано з простором RKHS?
Махса

1
Це лише визначення: ви можете порівняти розподіли, порівнюючи їх засоби. Або ви можете порівняти розподіли, порівнявши деяку трансформацію їх засобів; або порівнюючи їх засоби та відхилення; або шляхом порівняння середнього значення будь-якої іншої картки функцій, включаючи таку в RKHS.
Дугал

Дякую за Вашу відповідь; Я збираюся прочитати більше про карту функцій RKHS; Мені було цікаво, чому на карті функцій RKHS визначена відстань MMD? Я маю на увазі, яка користь від RKHS у визначенні відстані MMD?
Махса

Пояснення тут зосереджено на "середній розбіжності" на відміну від "максимальної середньої невідповідності". Чи може хтось детальніше зупинитися на частині "Максимізації"?
Цзян Сян

5

Ось як я інтерпретував MMD. Два розподіли схожі, якщо їх моменти схожі. Застосовуючи ядро, я можу перетворити змінну таким чином, що всі моменти (перший, другий, третій тощо) обчислюються. У латентному просторі я можу обчислити різницю між моментами та середньою величиною. Це дає міру схожості / несхожості між наборами даних.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.