Це може допомогти дати трохи більше огляду MMD.
В цілому MMD визначається ідеєю представлення відстаней між розподілами як відстані між середніми вбудованими ознаками. Тобто, скажімо , у нас є розподіл P і Q над безліччю X . MMD визначається картою функцій φ:X→H , де H називається відтворюючим простором Гільберта ядра. Загалом, MMD є
MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
Як один із прикладів, ми можемо мати та . У цьому випадку:
тому цей MMD - це просто відстань між засобами двох розподілів. Відповідні розподіли подібно до цих засобів відповідають їх можливостям, хоча вони можуть відрізнятися за своєю відмінністю чи іншими способами.X=H=Rdφ(x)=xMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
Ваш випадок трохи інший: у нас є та , з , де - матриця . Так ми маємо
X=RdH=Rpφ(x)=A′xAd×pMMD( С, Q )= ∥ EХ∼ Р[ φ ( X) ] - ЕY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
Цей MMD - це різниця між двома різними прогнозами середнього значення. Якщо або відображення іншому випадку не є зворотним,p<dA′ ніж попередній: він не розрізняє деякі розподіли, які робить попередній.
Ви також можете побудувати більш сильні відстані. Наприклад, якщоX=R і ви використовуєте , то MMD стає , і може розрізняти не тільки розподіли різними засобами, але й різними варіаціями.φ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
І ви можете отримати набагато сильніше, ніж це: якщо відображає загальний відтворюючий простір Гільберта ядра, то ви можете застосувати фокус ядра для обчислення MMD, і виявиться, що багато ядер, включаючи ядра Гаусса, ведуть до MMD дорівнює нулю, якщо і тільки розподіли однакові.φ
Зокрема, відпустивши , ви отримаєте
яку можна прямо оцінити за допомогою зразків.k(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Оновлення: ось звідки походить "максимум" у назві.
Карта особливостей відображає у відтвореному просторі Гільберта ядро. Це пробіли функцій і задовольняють ключову властивість (називається властивістю, що відтворює ):φ : X→ Н ⟨⟨f, φ ( x ) ⟩Н= f( х )F ∈ H для будь-якого .f∈ H
У найпростішому прикладі з , ми розглядаємо кожну як функцію, відповідну деякому , поХ= H = Rгφ ( x ) = xf∈ Hw ∈ Rгf( x ) = w'х . Тоді властивість відтворення має мати сенс.⟨ е, φ ( x ) ⟩Н= ⟨ Ш , х ⟩Rг
У більш складних налаштуваннях, як-от ядро Гаусса, f набагато складніша функція, але властивість відтворення все-таки виконується.
Тепер ми можемо дати альтернативну характеристику MMD:
MMD(С, Q )= ∥ EХ∼ Р[ φ (X) ] - ЕY∼ Q[ φ ( Y) ] ∥Н= супf∈ H : ∥ f∥Н≤ 1⟨е, ЕХ∼ Р[ φ (X) ] - ЕY∼ Q[ φ ( Y) ] ⟩Н= супf∈ H : ∥ f∥Н≤ 1⟨е, ЕХ∼ Р[ φ (X) ] ⟩Н- ⟨ е, ЕY∼ Q[ φ ( Y) ] ⟩Н= супf∈ H : ∥ f∥Н≤ 1ЕХ∼ Р[ ⟨Е, φ ( X) ⟩Н] - ЕY∼ Q[ ⟨ Е,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
Другий рядок є загальним фактом щодо норм у просторах Гільберта:supf:∥f∥≤1⟨f,g⟩H=∥g∥ досягається . Четверте залежить від технічного стану, відомого як інтеграція Бохнера, але справедливо, наприклад, для обмежених ядер або дистрибутивів з обмеженою підтримкою. Потім в кінці ми використовуємо властивість, що відтворює.f=g/∥g∥
Останній рядок, тому його називають "максимальною середньою невідповідністю" - це максимальна серед тестових функцій в одиничній кулі середня різниця між двома розподілами.fH