L2 відстань, як це запропоновано у коментарі користувача39665. Це:
L2( С, Q )2= ∫( p ( x ) - q( х ) )2d x= ∫( ∑iαipi( x ) - ∑jβjqj( х ) )2d x= ∑i , i'αiαi'∫pi( х ) сторi'( x ) d x + ∑j , j'βjβj'∫qj( x ) qj'( x ) d x- 2 ∑i , jαiβj∫pi( x ) qj( x ) d x .
Зауважимо, що, як видно, наприклад, у розділі 8.1.8матричної кулінарної книги:
∫N(x;μ,Σ)N(x;μ′,Σ′)dx=N(μ;μ′,Σ+Σ′)
тому це можна легко оцінити за часO(mn).
Максимальна середня розбіжність (MMD) з ядром Gaussian RBF. Це крута відстань, ще не надто відома серед статистичної спільноти, яка потребує трохи математики для визначення.
Нехай k ( x , y) : = Досвід( - 12 σ2∥ x - y∥2) ,
визначимо гільбертовому просторіНяк відтворює ядром Гільберта просторувідповідногок:k ( x , y) = ⟨ Ф ( х ) , ф ( у) ⟩Н.
Визначимо середню карту ядро як
К( С, Q ) = EХ∼ Р, Y∼ Qk ( X, Y) = ⟨ ЕХ∼ Рφ(X),EY∼Qφ(Y)⟩.
Тоді MMD - це
MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥=K(P,P)+K(Q,Q)−2K(P,Q)−−−−−−−−−−−−−−−−−−−−−−−−−√=supf:∥f∥H≤1EX∼Pf(X)−EY∼Qf(Y).
Для наших сумішей P і Q зауважимо, що
K(P, Q ) = ∑i , jαiβjК( Сi, Qj)
і аналогічно для К( С, С) і К( Q , Q ) .
Виявляється, використовуючи аналогічні трюки, що і для L2 , що К( N( μ , Σ ) , N( мк', Σ') ) є
( 2 πσ2)г/ 2N( μ ; μ', Σ + Σ'+ σ2Я) .
Оскільки σ→ 0 , це чітко сходиться до кратного відстані L2 . Як правило, ви хочете використовувати інше σ , однак, масштаб варіації даних.
Закриті форми також доступні для поліномних ядер к в MMD; подивитися
Muandet, Fukumizu, Dinuzzo, Schölkopf (2012). Навчання з дистрибуцій за допомогою апаратів вимірювання підтримки. Вдосконалення систем нейронної обробки інформації ( офіційна версія ). arXiv: 1202.6504 .
Про багато приємних властивостей цієї відстані див
Sriperumbudur, Gretton, Fukumizu, Schölkopf, Lanckriet (2010). Гільбертові просторові вбудовування та метрики щодо імовірнісних заходів. Журнал досліджень машинного навчання, 11, 1517–1561 . arXiv: 0907.5309 .