Графічна інтуїція статистики на колекторі


12

У цій публікації ви можете прочитати заяву:

Моделі зазвичай представлені точками на кінцевому розмірному колекторі.θ

Щодо диференціальної геометрії та статистики Майкла К. Мюррея та Джона У Райса, ці поняття пояснюються в прозовій формі, читаючи навіть ігноруючи математичні вирази. На жаль, ілюстрацій дуже мало. Те саме стосується цієї публікації в MathOverflow.

Я хочу попросити допомогти з візуальним поданням, яке послужить картою або мотивацією до більш формального розуміння теми.

Які точки на колекторі? Ця цитата з цієї інтернет-знахідки , здавалося б, вказує на те, що це можуть бути або точки даних, або параметри розподілу:

Статистика на багатовидах та геометрії інформації - це два різні способи, коли диференціальна геометрія відповідає статистиці. У той час як у статистиці про багатоманіття це дані, які лежать на багатоманітнику, в геометрії інформації дані знаходяться в , але параметризоване сімейство функцій щільності ймовірності, що представляє інтерес, трактується як різноманіття. Такі багатоманітники відомі як статистичні множини.Rn


Я намалював цю діаграму, натхненну цим поясненням дотичного простору тут :

введіть тут опис зображення

[ Редагувати, щоб відобразити коментар нижче про :C ] У колекторі дотичний простір - це набір усіх можливих похідних ("швидкостей") у точці пов'язаній з кожна можлива крива на колекторі, що проходить черезЦе можна розглядати як набір карт з кожної кривої, що проходить через тобто визначений як композиція , з що позначає криву (функція від реальної лінії до поверхні колектораp M (ψ: R M )p. p, C (t) R , ( f ψ ) (t)ψ M p,(M)pM(ψ:RM)p.p,C(t)R,(fψ)(t)ψM), що проходить через точку і зображений червоним кольором на схемі вище; і представляє тестову функцію. Білі контурні лінії "iso- " відображають в ту саму точку на реальній лінії та оточують точку .p,f pf,fp

Еквівалентність (або одна з еквівалентів, застосованих до статистики) обговорюється тут і стосується наступної цитати :

Якщо простір параметрів для експоненціального сімейства містить одномірне відкрите безліч, то воно називається повним рангом.s

Експоненціальна сім'я, що не має повного рангу, зазвичай називається вигнутою експоненціальною сім'єю, оскільки зазвичай простір параметрів є кривою в розміром менше s.Rss.

Це, мабуть, робить інтерпретацію сюжету таким чином: параметри розподілу (в даному випадку сімейства експоненціальних розподілів) лежать на колекторі. Точки даних у будуть відображати лінію на колекторі через функцію у випадку задачі про нелінійну оптимізацію з дефіцитним рангом. Це було б паралельним обчисленням швидкості у фізиці: пошук похідної функції по градієнту ліній "iso-f" (похідна спрямованого помаранчевим кольором):Функція відіграватиме роль оптимізації вибору параметра розподілу як кривої ψ : RM f ( f ψ ) ( t ) . f : MR ψ fRψ:RMf(fψ)(t).f:MRψрухається по контурних лініях на колекторі.f


Передумови додані:

Слід зазначити, що я вважаю, що ці поняття не одразу пов'язані з нелінійним зменшенням розмірності ML. Вони схожі на геометрію інформації . Ось цитата:

Важливо, що статистика щодо колекторів сильно відрізняється від багатозначного навчання. Останнє є галуззю машинного навчання, де метою є вивчення прихованого багатообраза з даних, оцінених . Як правило, розмірність шуканого латентного багатообразника менше . Латентний колектор може бути лінійним або нелінійним, залежно від конкретного використовуваного методу. nRnn


Наступна інформація з статистики на многовидах з додатками до моделювання Shape Деформації по Орен Freifeld :

введіть тут опис зображення

У той час як , як правило , нелінійний, можна зіставити дотичний простір, що позначається , в кожну точку . векторний простір, розмірність якого та ж, що і . Походження знаходиться на . Якщо вбудований у якийсь евклідовий простір, ми можемо вважати як афінним підпростором таким чином: 1) він торкається у ; 2) принаймні локально, лежить повністю на одній із його сторін. Елементи TpM називаються дотичними векторами.T p M p M T p M M T p M p M T p M M p MMTpMpMTpMMTpMpMTpMMpM

[...] На колекторах статистичні моделі часто виражаються в дотичних просторах.

[...]

[Ми вважаємо два] набори даних складаються з точок у :M

DL={p1,,pNL}M ;

DS={q1,,qNS}M

Нехай і є два, можливо , невідомо, точки в . Передбачається, що два набори даних відповідають наступним статистичним правилам:µL MµSM

{ log μ S ( q 1 ) , , log μ S ( q N S ) } T μ S M ,{logμL(p1),,logμL(pNL)}TμLM,logμL(pi)i.i.dN(0,ΣL) {logμS(q1),,logμS(qNS)}TμSM,logμS(qi)i.i.dN(0,ΣS)

[...]

Іншими словами, коли виражається (як дотичні вектори) в дотичному просторі (до ) в , це може розглядатися як набір зразків з нульового середнього Гаусса з коваріацією . Так само, коли виражається в дотичному просторі в це може розглядатися як набір iid-зразків від нульового середнього Гаусса з коваріацією . Це узагальнює випадок Евкліда. M µ L Σ L D S μ S Σ SDLMμLΣLDSμSΣS

У цій же довідці я знаходжу найближчий (і практично єдиний) приклад цієї графічної концепції в Інтернеті, про яку я прошу:

введіть тут опис зображення

Чи вказувало б це, що дані лежать на поверхні колектора, виражених дотичними векторами, а параметри будуть відображені на декартовій площині?


1
Що ви тут намагаєтеся зробити? Малюємо колектори? Більшість із них занадто нудно малювати. Наприклад, спробуйте розподіл Гаусса.
Аксакал

Я б зазвичай вважав простір параметрів як векторний простір, наприклад . Якби я міркував над параметричними "колекторами", перше, що спадає на думку, - це "системи обмежень", наприклад, . Інакше, чому простір не є "повним"? (Що визначає підмножину, яка є "колектором"?)f ( θ )θRnf(θ)=0
GeoMatt22

2
Сподіваємось, @whuber прийде разом і детально розробить коментарі, які він робив у чаті.
gung - Відновіть Моніку

1
Коротка відповідь на ваше відредаговане питання - "ні". Дотичний простір описує швидкості всіх плавних шляхів у колекторі. Його основна роль у статистиці полягає у максимальному збільшенні ймовірностей, де у різноманітті описується кінцево параметризована сім'я. У "багатозначному навчанні" колектор використовується як локальне наближення до даних - це вигнута версія "простору стовпців" в лінійній регресії. Там дотичний простір вбудований в навколишній евклідовий простір. Місцево він описує "вказівки" даних, а його звичайний пакет дає вказівки "помилки".
whuber

1
Так: простір котангенсів at можна визначити як похідні зародків функцій навколо . Дотичний простір у (отже!) Просто його подвійний. і набуває топологія - тобто допускає поняття дві дотичних просторів і бути «поруч» - за допомогою координатних карт на . Це зводить визначення (і проблему візуалізації) до визначення дотичного простору . Це множина всіх векторів, що походять з . Spivak, в обчисленні на ManifoldsTpMpppTMTMTpMTqMMTxRnx, дає чітке, елементарне визначення такого роду.
whuber

Відповіді:


3

Сімейство розподілів ймовірностей можна проаналізувати як точки на колекторі з внутрішніми координатами, що відповідають параметрам розподілу. Ідея полягає у тому, щоб уникнути подання з неправильною метрикою: Уніваріантний гаусс може бути зображений у вигляді крапок у евклідовому колекторі як у правій частині ділянки внизу із середнім значенням в осі та SD в осі (додатна половина у разі побудови дисперсії):N ( μ , σ 2 ) , R 2 x y(Θ)N(μ,σ2),R2xy

введіть тут опис зображення

Однак матриця тотожності (евклідова відстань) не зможе виміряти ступінь (не-) подібності між окремими 's: на нормальних кривих ліворуч від ділянки вгорі, з урахуванням інтервалу в області, площа без перекриття (темно-синього кольору) більша для гауссових кривих із меншою дисперсією, навіть якщо середнє значення залишається фіксованим. Насправді, єдиною римановою метрикою, яка "має сенс" для статистичних колекторів, є інформаційна метрика Фішера .pdf

У інформаційній відстані Фішера: геометричне зчитування , Коста СІ, Сантос С.А. та Страпассон JE скористаються подібністю між інформаційною матрицею Фішера Гауссових розподілів та метрикою в дисковій моделі Белтрамі-Понкаре, щоб отримати закриту формулу.

"Північний" конус гіперболоїда стає неевклідовим багатообразом, в якому кожна точка відповідає середньому та стандартному відхиленню (простір параметрів) та найкоротшій відстані між напр. і на наведеній нижче схемі - це геодезична крива, що проектується (карта діаграми) на екваторіальну площину як гіперпараболічні прямі і дозволяє вимірювати відстані між через метричний тензор. - метрика інформації Фішера :p d f s , P Q ,x2+y2x2=1pdfs,PQ,g μ νpdfsgμν(Θ)eμeν

D(P(x;θ1),Q(x;θ2))=minθ(t)|θ(0)=θ1,θ(1)=θ201(dθdt)I(θ)dθdtdt

з

I(θ)=1σ2[1002]

введіть тут опис зображення

Кульбак-Ліблер розбіжність тісно пов'язане, хоча і не вистачає геометрії і пов'язані з ними метрики.

І цікаво зазначити, що інформаційну матрицю Фішера можна інтерпретувати як гессіанську ентропію Шеннона :

gij(θ)=E[2logp(x;θ)θiθj]=2H(p)θiθj

з

H(p)=p(x;θ)logp(x;θ)dx.

Цей приклад за концепцією схожий на більш поширену стереографічну карту Землі .

Тут не розглядається багатовимірне вбудування чи багатозначне навчання.


1

Існує більше ніж один спосіб пов'язати ймовірності з геометрією. Я впевнений, що ви чули про еліптичні розподіли (наприклад, Гаусса). Сам термін означає геометрію зв'язку, і це очевидно, коли ви малюєте його матрицю коваріації. За допомогою колекторів це просто розміщення всіх можливих значень параметрів у системі координат. Наприклад, Гауссовий колектор був би у двох вимірах: . Ви можете мати будь-яке значення але тільки позитивні відхилення . Отже, гауссовий колектор був би половиною всього простору . Не так цікаво μ R σ 2 > 0 R 2μ,σ2μRσ2>0R2


Я думаю, я думав, що "колектор" повинен бути нижчим виміром, ніж його вбудований простір? Отже, півпростір не рахується?
GeoMatt22

З Гауссом це навіть не різноманітність, правда. Вам потрібні обмеження, тому це стає якоюсь площиною або лінією
Аксакал

Я намагаюся зрозуміти сенс вашої відповіді ... Ви маєте в виду « в засланні геометрії»? Крім того, я щойно знайшов цю пов’язану публікацію на MathOverflow .
Антоні Пареллада

3
Це стає цікавішим за допомогою відповідної метрики ... на кшталт Фішера-Рао, а потім стає гіперболічним напівмісцем Poincare en.wikipedia.org/wiki/Poincar%C3%A9_half-plane_model
mic

2
Для всіх: (1) багатообразиї, які описують параметричні сімейства, є внутрішніми багатоманіттями: їх не потрібно вбудовувати в будь-який векторний простір. (2) Вони є більш ніж просто диференційованими різновидами: інформація про Фішера надає їм риманову метрику - локальну відстань - що дозволяє їм геометрично вивчатися. Це робить "половину всього простору" у вигнуту поверхню. R2
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.