Чому проблему захаращення не можна вирішити для великих розмірів вибірки?


13

Припустимо, у нас є набір точок . Кожна точка формується за допомогою розподілу Для отримання posterior для пишемо Згідно зі статтею Мінка на Очікування поширення нам необхідно 2 ^ N обчислення , щоб отримати задній р (х | \ mathbf {у}) і, таким чином, проблема стає нерозв'язною для великих розмірів вибірки N . Однак я не можу зрозуміти, для чого нам потрібна така кількість обчислень у цьому випадку, оскільки для одиничного y_iy i p ( y i | x ) = 1y={y1,y2,,yN}yiхp(x|y)p(y|x)p(x)=p(x) N i=1p(yi|x).

p(yi|x)=12N(x,1)+12N(0,10).
x
p(x|y)p(y|x)p(x)=p(x)i=1Np(yi|x).
p ( x | y ) N y i2Np(x|y)Nyiймовірність має вигляд
p(yi|x)=122π(exp{12(yix)2}+110exp{120yi2}).

Використовуючи цю формулу, ми отримуємо posterior шляхом простого множення p(yi|x) , тому нам потрібні лише N операцій, і, таким чином, ми можемо точно вирішити цю проблему для великих розмірів вибірки.

Я роблю чисельний експеримент для порівняння, чи дійсно я отримую ту саму задню, якщо я обчислюю кожен термін окремо, і якщо я використовую добуток густини для кожного yi . Плакати однакові. Дивіться, введіть тут опис зображення де я помиляюся? Хтось може мені зрозуміти, навіщо нам потрібні 2N операції для обчислення задніх для даного x та sample y ?


Одна операція на термін і термінів, тому нам потрібні операції . Також я знову переглядаю папір Мінки та розділ єпископа про приблизний висновок. Обидва припускають, що ми хочемо оцінити та отримати posterior для . O ( N ) xNO(N)x
Олексій Зайцев

Я правильно розумію, що ваші однозначні? Якщо так, ви можете вирішити це в яке вважається простежуваним незалежно від O ( n log ( n ) ) nyiO(nlog(n))n
user603

1
@Alexey Перечитавши цей параграф, я думаю, що автор не згадує операцій. Він просто вказує, що «стан вірування для - це суміш гауссів» . x 2 N2Nx2N

1
@Procrastinator згідно з документом, ми хочемо використовувати поширення віри, але не можемо використовувати, тому що нам потрібно продовжувати суміш гауссів. Тоді питання полягає в тому, чому ми хочемо використовувати ВР? Ще одне питання виникає у випадку, якщо ми читаємо главу 10.7.1 у PRML Бішопа або дивимось відеолекції Мінки . Після цього відповідь не є однозначною. 2N
Олексій Зайцев

1
@Alexey Я думаю, що логіка цього полягає в іншому. Автор описує те, що станеться, якщо використовувати поширення віри, щоб підкреслити деякі труднощі з ним, коли великий, а потім просувати його "поширення очікування". Він згадує, що для поширення вірування потрібно використовувати суміш гауссів для стану вірування для що ускладнюється, коли є великим. Тут не згадується кількість необхідних операцій, а складність стану вірування для . 2 N x N xN2NxNx

Відповіді:


4

Ви праві, що папір говорить неправильно. Ви, звичайно, можете оцінити задній розподіл у відомому місці за допомогою операцій . Проблема полягає в тому, коли ви хочете обчислити моменти ззаду. Щоб обчислити заднє середнє значення точно, вам знадобиться операцій. Це проблема, яку намагається вирішити папір.O ( n ) x 2 NxO(n)x2N


2

Ви пропустили те, що розподіл - це суміш гауссів: кожен зразок розподіляється як за з ймовірністю і як (розподіл захаращеності для , незалежно від ) з вірогідністю . p ( y i | x ) 1 - w p c ( y ) y x wyip(yi|x)1wpc(y)yxw

Нехай - показник змінної, що вказує на те, що зразок був отриманий з розподілу безладу; таким чином, якщо вона дорівнює це означає, що зразок був взятий з . Очевидно, що якщо вибірка була взята з розподілу захаращеності, для оцінки значення не має значення . i 0 p ( y | x ) xcii0p(y|x)x

Саме наявність можливих спільних станів для цих змінних індикаторів викликає проблему.2N


Однак ми можемо скинути додаткові змінні , оскільки нам потрібно отримати максимально заднє рішення проблеми. Задня для має чітку форму, тому ми не змушені враховувати всі теперішніх станів. Отже, питання "Для чого нам потрібна ця кількість обчислень, якщо ми хочемо знайти максимально заднє рішення?" x 2 Ncix2N
Олексій Зайцев

Максимізацію потрібно взяти за стани для змінних . c
Дейв

Ми не знаємо , тому ми інтегруємо (підсумовуємо більше) . Це можна зробити прямо, чи не так? c icici
Олексій Зайцев

Прямий так, але кількість станів (термінів) зростає як , що може бути обчислено проблематично. 2N
Дейв

Ми можемо зробити це для кожного спостереження незалежним чином, тому ми маємо складність , а не . O ( 2 n )O(n)O(2n)
Олексій Зайцев
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.