Зв'язок статистики Баєса та генеративного моделювання


15

Чи може хтось віднести мене до хорошої довідки, яка пояснює зв’язок між байєсівською статистикою та методами генеративного моделювання? Чому ми зазвичай використовуємо генеративні моделі за допомогою байєсівської техніки?

Чому особливо привабливо використовувати статистику Баєса за відсутності повних даних, якщо вони взагалі є?

Зауважте, що я виходжу з більш орієнтованого на машинне вивчення, і мені цікаво прочитати про це більше від статистичної спільноти.

Будемо дуже вдячні за будь-які хороші посилання, які обговорюють ці питання. Спасибі.


Я досліджував принципову різницю між адаптивним та генеративним способами трансформації. Здається, що Баєсіан підходить як статистична модель для вивчення адаптивного, але не генеративного. До цього висновку потрібно дійти більш впевнено.

1
Привіт Шрінідхі, ласкаво просимо на сайт. Це сайт із запитаннями та відповідями. Чи можете ви переформулювати свій коментар у питання? Крім того, чим конкретніше це питання, тим більше шансів отримати корисну відповідь.
naught101

Відповіді:


12

У машинному навчанні модель повної ймовірності p (x, y) називається генеративною, оскільки її можна використовувати для отримання даних, тоді як умовна модель p (y | x) називається дискримінаційною, оскільки вона не визначає модель ймовірності для p (x ) і може генерувати лише y, заданий x. І те й інше можна оцінити по-баєзькому.

Байєсова оцінка суттєво полягає у визначенні повної моделі ймовірності та виконанні умовиводу, обумовленому моделлю та даними. Через це багато моделей баєсів мають загальне відчуття. Однак для байєсів важливе відмінність полягає не стільки в тому, як генерувати дані, скільки в тому, що потрібно для отримання заднього розподілу невідомих цікавих параметрів.

Дискримінаційна модель p (y | x) є частиною більшої моделі, де p (y, x) = p (y | x) p (x). У багатьох випадках p (x) не має значення для заднього розподілу параметрів у моделі p (y | x). Зокрема, якщо параметри p (x) відрізняються від p (y | x) і пріори незалежні, то модель p (x) не містить інформації про невідомі параметри умовної моделі p (y | x), тому байєсському не потрібно його моделювати.


На більш інтуїтивному рівні існує чіткий зв’язок між "генерацією даних" та "обчисленням заднього розподілу". Рубін (1984) дає наступний чудовий опис цього посилання:

введіть тут опис зображення


Байєсівська статистика корисна з огляду на відсутні дані в першу чергу, оскільки вона забезпечує єдиний спосіб усунення неприємних параметрів - інтеграцію. Відсутні дані можна вважати (багатьма) параметрами неприємностей. Альтернативні пропозиції, такі як підключення очікуваного значення, як правило, будуть поганими, оскільки ми рідко можемо оцінити відсутні комірки даних з високим рівнем точності. Тут інтеграція краще, ніж максимізація.

Дискримінаційні моделі, такі як p (y | x), також стають проблематичними, якщо x включає відсутні дані, оскільки у нас є лише дані для оцінки p (y | x_obs), але більшість розумних моделей записуються стосовно повних даних p (y | x). Якщо у вас є повністю імовірнісна модель p (y, x) і є баєсівською, то ви добре, тому що ви можете просто інтегруватись через відсутні дані, як і будь-яка інша невідома кількість.


2

@ Тристан: Сподіваюся, ви не заперечуєте проти моєї переробки відповідей, оскільки я працюю над тим, щоб зробити загальний пункт максимально прозорим.

Для мене первиннийрозуміння статистики полягає в концептуалізації повторних спостережень, які різняться - як породжувані моделлю, що генерує ймовірність, наприклад, Нормальна (мю, сигма). На початку 1800 р. Розважальні моделі, що генерують ймовірність, зазвичай були лише помилками вимірювання з роллю параметрів, таких як mu і sigma та пріори для них. Часті лікарі підходи вважали параметри фіксованими та невідомими, тому моделі, що генерують ймовірність, тоді включали лише можливі спостереження. Байєсівські підходи (з належними пріорами) мають імовірність генерування моделей як можливих невідомих параметрів, так і можливих спостережень. Ці спільні моделі, що генерують ймовірність, всебічно враховують усі можливі невідомі (наприклад, параметри) та знання (такі як спостереження). Як у посиланні від Рубіна, який ви дали,

Це насправді було дуже чітко зображено Галтоном у двоступеневому кінчуксі наприкінці 1800-х років. Дивіться рисунок 5> Стіглер, Стівен М. 2010. Дарвін, Галтон та статистичний

просвітлення. Журнал Королівського статистичного товариства: Серія A 173 (3): 469-482 . .

Це рівнозначно, але, можливо, більш прозоро

posterior = попередній (можливі невідомі | можливі knowns = knowns)

ніж posterior ~ prior (можливі невідомі) * p (можливі knowns = knowns | можливі невідомі)

Ніщо не нове для пропущених значень у попередньому, оскільки лише додає можливі невідомі моделі ймовірності, що генерує відсутні значення, і трактує відсутні як лише одне з можливих знань (тобто третє спостереження відсутнє).

Нещодавно приблизні байєсівські обчислення (ABC) серйозно сприйняли цей конструктивний двоступеневий симуляційний підхід, коли p (можливі ноу-хау = knowns | можливі невідомі) не можуть бути розроблені. Але навіть коли це можна розробити і заднє легко отримати за допомогою відбору проб MCMC (або навіть тоді, коли задня частина є безпосередньо доступною завдяки попередньому кон'югату), думка Рубіна про цю двоступеневу конструкцію відбору проб, що дозволяє легше зрозуміти, не слід оминати увагою.

Наприклад, я впевнений, що це могло б наздогнати те, що @Zen зробив тут байєси : раби імовірності функціонують? тому що потрібно було б намалювати можливий невідомий c з попереднього (перший етап), а потім намалювати можливий відомий (дані), враховуючи, що c (етап 2), який не був би випадковим поколінням, як p (можливі знання | c) не були ймовірністю, крім однієї і лише однієї c.

fХiС(c) c

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.