Інтелектуальне виявлення точки зміни Байєса (граничний прогнозний розподіл)


9

Я читаю документ про виявлення змін Байєса в Інтернеті від Адама та Маккея ( посилання ).

Автори починають із написання граничного прогнозного розподілу: де

P(xt+1|x1:t)=rtP(xt+1|rt,xt(r))P(rt|x1:t)(1)
  • xt - спостереження в момент часу ;t
  • x1:t позначає набір спостереження до моменту ;t
  • rtN - поточна довжина пробігу (час з часу останньої точки зміни, може бути 0); і
  • xt(r) - це сукупність спостережень, пов'язаних із запуском .rt

Eq 1 формально правильний (див. Відповідь нижче від @JuhoKokkala), але я розумію, що якщо ви хочете насправді зробити прогноз щодо вам потрібно розширити його наступним чином:xt+1

P(xt+1|x1:t)=rt,rt+1P(xt+1|rt+1,xt(r))P(rt|x1:t)P(rt+1|rt)(1b)

Моє міркування полягає в тому, що в (майбутньому) часі може бути , але задній охоплює лише до .t+1P(rt|x1:t)t

Справа в тому, що автори в роботі роблять нас з рівняння. 1, як є (див. Рівняння 3 та 11 у статті), а не 1b. Отже, вони, здавалося б, ігнорують можливість зміни точки в момент при прогнозуванні з даних, доступних у момент . На початку розділу 2 вони говорять про перехідt+1xt+1t

Ми припускаємо, що ми можемо обчислити прогнозний розподіл [для ], що обумовлюється заданою довжиною пробігу .xt+1rt

що, можливо, там, де фокус. Але загалом цей прогнозний розподіл повинен виглядати приблизно як Eq. 1b; що це не те, що вони роблять (Р. 11).

Отже, я не впевнений, що розумію, що відбувається. Можливо, з нотацією відбувається щось смішне.


Довідково

  • Адамс, RP та MacKay, DJ (2007). Байєсівське онлайн-виявлення зміни. переддрук arXiv arXiv: 0710.3742.

Потенційне пояснення полягає в тому, що являє собою довжину запуску в кінці етапу часу , який знаходиться після точки зміни в момент . З цим, рівняння. 1 має сенс. Фактично, одна ініціалізація алгоритму - це встановлення що передбачає, що перед початком в є . Однак, фіг.1 неправильно (або принаймні вводить в оману) в тому, що якщо є точка зміни між і , і між і як зображено на , то іrtttP(r0=0)=1t=1t=4t=5t=10t=11r4r10має бути 0 відповідно до цього позначення, а не та як на фіг. 1b. r5r11
lacerbi

1
У еквіваленті відбувається щось дивне. 3 як середній множник у підсумковому рядку в останньому рядку є тоді як я думав, що містить . Я підозрюю, що і змінили місця, оскільки має сенс. У рівнянні 11, правий бік, здається, залежить від який взагалі не з’являється на лівій стороні, тому або щось не так, або я взагалі не розумію позначення. P(xtrt1,xt(r))xt(r)xttt1P(xtrt,xt1(r))xt(r)
Juho Kokkala

@JuhoKokkala: Я радий, що я не єдиний із таким почуттям ...
lacerbi

1
@lacerbi, У мене є ще одне запитання щодо цього документу, і я думаю, що ви зможете відповісти на нього, оскільки вам здається знайомим з роботою: stats.stackexchange.com/questions/419988 .
gwg

Відповіді:


5

І (1), і (1b) правильні. ОП має право, що (у цій моделі) може бути точка зміни при , і залежить від того, чи є точка зміни. Це не означає жодних проблем з (1), оскільки можливі значення повністю "охоплені" . означає умовний розподіл від . Цей умовний розподіл в середньому позначається на "все інше", включаючи , умовний на . Так само, як можна було написати, скажімо,t+1xt+1rt+1P(xt+1rt,x1:t)P(xt+1|rt,x1:t)xt+1(rt,x1:t)rt+1(rt,x1:t)P(xt+1000|xt), яка б враховувала всі можливі конфігурації точок змін, а також значення s, що виникають між і .xitt+1000

У решті я спочатку отримую (1), а потім (1b) на основі (1).

Виведення (1)

Для будь-яких випадкових величин маємо , поки дискретний (інакше суму потрібно замінити на інтеграл). Застосовуючи це до :A,B,C

P(AB)=cP(AB,C=c)P(C=cB),
Cxt+1,x1:t,rt

P(xt+1x1:t)=rtP(xt+1rt,x1:t)P(rtx1:t),
яке має значення незалежно від того, якими є залежності між , , , тобто жодних припущень щодо моделі ще немає були використані. У даній моделі задається вважається * умовно незалежним від значень від прогонів до . Це означає, що . Підставивши це до попереднього рівняння, отримаємоrtx1:txt+1xt+1rt,xt(r)xxt(r)P(xt+1rt,x1:t)=P(xt+1rt,xt(r))

P(xt+1x1:t)=rtP(xt+1rt,xt(r))P(rtx1:t),(1)
що є (1) в ОП.

Виведення (1b)

Розглянемо розкладання над можливими значеннями : P(xt+1rt,xt(r))rt+1

P(xt+1rt,xt(r))=rt+1P(xt+1rt+1,rt,xt(r))P(rt+1rt,xt(r)).

Оскільки передбачається *, що те, чи відбудеться точка зміни при (між та ), не залежить від історії , маємо . Крім того, оскільки визначає, чи належить до того ж циклу, що і , ми маємо . Підставивши ці два спрощення на факторизацію вище, отримаємо t+1xtxt+1xP(rt+1rt,xt(r))=P(rt+1rt)rt+1xt+1xtP(xt+1rt+1,rt,xt(r))=P(xt+1rt+1,xt(r))

P(xt+1rt,xt(r))=rt+1P(xt+1rt+1,xt(r))P(rt+1rt).
Підставивши це до (1), отримаємо яке є ОП (1b).
P(xt+1x1:t)=rt(rt+1P(xt+1rt+1,xt(r))P(rt+1rt))P(rtx1:t),(1b)

* Зауважте про припущення про умовну незалежність моделі

На основі швидкого перегляду статті я особисто хотів би, щоб властивості умовної незалежності десь чіткіше були викладені, але я вважаю, що намір полягає в тому, що є марковським, а : s, пов'язані з різними прогонами, є незалежними (з урахуванням прогонів).rx


1
(+1) Дякую Так, звичайно, я розумію, що екв. 1 формально правильно, якщо передбачається неявна маргіналізація над . Проблема полягає в тому, що пізніше автори роблять передбачення (рівняння 11 у статті та неявно урівнювання 3), і вони, мабуть, не маргіналізуються над коли приймають їх. rt+1rt+1
lacerbi

1
Ой. Тоді здається, що я неправильно зрозумів питання - чи слід це видалити? Ви можете уточнити питання, на даний момент це звучить як (1) якось неправильно (замість, можливо, не корисного)
Juho Kokkala

Будь ласка, зберігайте цю відповідь, яка цінна. Моя помилка, що я не був достатньо зрозумілий у своєму первісному дописі. Я спробував уточнити своє запитання завдяки вашим коментарям і таким чином, що все ще робить цю відповідь значущою.
lacerbi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.