Як моделювати суму випадкових змінних Бернуллі для залежних даних?


9

У мене є майже такі самі питання, як це: Як я можу ефективно моделювати суму випадкових змінних Бернуллі?

Але налаштування зовсім інші:

  1. S=i=1,NXi , , ~ 20, ~ 0,1P(Xi=1)=piNpi

  2. У нас є дані для результатів випадкових змінних Бернуллі: ,Xi,jSj=i=1,NXi,j

  3. Якщо ми оцінимо з максимальною оцінкою ймовірності (і отримаємо ), вийде, що набагато більший, ніж очікується за іншими критеріями:pip^iMLEP^{S=3}(p^iMLE)P^{S=3}(p^iMLE)P^expected{S=3}0.05

  4. Отже, і не можна трактувати як незалежні (вони мають малу залежність).XiXj (j>k)

  5. Є деякі такі обмеження: та (відомо), які повинні допомогти в оцінці .pi+1pis2P^{S=s}=AP{S}

Як ми могли б спробувати моделювати суму випадкових величин Бернуллі в цьому випадку?

Яка література може бути корисною для вирішення поставленого завдання?

ОНОВЛЕНО

Є ще кілька ідей:

(1) Можна припустити, що невідома залежність між починається після 1 або більше послідовних успіхів. Отже, коли , і .Xii=1,KXi>0pK+1pK+1pK+1<pK+1

(2) Для використання MLE нам потрібна найменш сумнівна модель. Ось варіант:

P{X1,...,Xk}=(1p1)...(1pk) якщо для будь-якого k якщо і , і для будь-якого k.i=1,kXi=0P{X1,...,Xk,Xk+1,...,XN}=(1p1)...pkP{Xk+1,...,XN}i=1,k1Xi=0Xk=1P{Xk+1=1,Xk+2=1,...,XN=1}pk+1pk+2...pN

(3) Оскільки нас цікавить лише ми можемо встановити (ймовірність успіху для N- (k + 1) +1 відліків від хвоста). І використовувати параметризаціюP{S}P{Xk+1,...,XN}P{i=1,kXi=s;N(k+1)+1=l}i=k+1,NXiP{i=k,NXi=s;Nk+1=l}=ps,l

(4) Використовуйте MLE для моделі на основі параметрів і з для (і будь-якого ) та деяких інших власних обмежень .p1,...,pNp0,1,p1,1;p0,2,p1,2,p2,2;...ps,l=0s6l

З цим планом все гаразд?

ОНОВЛЕНО 2

Деякі приклади емпіричного розподілу (червоний) порівняно з розподілом Пуассона (синій) (засоби Пуассона - 2,22 та 2,45, розміри вибірки - 332 та 259):P{S}

зразок1 зразок2

Для зразків (A1, A2) із засобами пуассона 2,28 та 2,51 (розміри зразків 303 та 249):

зразок3 зразок4

Для приєднаного samlpe A1 + A2 (розмір вибірки - 552):

зразок 3 + зразок 4

Схоже, якась корекція до Пуассона повинна бути найкращою моделлю :).


2
Що таке ? Xi,j
chl

1
@Andrey Формули (2) та друге обмеження в (4) не мають сенсу: що означають капелюхи в (4)? Що таке ? (Ви визначили лише , а не ) Чи є вираз у (4) сума трьох добутків чи щось інше? SSjS
whuber

Xi,j - випадкові результати Бернуллі (i-й результат у j-й серії), - j-й результат суми (сума над рядом). - випадкова величина суми; шапки в (4) означають оцінки. Таким чином , є деяка додаткова інформація про суму низьких значень . Вибачте за непорозуміння. SjSS
Андрій

Відповіді:


3

Одним із підходів було б моделювання з узагальненою лінійною моделлю (GLM). Тут ви б сформулювали , ймовірність успіху на -му випробуванні як (логістична лінійна) функція недавньої історії спостережень. Отже, ви по суті підходите до авторегресивного GLM, де шум Bernoulli, а функція зв'язку - logit. Установка така:Xpii

pi=f(b+a1Xi1+a2Xi2+akXik) , де

f(x)=11+exp(x) , і

XiBernoulli(pi)

Параметри моделі - , які можна оцінити за допомогою логістичної регресії. (Все, що вам потрібно зробити, - це налаштувати матрицю проектування, використовуючи відповідну частину історії спостережень на кожному випробуванні, і передати її в функцію оцінки логістичної регресії; вірогідність журналу увігнута, тому існує унікальний глобальний максимум для параметрів). Якщо результати дійсно є незалежними, то буде встановлено на нуль; Позитивний означає, що наступний збільшується кожного разу, коли спостерігається успіх.{b,a1,ak}aiaipi

Модель НЕ забезпечує експресію простий для ймовірності над сумою з «с, але це легко обчислити з допомогою моделювання (фільтрації частинок або MCMC) , так як модель має просту марковскую структуру.Xi

Така модель з великим успіхом застосовується для моделювання тимчасових залежностей між "сплесками" нейронів у мозку, і існує велика література про авторегресивні точкові моделі процесу. Дивіться, наприклад, Truccolo et al 2005 (хоча цей документ використовує Пуассона замість вірогідності Бернуллі, але відображення від одного до іншого прямолінійне).


1

Якщо залежність пов'язана із скупченням, складна модель Пуассона може бути рішенням як модель . Дещо випадкове посилання - це Барбор і Кріссафіну.Sj

Зовсім в іншому напрямку, оскільки ви вказуєте, що дорівнює 20, і, отже, порівняно невеликий, могло б бути побудова графічної моделі , але я не знаю, чи можливі ваші налаштування та дані. Як @chl коментарі, це буде корисно, якщо ви опишете, що таке .NXijXi,j

Якщо являють собою послідовні вимірювання, наприклад, з часом, і залежність пов'язана з цим, третя можливість - а для деякого розширення компромісу між двома наведеними вище пропозиціями - використовувати приховану модель Маркова «с.Xi,jXi,j


Xi,j - випадкові результати Бернуллі. Вибачте за неточність. Отже, - це сума балів для спортивних команд за послідовні рівні інтервали часу. Виявляється, після того, як буде забитий перший гол, ймовірність наступного голу в інтервалі буде різною. Xi
Андрій
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.