Точний відбір проб від неправильних сумішей


10

Припустимо, я хочу взяти вибірку з безперервного розподілу p(x) . Якщо у мене є вираз p у формі

p(x)=i=1aifi(x)

f i pai0,iai=1fip

  1. Вибірка мітки з ймовірністюa iiai
  2. ВибіркаXfi

Чи можливо узагальнити цю процедуру, якщо періодично є негативними? Я підозрюю, що бачив це десь - можливо, в книзі, можливо, для розповсюдження Колмогорова - тому я був би абсолютно радий прийняти посилання як відповідь.ai

Якщо конкретний приклад іграшки корисний, скажімо, я хотів би взяти зразок із Я тоді прийміть з технічних причин, які не повинні мати великого значення в загальній схемі речей.α ( 0 , 2 )

p(x,y)exp(xyαxy)x,y>0
α(0,2)

В принципі, я міг би розширити це на наступну суму:

p(x,y)n=0(1)nαn(n2)!(n2)!n!(xn/2ex(n2)!)(yn/2ey(n2)!).

Умови всередині суми можуть бути незалежно відібрані з випадкових величин Gamma. Моє питання, очевидно, що коефіцієнти "періодично" є негативними.(x,y)

Редагувати 1 : Я уточнюю, що я прагну генерувати точні зразки з , а не обчислювати очікування під . Для зацікавлених в коментарях згадуються деякі процедури для цього.рpp

Редагування 2 : Я знайшов посилання, яке включає конкретний підхід до цієї проблеми, у «Неоднорідному поколінні випадкових змінних» Devroye . Алгоритм - "Примітка про вибірку з комбінацій розподілів", Бігнамі та де Маттейса . Метод ефективно обмежувати щільність зверху позитивними показниками суми, а потім використовувати вибірку відхилення на основі цієї оболонки. Це відповідає методу, описаному у відповіді @ Xi'an.


1
Чому ви не можете зробити вибірку, просто скориставшись абсолютною величиною та відкинувши свій зразок ? Іншими словами, визначте(За умови , що це кінцева), а потім перенормировать вашу суму на . X f i Z : = i = 1 | a i | ZaiXfiZ:=i=1|ai|Z
Алекс Р.

2
@AlexR. Якщо я вас зрозумів, версія цього варіанту була б практичною для обчислення очікувань під , але все ж не для складання точних зразків з . Звичайно, це відповідь на відповідну проблему, хоча і не зовсім те, що я шукаю. рpp
πr8

4
Це залежить від того, що ви маєте намір зробити з цим зразком. Наприклад, для обчислення моментів, наприклад, представляється простим узагальнення вибірки із сумішей густин шляхом додаткового позначення будь-якої точки, вибраної з компонента з негативним коефіцієнтом, як "негативної" точки, і зважування її внеску негативно в оцінці моменту. Так само ви можете побудувати KDE з такими негативними вагами, за умови, що ви можете прийняти можливість того, що деякі його значення будуть негативними! (cc @ Xi'an)
whuber

1
Що таке "точний" зразок розподілу? Знову ж, чи можна і як використовувати суміш з негативними вагами, зводиться до того, як ви маєте намір використовувати зразок.
whuber

1
Це не відповідає на ваше запитання, але вам може бути цікаво почитати про вибірку з ймовірностей журналу stats.stackexchange.com/a/260248/35989
Тим

Відповіді:


5

Я спантеличив це питання, але так і не прийшов із задоволенням.

Одне властивість, яка може бути використана, полягає в тому, що якщо щільність пише де - a щільність така, що , імітуючи з і відкидаючи ці симуляції з вірогідністю доставляє симуляції з . У поточному випадку - нормалізована версія позитивних вагових компонентів та - залишок g g ( x ) ω h ( x ) g ω h ( x ) / g ( x ) f g g ( x ) = α i > 0 α i f i ( x ) / α i > 0 α i ω h

f(x)=g(x)ωh(x)1ωω>0
gg(x)ωh(x)gωh(x)/g(x)fg
g(x)=αi>0αifi(x)/αi>0αi
ωh
h(x)=αi<0αifi(x)/αi<0αi
Це дійсно знайдено в імітаційній біблії Devroye, Нерівномірне генерування випадкових змінних, Розділ II.7.4, але випливає з простого міркування прийняття-відхилення.

Перший обчислювальний недолік цього підходу полягає в тому, що, незважаючи на спочатку моделювання з обраного компонента , суми в та повинні бути обчислені для етапу відхилення. Якщо суми нескінченні, не мають закритої форми, це робить метод прийняття-відхилення неможливим у застосуванні . g hfigh

Друга складність полягає в тому, що обидві суми ваг однакового порядку коефіцієнт відхиленняне має верхньої межі. Насправді, якщо ряд, пов'язаний із , абсолютно не збігається, ймовірність прийняття дорівнює нулю! І метод не може бути реалізований у цій ситуації.1-ϱприйняти=α i < 0 | αi| / i | αi| α i

αi>0αi=1αi<0αi
1ϱaccept=αi<0|αi|/i|αi|
αi

У випадку подання суміші, якщо можна записати як спочатку можна вибрати компонент, а потім метод, застосований до компонента. Але це може бути делікатним для здійснення, ідентифікуючи пари які відповідають можливо, нескінченна сума не обов'язково здійснна.f ( x ) = i = 1 α i g i ( x ) - ω i h ( x i )f

f(x)=i=1αigi(x)ωih(xi)1ωiωi>0
(gi,hi)gi(x)ωih(xi)>0

Я думаю, що більш ефективна резолюція могла б бути результатом самого представлення серії. Devroye, Нерівномірне генерування випадкових змінних , Розділ IV.5, містить великий діапазон серійних методів. Наприклад, наступний алгоритм подання альтернативного ряду цілі коли ' s сходиться до нуля з і - щільність:

f(x)=κh(x){1a1(x)+a2(x)}
ai(x)nhМетод альтернативних серій Devroye

Проблема була розглянута останнім часом в контексті ухильних упереджених оцінок для MCMC, як, наприклад, у підході Глін-Ре . І російський оцінювач рулетки (зі зв’язком із фабричною проблемою Бернуллі). І неупереджена методологія MCMC . Але виходу із знакового питання не вдається ... Це робить його використання складним при оцінці щільності, як у псевдо граничних методах.

Подальшу думку, мій висновок полягає в тому, що не існує загального методу для створення фактичного моделювання з цієї серії [, а не суміші, яка виявляється помилкою], не нав'язуючи далі структури> елементам ряду, як у вищевказаний алгоритм з біблії Devroye . Дійсно, оскільки більшість (?) Густин дозволяють здійснити серійне розширення типу вище, це в іншому випадку означатиме існування свого роду універсальної імітаційної машини ...


Дякую! Я також ціную додаткові посилання.
πr8

1
Додаткова подяка за дуже ретельний відгук та посилання. Я радий прийняти цю відповідь, оскільки їй вдається генерувати точні зразки з за як кінцевий час. Я, мабуть, продовжуватиму думати про проблему певною мірою; єдина додаткова ідея, яка мені здається перспективною, - розглянути вибірку з як вибірку , що залежить від , і що може бути геометричне розуміння, яке корисно для цієї характеристики (я думаю, як пробовідбірник фрагментів на ). Ура! pp=λgμhXgλgμh{(x,y):μh(x)<y<λg(x)}
πr8

1
Я пояснив умовний пробовідбірник досить погано; характеристика на основі набору трохи чіткіша (на мою думку). Мій ключовий момент полягає в тому, що якщо ви можете вибірити рівномірно з двовимірного набору в остаточному рядку, то випливає, що -координат має правильний розподіл. Чи може ця характеристика бути корисною для більш тривалих неналежних сумішей на основі сум. (x,y)x
πr8

1
Я також думав про пробовідбірник шматочків, але це не «точно» в сенсі імітації.
Сіань

1

У мене є проект ідеї, яка могла б спрацювати. Це не точно , але, сподіваємось, асимптотично точно. Щоб перетворити це на дійсно суворий метод, де наближення контролюється, або щось про нього можна довести, певно потрібно багато роботи.

По-перше, як згадував Сіань, ви можете згрупувати позитивні ваги з одного боку і негативні ваги з іншого, так що, нарешті, проблема має лише два розподіли і :gh

p=λgμh

з . Зауважте, що у вас є .λμ=1λ1

Моя ідея така. Ви хочете зразок спостережень із . Зробіть:Np

  • зразок значень з та збережіть їх у спискуλNg
  • для кожного з значень, відібраних з , видаліть зі списку їх найближчого (залишився) сусіда.μNh

В кінці ви отримуєте балів. Не потрібно бути саме найближчим сусідом, а просто пунктом, який є "досить близьким". Перший крок - це як генерування матерії. Другий крок - це як створення антиматерії, і нехай вона стикається і скасовується з матерією. Цей метод не є точним, але я вважаю, що за деяких умов він є асимптотично точним для великих (щоб зробити його майже точним для малого потрібно спочатку скористатися великим а потім взяти невелику випадкову частину остаточного списку) . Я наводжу дуже неформальний аргумент, який є більше поясненням, ніж доказом.N n N(λμ)N=NNnN

Розглянемо у просторі спостереження та невеликий об'єм навколо із об'ємом Лебегаv xxvxϵgvλNg(x)ϵμNh(x)ϵNp(x)ϵ. Для цього потрібно припустити, що кількість точок в томі достатньо велика.

gh

Примітка про точний метод:

ghghx(λpμq)pqλppλ>1


1
Я розглядав це, але відкидав це, оскільки мої початкові зусилля, щоб продемонструвати це, могли б спрацювати, призвели до усвідомлення того, що воно, в кращому випадку, буде наближеним і, можливо, поганим. Так, асимптотично це може працювати, але воно не задовольнить запит ОП на "точний" вибірку з розподілу.
whuber

Ефективність цього методу точно в тому ж порядку, що і точний метод прийняття-відхилення.
Сіань

1
ghxgh

1
g/(g+h)gh

@BenoitSanchez Дякую за вашу глибоку відповідь; Я особливо ціную коментарі наприкінці про (потенційну) неможливість точності. У минулому я стикався з заводами Бернуллі і вважав їх досить складними; Я спробую переглянути тему і побачити, чи вона дає якусь думку.
πr8
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.