У чому полягає важливість вибірки?


Відповіді:


15

Вибірка важливості - це форма вибірки від розподілу, що відрізняється від розподілу відсотків , щоб легше отримати кращі оцінки параметра від розподілу інтересів. Зазвичай це забезпечить оцінки параметру з меншою дисперсією, ніж це було б отримано шляхом вибірки безпосередньо з вихідного розподілу з тим самим розміром вибірки.

Він застосовується в різних контекстах. Загалом вибірка з різного розподілу дозволяє взяти більше зразків у тій частині розподілу інтересів, яка продиктована заявкою (важливий регіон).

Одним із прикладів може бути те, що ви хочете мати вибірку, яка включає більше вибірок з хвостів розподілу, ніж чиста випадкова вибірка з розподілу інтересів.

Стаття у вікіпедії, яку я бачив на цю тему, занадто абстрактна. Краще подивитись на різні конкретні приклади. Однак він включає посилання на цікаві додатки, такі як Bayesian Networks.

Одним із прикладів вибірки важливості у 40-х та 1950-х роках є техніка зменшення дисперсії (форма методу Монте-Карло). Дивіться, наприклад, книгу «Методи Монте-Карло» Хаммерслі та Гандеркомб, опубліковану як монографію Метюена / Чапмана і Холла в 1964 році та перевидану в 1966 році та пізніше іншими видавцями. Розділ 5.4 книги охоплює вибірку важливості.


2
Додайте до цього: У RL ви, як правило, застосовуєте вибірку важливості для політики: наприклад, вибіркові дії з політики розвідки замість фактичної політики, яку ви справді хочете взяти на вибірку
DaVinci

3
Ця відповідь починається добре, пояснюючи , що значення вибірки робить, але я був розчарований , щоб знайти його ніколи не відповідає на питання про те, що вибірки по значущості є : як це працює?
whuber

@whuber Моєю метою тут було пояснити концепцію заплутаному ОП і вказати йому на деяку літературу. Це велика тема і використовується у, здавалося б, різних програмах. Інші, можливо, зможуть пояснити деталі простими словами краще, ніж я можу. Я знаю, що коли ви вирішили відповісти на запитання, ви ходите цілу свиню і надаєте хороші графіки, переглядайте технічні деталі, використовуючи звичайну мову. Ці посади майже завжди задовольняють громаду своєю чіткістю та повнотою, і, смію сказати, також задовольняє ОП хоча б частково. Можливо, декількох речень з рівняннями буде достатньо, як ви пропонуєте.
Майкл Р. Черник

Можливо, для громади краще відповісти на питання, а не просто вказувати на інші джерела чи навіть надавати посилання. Я просто відчув, що те, що я зробив, було адекватним, і ОП, котрий визнає себе початківцем статистики, повинен спершу докласти певних зусиль.
Майкл Р. Черник

5
Ти маєш рацію. Мені все ж цікаво, чи можливо це можливо лише в одному чи двох реченнях - ні математика, ні графіки, ні навряд чи додаткова робота - щоб дати відповідь на поставлене запитання. У цьому випадку в описі слід було б підкреслити, що можна оцінити очікування (не просто будь-який "параметр"), то, можливо, вкажіть, що оскільки очікування підсумовує добуток значень та ймовірностей, ви отримуєте той самий результат, змінюючи ймовірності ( до розподілу, який легко вибирати) та коригування значень, щоб компенсувати це.
whuber

33

Вибірка важливості - це моделювання або метод Монте-Карло, призначений для наближення інтегралів. Термін "вибірка" дещо заплутаний тим, що він не має наміру надавати вибірки із заданого розподілу.

Інтуїція за вибіркою важливості полягає в тому, що чітко визначений інтеграл, як можна виразити як очікування для широкого діапазону розподілів ймовірностей: I = E f [ H ( X ) ] = X H ( x ) f ( x )

Я=Хгод(х)гх
де f позначає щільність розподілу ймовірностей, а H визначається h і f . (Зауважимо, що H ( ) зазвичай відрізняється від h ( ) .Дійсно, вибір H ( x ) = h ( x )
Я=Еf[Н(Х)]=ХН(х)f(х)гх
fНгодfН()год() призводить до рівностейH(x)f(x)=h(x)іI=Ef[H(X)]-за деякими обмеженнями на підтримкуf, що означаєf(x)>0,колиh(x)0-
Н(х)=год(х)f(х)
Н(х)f(х)=год(х)Я=Еf[Н(Х)]-ff(х)>0год(х)0-. Отже, як вказував В. Губер у своєму коментарі, є не єдиність у поданні інтеграла як очікування, а навпаки нескінченний масив таких уявлень, деякі з яких краще, ніж інші, колись критерій порівняння їх прийнято. Наприклад, Майкл Черник згадує про вибір до зменшення дисперсії оцінювача.f

Як тільки ця елементарна властивість буде зрозумілою, реалізація ідеї полягає в тому, щоб спиратися на Закон великих чисел, як в інших методах Монте-Карло, тобто моделювати [через псевдовипадковий генератор] зразок iid поширений від F і використовувати наближення I = 1(х1,,хн)fякий

Я^=1нi=1нН(хi)
  1. є неупередженим оцінником Я
  2. майже впевнено сходиться до Я

В залежності від вибору розподілу , вище оцінки I може або не може мати кінцеву дисперсію. Однак завжди існують варіанти f, які дозволяють мати кінцеву дисперсію і навіть довільно невелику дисперсію (хоча ці варіанти можуть бути недоступними на практиці). І існують також вибір F , які роблять важливість вибірки оцінювання I дуже поганий апроксимації I . Сюди входять всі варіанти, коли дисперсія стає нескінченною, навіть якщо нещодавній документ Чаттерджи та Діаконіса вивчає, як порівняти пробовідборники важливості з нескінченною дисперсією. Зображення нижче взято зfЯ^ffЯ^Ямій блог обговорення з паперу та показує погану збіжність нескінченних дисперсії оцінок.

Вибірка важливості з розподілом важливості Розподіл Exp (1) розподілу та розподіл Exp (1/10) та функція інтересу $ h (x) = x $.  Справжнє значення інтеграла - 10 $.

Вибірка важливості з розподілом важливості Розподіл Exp (1) розподілу та розподіл Exp (1/10) та цікаві функції . Справжнє значення інтеграла дорівнює 10 .h(x)=x10

[Далі подано з нашої книги " Статистичні методи Монте-Карло" .]

f

Xh(x)f(x)dx

pC(0,1)2

p=2+1π(1+x2)dx.
p
p^1=1mj=1mIXj>2
X1,,Xm C(0,1)p(1p)/m0.127/mp=0.15

C(0,1)

p^2=12mj=1mI|Xj|>2
p(12p)/2m0.052/m

[2,+)pp інтеграл вище можна вважати очікуванням h ( X ) = 2 / π ( 1 + X 2 ) , де

p=12-021π(1+х2)гх,
год(Х)=2/π(1+Х2)ХU[0,2]p для U jU [ 0 , 2 ] . Дисперсія р 3 є ( Е [ ч 2 ] - Е [ ч ] 2 ) /
p^3=12-1мj=1мгод(Uj)
UjU[0,2]p^3(Е[год2]-Е[год]2)/м0,0285/мp
p=01/2у-2π(1+у-2)гу,
14год(Y)=1/2π(1+Y2)[0,1/2]p
p^4=14мj=1мгод(Yj)
YjU[0,1/2]p^40,9510-4/м

p^1p^410-3100032p^1


5
Дякую @Xi 'за те, що ви вирішили проблему проілюструвати вибірку важливості таким чином, що кожен може оцінити, і я думаю, що більш ніж задовольняє прохання Білла Губера. +1
Майкл Р. Черник

2
Хочу зазначити, що спочатку цю посаду було призупинено і завдяки внеску кількох людей. Ми придумали інформативну тему.
Майкл Р. Черник

5
Крістіан, хочу подякувати і висловити привілей, що ти активно ділишся з нами таким чудовим матеріалом.
whuber

4
Я просто хочу подякувати Сіану, який був досить люб’язним, щоб внести кілька праць, щоб покращити мою відповідь, навіть якщо він дав щось своє.
Майкл Р. Черник

3
Це має бути одним з найкращих постів на stats.stackexchange. Дякую, що поділились!
dohmatob
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.