Чи існує універсальний розподіл, з якого ми не можемо взяти вибірку?


12

Ми маємо велику різноманітність методів випадкового генерування з одновимірних розподілів (зворотна трансформація, прийняття-відхилення, Метрополіс-Гастінгс тощо), і здається, що ми можемо вибирати з буквально будь-якого дійсного розподілу - це правда?

Не могли б ви надати будь-який приклад одновимірного розподілу, який неможливо випадково генерувати? Я припускаю, що приклад, де це неможливо, не існує (?), Тому скажімо, що під "неможливим" ми маємо на увазі також випадки, що дуже обчислювально обчислюються, наприклад, що потрібні грубі сили моделювання, такі як малювання величезної кількості зразків, щоб прийняти просто їх небагато.

Якщо такого прикладу не існує, чи можна насправді довести, що ми можемо генерувати випадкові малюнки з будь-якого дійсного розподілу? Мені просто цікаво, чи існує контрприклад для цього.


6
Я думаю, це дійсно зводиться до того, що ви маєте на увазі під "не можна / неможливо". Бувають випадки, коли cdf та pdf дуже дорого оцінювати, наприклад, що зробило б більшість методів заборонними, і не важко придумати форми розподілу, де хороші межі конвертів на pdf (для прийняття-відхилення, що здебільшого уникає оцінювання функцій) недоступні. Таким чином, це не вдасться випадок, який ви вже виключаєте, і ми могли б зробити навіть дорожчим (за середньоквадратичне відхилення) для обчислення, ніж використання прийняття-відхилення (що виключало б намагання використовувати числову інверсію cdf)Ж
Glen_b -Встановити Monica

3
Ми не можемо провести однакові випадкові вибірки з набору ірраціональних чисел на проміжку (0,1) за допомогою комп’ютера. Доведення залишається як вправа для читача.
Кліф АВ

2
@Cliff AB Це можна вирішити за допомогою інтервальної арифметики. Визначте (найменший) інтервал навколо кожної обчислюваної (раціональної) точки, таким чином, щоб ціла кількість [0,1] була охоплена цими інтервалами. Для кожного намальованого "рівномірного" намальованого комп'ютера оцініть t (із зовнішнім округленням) інтервалу, оберненого функції кумулятивного розподілу на цьому аргументі інтервалу. Це дасть інтервал вибірки випадкової величини, на 100% гарантовано містити справжню вибірку.
Марк Л. Стоун

2
Що я отримую, це те, що ви вже вважаєте достатньо неефективним прийняття відхилення як "неможливе", якщо ви зробите це досить дорогим, що будь-який інший підхід, про який ви знаєте, є гіршим (вимагає більшого розрахунку), ви, ймовірно, вважаєте і це "неможливим". Побудова дорогих для оцінки F і F не так вже й складна, і зробити їх так, що очевидними способами уникнути фактичного обчислення будь-якої більшості часу також є неефективним, здається, можливим ,,,
ctd

1
ctd ... (але в сукупності, люди досить геніальні, тому те, що здається дуже важким одного дня, може бути здійсненним, якщо ви придумаєте приємну ідею, яка вирішує більшу частину проблеми). Якщо ми скажемо, що "наближення до такої і такої точності є нормальним", багато з цих труднощів можуть бути подолані в багатьох випадках (наприклад, можна створити великі таблиці пошуку / покоління з гістограм, скажімо, такі що більшу частину часу ви генеруєте приблизні значення досить швидко).
Glen_b -Встановіть Моніку

Відповіді:


15

Якщо ви знаєте функцію кумулятивного розподілу, , тоді ви можете її інвертувати, чи то аналітично, чи чисельно, і використовувати метод зворотного відбору перетворень для генерування випадкових вибірок https://uk.wikipedia.org/wiki/Inverse_transform_sampling .Ж(х)

Визначте . Це дозволить обробляти будь-який розподіл, будь то безперервний, дискретний або будь-який поєднання. Це завжди можна вирішити чисельно, а можливо, аналітичним шляхом. Нехай U - вибірка з випадкової величини, розподіленої як Уніфікована [0,1], тобто з рівномірного [0,1] генератора випадкових чисел. Тоді , визначений як вище, є випадковою вибіркою з випадкової величини, що має розподіл . F - 1 ( U ) F ( x )Ж-1(у)=iнf(х:Ж(х)у)Ж-1(U)Ж(х)

Це може бути не найшвидшим способом генерації випадкових вибірок, але це спосіб, припускаючи, що F (x) відомий.

Якщо F (x) невідомо, то це вже інша історія.


2
Якщо невідомо, то що відомо? Очевидно, що це актуально. Якщо ви нічого не знаєте, ви нічого не зможете зробити. Якщо ви щось знаєте, то це залежить від того, що це таке.Ж(х
Марк Л. Стоун

@Tim Насправді, досить часто, що ми не знаємо F (X), але можемо генерувати з нього зразки. Це типовий сценарій моделювання в Монте-Карло (стохастичне).
Марк Л. Стоун

@Tim: Якщо ця історія вас не цікавить, незрозуміло, яка історія вас цікавить. У відповідь на коментар Glen_b ви сказали, що вас не цікавить неефективна вибірка. Цей метод, хоча і неефективний, дозволить вам взяти вибірку з будь-якого PDF-файлу (якщо припустити, що не так вже й погано поводиться, що чисельна інтеграція не вдається, але я не думаю, що ніхто не піклується про використання таких розподілів). Тож якщо ви не зацікавлені, скажімо, розривами, які перериваються в нескінченній кількості місць, це має бути відповіддю на ваше запитання: так, ми можемо.
Cliff AB

Власне, якщо відомий, але не F - 1 , це проблема. ЖЖ-1
Сіань

1
Це залежить від того, що ви маєте на увазі під проблемою. Якщо відомий, то відповідно до моєї відповіді F - 1 ( y ) = i n f ( x : F ( x ) y ) завжди добре визначений і може бути вирішений чисельно. Це може бути не таким швидким, як ви хотіли, тож якщо це саме ви маєте на увазі під проблемою, нормально. Якщо це не те, що ви маєте на увазі, то в чому проблема? ЖЖ-1(у)=iнf(х:Ж(х)у)
Марк Л. Стоун

7

Коли розподіл визначається лише його функцією, що генерує момент або його характерною функцією Φ ( t ) = E [ exp { i t X } ] , рідко можна знайти способи отримання цих розподілів.ϕ(t)=E[exp{tX}]Φ(т)=Е[досвід{iтХ}]

Відповідний приклад складається з стійких розподілівα , які не мають відомої форми для щільності або cdf, не функціонування моменту, а характерної функції закритої форми.

У статистиці Байєса задні розподіли, пов'язані з непереборними ймовірностями, або просто набори даних, які занадто великі для розміщення в одному комп'ютері, можна вважати неможливим (точно) імітувати.


Якщо ви знаєте лише функцію, що генерує момент, ви можете скористатися наближенням точок сідла, а потім імітувати їх.
kjetil b halvorsen

1
@ Xi'an Ви пропустили слово "ефективно". У гіршому випадку можна числово перевернути числову інверсію перетворення. Це зробить роботу, можливо, не "ефективно", але це зробить.
Марк Л. Стоун

3
@kjetilbhalvorsen: наближення сідлових точок є рішенням, запропонованим у посиланні, яке я поклав. Але це наближення!
Сіань

2

Припустимо, ви посилаєтесь на постійні дистрибуції. Використовуючи інтегральне перетворення ймовірності , ви можете змоделювати будь-який одновимірний розподіл , імітуючи u ( 0 , 1 ), а потім взявши F - 1 ( u ) . Отже, ми можемо змоделювати єдину форму, тоді ця частина робиться. Єдине, що може перешкоджати моделюванню з F - це те, що ви не можете обчислити його зворотну F - 1 , але це має бути пов'язано з обчислювальними труднощами, а не з теоретичним.Жу(0,1)Ж-1(у)ЖЖ-1


1

Тепер, коли ваше запитання перетворився в «важко зразка з», просто взяти будь-яку модель з нерозв'язними ймовірністю , призначити попередній розподіл в моделі параметрів , і припустимо , що вас цікавить в граничному задньому розподілі одного з записів θ j . Звідси випливає, що потрібно взяти пробу з задньої частини, що є нерозв'язним через непереборність ймовірності.θ=(θ1,...,θd)θj

Існують методи приблизно вибірки з цієї задньої частини в деяких випадках, але точного загального методу на даний момент не існує.


... але питання стосується одноманітних розподілів. Існує маса прикладів складних моделей, коли MCMC не зможе конвергуватися навіть після величезної кількості ітерацій.
Тім

@Tim І саме тому я сказав маргінальний задній , що означає однозначний ... Мені здається, вам не ясно, про що ви питаєте. Перші два відповіді чітко видно з того, що теоретично можна вибирати з будь-якого розподілу за умови, що ви це знаєте.
Ной

1
Я голосую за те, щоб поставити це питання [ВКЛЮЧЕНО], поки ОП не з’ясує, що він задає, і перестане змінювати питання кожного разу, коли з’явиться нова відповідь, щоб зробити відповіді непридатними.
Ной

Я не змінюю свого питання "щоразу, коли з’являється нова відповідь" ... Очевидно, що статистична модель з вірогідністю та попередністю не є однозначною, оскільки вона оголошена в умовах умовного розподілу. Це однозначно, якщо ви робите вибірку з задньої частини, але тоді я здогадуюсь, що ви припускаєте, що у нас вже є граничний розподіл, тому немає проблеми з внутрішньокабельною задньою частиною.
Тім

1
Ви плутаєте маргінальне з однозначним , коли ці два поняття не мають зв'язку. Уніваріат означає, що випадкова величина знаходиться в , а гранична означає, що розподіл може бути представлений як інтеграл проти іншої щільності. Насправді, використовуючи це інтегральне представлення засобів, однофакторний RV може бути змодельований спочатку імітацією багатофакторного rv. R
Сіань

1

(qi)i=1П(Х=qi)=0ii=1П(Х=qi)=0П(ХQ)=1

мкπ(мк)=1


0

Не могли б ви надати будь-який приклад одновимірного розподілу, який неможливо випадково генерувати?

cc

Якщо ви зацікавлені лише у вибірці випадкових змінних, значення яких можна обґрунтовано оцінити за допомогою 64-розрядних чисел з плаваючою комою, або у вас є подібні допуски до кінцевих помилок у значенні, і ви ніколи не представляли ваші зразки машинами Тьюрінга , врахуйте це:

ХБер(p)p=1-c01

0(-,c)1[c,)0(-,0)c[0,1)1[1,)cху-ось. Я не впевнений, що робить вибірку найбільш складною, тому виберіть той, який вам (ні) подобається найбільше ;-)

скажімо, що під "неможливим" ми маємо на увазі також випадки, які є обчислювально дорогими, наприклад, для того, щоб потребувати грубої симуляції, як нанесення величезної кількості зразків, щоб прийняти лише деякі з них.

У цьому випадку очевидна відповідь здається очевидною:

  • нн
  • Відібрати вибір зображень криптографічної хеш-функції (тобто генерувати біткойн та порушувати git та mercurial).
  • Спробовуйте набір оптимальних стратегій Go (з китайськими правилами суперко, які роблять усі ігри кінцевими - наскільки я розумію).

Трохи формальніше: я надаю вам великий екземпляр проблеми NP-завершеної (або EXP-повної та ін.) І прошу вас рівномірно пробити набір рішення для мене.

R-1

Ви можете легко перевірити, чи задовольняє будь-яке присвоєння істини моєму примірнику SAT, і перевіривши їх усе, що ви знаєте, чи є хтось, тому я повністю вказав CDF, давши вам булеву формулу (або схему), але все ж для вибірки відповідного розподілу ви, по суті, повинні стати чимось принаймні таким потужним, як оракул, що розв'язує SAT.


Тож я дав вам незаперечне число, яке повинно кидати пісок у ваші передачі, і я дав вам CDF, який повільно підраховується. Можливо, наступне очевидне питання, яке потрібно задати, є чимось таким: чи існує CDF, представлений у якійсь ефективній формі (наприклад, може бути оцінений у поліноміальний час), таким чином, що важко генерувати зразки з таким розподілом? Я не знаю відповіді на це. Я не знаю відповіді на це.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.