Байєси: раби ймовірності функціонують?


62

У своїй книзі "Вся статистика" професор Ларрі Вассерман подає наступний приклад (11.10, стор. 188). Припустимо , що ми маємо щільність такої , що , де є відомим (невід'ємне интегрируемой) функції і нормалізація постійної є невідомою .f ( x ) = cff(x)=cg(x)c > 0gc>0

Нас цікавлять ті випадки, коли ми не можемо обчислити . Наприклад, може статися так, що - це PDF у дуже великому просторі вибірки.c=1/g(x)dxf

Добре відомо, що існують методи моделювання, які дозволяють зробити вибірку з , хоча невідомо. Отже, головоломка така: Як ми могли оцінити за такою вибіркою?fcc

Професор Вассерман описує таке байєсівське рішення: нехай буде деяким попереднім для . Ймовірність Тому задній не залежить від значень вибірки . Отже, байєсів не може використовувати інформацію, що міститься у зразку, щоб робити висновки про .πcπ ( c x ) c n π ( c ) x 1 , , x n c

Lx(c)=i=1nf(xi)=i=1n(cg(xi))=cni=1ng(xi)cn.
π(cx)cnπ(c)
x1,,xnc

Професор Вассерман зазначає, що "байєси - це раби імовірності функції. Коли ймовірність зіпсується, так буде і висновок Байєса".

Моє запитання до моїх товаришів, що складають штати, таке: Що стосується цього конкретного прикладу, що пішло не так (якщо взагалі) з методом Байєса?

PS Як професор Васерман люб’язно пояснив у своїй відповіді, приклад належить Еду Джорджу.


10
Цей приклад звучить просто як химерний неефективний спосіб провести числову інтеграцію, а не як будь-який байєсівський аналіз.
whuber

2
Як можна сказати, байєсів нічого не дізнається про . Якби це було, ми мали б . Очевидно, що ні. π ( c | x ) π ( c )cπ(c|x)π(c)
ймовірністьлогічний

2
Я не дуже розумію цей приклад. Якщо не залежить від то чи не дивно, що дані не є інформативними, оскільки залежить лише від форми і однаковий для зразка? Я, очевидно, пропускаю якусь тонку (чи не настільки тонку) точку. c c g ( ) a n yg()ccg()any
Дікран Марсупіал

Я надумав формально байєсівський підхід, який може подолати заперечення @ Дзен, не протипоказаний відсутності інтересу Сіану і закінчується лише оцінкою точності чисельної інтеграції.
фанерон

1
Хороший стежити за блозі Ларрі: normaldeviate.wordpress.com/2012/10/05 / ...
Zen

Відповіді:


43

Про це йшлося в моїй роботі (опублікованій лише в Інтернеті) "На прикладі Ларрі Вассермана" [ 1 ] та в обміні блогу між мною Васерманом, Робінсом та деякими іншими коментаторами у блозі Вассермана: [ 2 ]

Коротка відповідь полягає в тому, що Вассерман (і Робінс) генерують парадокси, пропонуючи припущення, що пріори у просторах високого розміру "повинні" мати характеристики, які означають, що параметр, що цікавить, апріорно відомий з близькою впевненістю, або що чітко відповідна проблема (зміщення вибору) відомо з майже визначеною відсутністю. Насправді, розумні пріори не мали б цих характеристик. Я зараз пишу резюме в блозі, щоб скласти це разом. Існує відмінна праця 2007 року, яка демонструє обґрунтовані байесівські підходи до прикладів, які Васерман і Ритов вважають Гамілінг і Туссен: «Баєсові оцінювачі для проблеми Робінса-Ритова» [ 3 ]


12
Дякую за Ваш внесок, професор Сімс. Чи згодні ви з моєю відповіддю нижче? PS Зараз у нас є Нобелівські премії, які розміщують в SE. Як щодо цього? nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html
Zen

1
@ChrisSims професор Сімс Дякую за те, що ви приїхали і роздували мою відповідь вашою дуже авторитетною відповіддю!
Майкл Черник

4
Мене насторожує той факт, що ця відповідь має найбільшу кількість голосів (на даний момент). Як зазначає проф. Вассерман, відповідь професора Сімса - це зовсім інша головоломка, ніж та, про яку питав Дзен. Я вважаю, що більшість людей схвалює це, не читаючи і не розуміючи посилань, які надали Сімси.
Cyan

3
Cyan, коментарі професора Сіма щодо цієї головоломки можна знайти у Посиланні [1], WassermanComment.pdf, с. 10, розділ VII. Постскрипт 2.
madprob

43

Я не бачу великого привабливості в цьому прикладі, особливо. як потенційна критика байесів і правдоподібних валлов .... Константа відома, що дорівнює Якщо є єдиним " невідомо »в картині, оскільки зразок , то немає статистичного питання про проблему , і я не згоден , що існує оцінювач з . Ані пріори на (крім маси Дірака за вказаним вище значенням). Це не принаймні статистична проблема, а скоріше числове питання.c

1/Xg(x)dx
cx1,,xncc

Те, що вибірку можна використовувати через (частоту) оцінку щільності, щоб забезпечити числове наближення є простою цікавістю. Не критика альтернативних статистичних підходів: я також міг би використовувати байєсівську оцінку щільності ...x1,,xnc


4
Неможливо почати з належного попереднього і закінчити з неправильним задньою, якщо ймовірність є справжньою умовною щільністю!
Сіань

Як визначити різницю між невідомою константою та параметром? У вступі до ймовірності, де Фінетті розглядає можливість усунення вашої невизначеності для . Чи вважає де Фінетті як-небудь відмінним від ? Якщо ні, чи спостереження за даними змінить його невизначеність щодо ? Також щодо невідомих констант / параметрів. Скажімо, Аліса вибирає константу і типів у , . Хоча - невідома константа, Боб зміг би отримати його попереднє для і використовувати щоб дізнатися проπcπX1,X2,,XnccRx=rnorm(100,c,1)ccxc. Чому у прикладі Вассермана відрізняється? c
madprob

3
Я не де Фінетті, тому не можу відповісти за нього!
Сіань

3
Ваш приклад статистичний: я отримую спостереження, основний розподіл яких регулюється невідомим параметром c . Приклад Ларрі (або Еда!) Не є статистичним: розподіл вибірки повністю відомий і не визначається невідомим параметром c . Далі це пояснюється відповіддю Дзен : ви просто не можете написати не закінчуючи парадоксами, оскільки існує лише одне можливе значення c. f(x1,,xn|c)
Сіань

40

Я згоден, що приклад дивний. Я мав на увазі, що це справді більше головоломки. (Приклад насправді пов'язаний з Ед Джорджем.)

Воно ставить питання про те, що означає щось "відоме". Крістіан каже, що відомо. Але, принаймні, з чисто суб'єктивної точки зору ймовірності, ви цього не знаєте лише тому, що це в принципі можна знати. (Припустимо, ви не можете виконати числовий інтеграл.) Суб'єктивний баєсій розглядає все як випадкову змінну з розподілом, включаючи .cc

У будь-якому випадку, папір

А. Конг, П. Мак-Каллах, X.-L. Менг, Д. Ніколае та З. Тан (2003), Теорія статистичних моделей інтеграції Монте-Карло , Дж. Королівська статистика. Соц. Б , вип. 65, ні. 3, 585–604

(з обговоренням) трактує по суті ту ж проблему.

Приклад, на який натякає Кріс Сімс, має зовсім інший характер.


3
Професор Вассерман Дякую, що ви прийшли та пояснили ваш приклад та його історію. Я був аспірантом Стенфорда і перегукувався з Едом Джорджем. Департамент статистики Стенфорда в ті часи був дуже не-байесівським, хоча з Ефроном та Штеєм ми опинилися на межі емпіричного Байєса. Відділ був дуже відкритим, хоча Денніс Ліндлі дав дипломний курс байєсівської статистики, який я взяв одного літа. Якось Ед перетворився на повноцінного байесівця і навіть написав документ про вибірки Гіббса для манекенів (хоча не з таким заголовком, звичайно).
Майкл Черник

1
Мені подобається читати ваші маленькі книжки "Вся статистика" та "Усі непараметричні".
Майкл Черник

1
можливо не зовсім випадково, я обговорював цей документ Kong і співавт. (2003), здебільшого негативно ставлячись до ефективності використання групових перетворень на міру, а не на розподіл. Останнім часом Сяо-Лі налаштовував мене на більш позитивне сприйняття газети ...
Сіань

1
"Припустимо, ви не можете виконати числовий інтеграл." Я розумію, що логічна невизначеність (це є прикладом) протистояла аналізу, незважаючи на значні зусилля.
Джон Сальватьє

За тією ж логікою, що невідомо, тому що ви не можете її обчислити, я думаю, вам також доведеться зробити висновок, що функція "невідома", і поставити пріоритет на функціональний простір, в якому він живе. Звичайно, ви "знаєте" , , ... тому що ви можете оцінити , але з точки зору функціонального аналізу я стверджую, що ви не знаєте, що таке функція, якщо ви не зможете перевірити її на будь-якому елементі подвійного простору, такого як інтеграційний функціонал. cgg(x1)g(x2)g
Нік Алгер

23

Запропонована статистична модель може бути описана наступним чином : У вас є відома неотрицательная інтегрована функція , і неотрицательная випадкова величина . Випадкові величини повинні бути умовно незалежними і однаково розподіленими, враховуючи, що , з умовною щільністю , для .g:RRCX1,,XnC=cfXiC(xic)=cg(xi)c>0

На жаль, загалом це не є коректним описом статистичної моделі. Проблема полягає в тому, що, за визначенням, має бути щільністю ймовірності майже для кожного можливого значення , що, в цілому, явно помилкове. Насправді це справедливо лише для одного значення . Тому модель правильно задається лише в тривіальному випадку, коли розподіл сконцентровано саме на цьому значенні. Звичайно, нас ця справа не цікавить. Ми хочемо, щоб розподіл переважав міра Лебега, маючи хороший pdf .fXiC(c) cc=(g(x)dx)1CCπ

Отже, визначаючи , вираз прийнятий як функція з , при фіксованому , не відповідає справжньої функції правдоподібності.x=(x1,,xn)

Lx(c)=i=1n(cg(xi)),
cx

Все після цього успадковується від цієї проблеми. Зокрема, задня обчислена теорема Байєса є хибною. Це легко зрозуміти: припустимо, що у вас є належний пріоритет Зауважте, що . Відповідно до обчислень, представлених у прикладі, задній повинен бути Але якщо це правильно, ця задня частина була б завжди неправильною, тому що розбіжності для кожного розміру вибірки .

π(c)=1c2I[1,)(c).
0π(c)dc=1
π(cx)1c2nI[1,)(c).
01c2nI[1,)(c)dc
n1

Це неможливо: ми знаємо, що якщо ми розпочнемо з належного попереднього, наш задній не може бути неправильним для кожного можливого зразка (це може бути неправильно всередині набору нульової попередньої прогнозованої ймовірності).


Мені шкода, що ніхто не коментував вашу відповідь. Я думаю, у вас може бути точка, але я трохи спантеличений. Безумовно, ви можете поставити дійсні попередні розподіли на додатні реальні числа. Чому ви не могли б визначити щільність ймовірності f для кожного c> 0, якщо g неотрицательный, має кінцевий інтеграл на R ? +
Майкл Черник

1
Привіт, Майкл. Звичайно, ви можете: Gamma, Lognormal тощо, і т. Д. Я не бачу, як це пов'язано з відповіддю. Напевно, я не розумію, що ти говориш.
Дзен

Що ж, у мене виникають проблеми з дотриманням ваших аргументів. Ви кажете, що умовна щільність для f існує лише для одного c, але це неправда. Я не бачу, чому вираз для ймовірності недійсний і як ви отримуєте доказ протиріччя, вважаючи належним попереднє і якимось чином показуючи, що це призводить до неправильного заднього розподілу.
Майкл Черник

Мені здається, що суть проблеми полягає в тому, що дані дійсно не залежать від c і не містять інформації про c. Я думаю, ви можете сказати, що існує функція ймовірності, що включає c, але ця ймовірність не може бути максимально використана як функція c. Я думаю, що для кожного вибору c є f = cg.
Майкл Черник

4
Будь-який належний попередній момент, який не має п ятого моменту, також би працював у вашому прикладі. Я згоден, це корисний спосіб показати, що щось не так. Моє мислення більше, ніж попереднє не базується на знаннях . Оскільки ви знаєте Існує лише одна попередня відповідність цій інформації. Це функція дельта-дельта . Використовувати будь-яку іншу попередньо логічно неправильно. Це на зразок висловлювання коли не залежить від заданогоg ( . ) p ( c | g ( . ) ) = δ ( c - 0 g ( x ) d x ) p ( Z | X Y ) p ( Z | X ) Y Z Xg(.)g(.)p(c|g(.))=δ(c0g(x)dx)p(Z|XY)p(Z|X)YZX
ймовірністьлогічний

11

Приклад трохи дивний і надуманий. Причина ймовірності збивається в тому, що g - відома функція. Єдиний невідомий параметр - c, який не є частиною ймовірності. Також оскільки g відомий, дані не дають вам інформації про f. Коли ви бачите таке на практиці? Отже, задній просто пропорційний попередньому, і вся інформація про c знаходиться в попередньому.

Гаразд, але подумайте. Часто користувачі використовують максимальну ймовірність, і тому часто філософія іноді покладається на функцію ймовірності. Ну а частофіліст може оцінювати параметри іншими способами. Але ця підготовлена ​​проблема має лише один параметр c і в даних про c немає інформації. Оскільки g відомий, немає статистичної проблеми, пов'язаної з невідомими параметрами, які можна виділити з періоду даних.


Дякую, Майкл. Дивна ситуація, чи не так? Професор Вассерман пропонує наступний спосіб оцінити : взяти будь-який (частоватий) послідовний оцінювач щільності (наприклад, якийсь оцінювач ядра, наприклад). Виберіть довільну точку та зауважте, що - послідовний оцінювач . cf^fxc^=f^(x)/g(x)c
Дзен

4
@ Zen Добре, візьмемо цей приклад. Навіщо взагалі збирати будь-які дані? Ми знаємо, g. Таким чином, ми можемо чисельно інтегрувати його для визначення c до будь-якого рівня точності, який ми бажаємо, не потребуючи нічого оцінювати! Припущення, що ми не можемо обчислити c, що означає, що навіть якщо ми знаємо g як функцію x, ми не можемо інтегрувати його! Я думаю, що його приклад є слабким, і це є аргументом, і мені подобаються його книги в цілому.
Майкл Черник

11

Існує іронія, що стандартним способом зробити байєсівські обчислення є використання частотистського аналізу зразків MCMC. У цьому прикладі ми можемо вважати, що тісно пов'язаний з граничною ймовірністю, яку ми хотіли б обчислити, але ми будемо байєрськими пуристами в тому сенсі, щоб спробувати також зробити обчислення байєсівським способом.c

Це не є загальним явищем, але можливо зробити цей інтеграл у байєсівських рамках. Це включає в себе встановлення пріоритету функції (на практиці процес Гаусса), оцінюючи функцію в деяких точках, обумовлюючи ці точки і обчислюючи інтеграл над задньою над . У цій ситуації ймовірність передбачає оцінку у ряді балів, але інакше невідома, тому ймовірність сильно відрізняється від ймовірності, наведеної вище. Метод продемонстрований у цій статті http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdfg()g()g()g()

Я не думаю, що з методом Байєса щось не пішло. Ймовірність, як письмові трактує як відомо скрізь. Якби це було так, тоді не було б жодного статистичного аспекту проблеми. Якщо вважається невідомим, за винятком кінцевої кількості балів, методологія Баєса спрацює нормально.g()g()


Здивований, що цього питання більше не має. Це потрапляє до основи проблеми, що є неоднозначним твердженням, що ви «знаєте», що таке функція, лише тому, що ви можете її оцінити в будь-якій точці. Я вважаю, що більш прийнятним критерієм сказати, що ви знаєте функцію, є можливість оцінювати будь-який безперервний лінійний функціонал на ній.
Нік Алгер

@ Nick Alger: Люди втратили інтерес. Я не заявляю, тому що я не переконаний, що це Байєс - чи посилається xi у множині D (xi, f (xi)) на xi, що спостерігається в дослідженні, або випадково породжене ними? Якщо це перший, це Байєс, але його дуже легко перемогти за допомогою простого МС з кількома секундами обчислювального часу (щоб він не працював нормально) або його не Байєса (не обумовлював дані).
фанерон

-2

Ми могли б розширити визначення можливих знань (аналогічно розширенню даних, щоб дозволити відсутнім даним для даної, яка спостерігалася, але була втрачена), щоб включити NULL (дані не генеруються).

Припустимо, що у вас є належний попередній Тепер визначимо модель даних для x

π(c)=1c2I[1,)(c).

Якщоc=(g(x)dx)1

fXaC(xac)fXiC(xic)=c1g(xi) {a для будь-якого}

ІнакшеfaXaC(xac)=0

Таким чином, задній буде 0 або 1 (належним), але ймовірність наведеної вище моделі даних недоступна (тому що ви не можете визначити умову, необхідну в моделі даних.)

Так ви робите ABC.

Накресліть "с" з попереднього.

Тепер наблизьте за деякою числовою інтеграцією і збережіть "c", якщо це наближення - "c" <epsilon.(g(x)dx)1

Збережене "с" буде наближенням справжнього заднього.

(Точність наближення буде залежати від епсилона та достатності кондиціонування цього наближення.)


-5

Чекати, що? У вас це залежить від значень . Тільки те, що ти ховаєш залежність у " ", не означає, що ти можеш її ігнорувати?{ x i }

π(c|x)=(Πig(xi))cnπ(c),
{xi}

2
Шановний плутати: вищевказане рівняння неправильне. Де знаменник (гранична ймовірність )? Розділіть на і ви побачите, що . "Задні" в книзі неправильні з інших причин. Будь ласка, перевірте мою відповідь. f ( x c )xn i = 1 г ( x i )f(xc)π(c)dci=1ng(xi)
Дзен
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.