Вибір моделі Баєса і надійний інтервал


10

У мене є набір даних із трьома змінними, де всі змінні є кількісними. Нехай називаємо це , та . Я підганяю регресійну модель в байєсівській перспективі через MCMCyx1x2rjags

Я зробив дослідницький аналіз, і розсіювання дозволяє припустити використання квадратичного терміна. Тоді я прилаштував дві моделіy×x2

(1)у=β0+β1х1+β2х2

(2)у=β0+β1х1+β2х2+β3х1х2+β4х12+β5х22

У моделі 1 розмір ефекту кожного параметра не малий, а 95% достовірний інтервал не містить значення .0

У моделі 2 розмір ефекту параметрів та невеликий, і кожен з достовірних інтервалів для всіх параметрів містить .β3β40

Той факт, що достовірний інтервал містить , достатньо, щоб сказати, що параметр не є значущим?0

Потім я скоригував таку модель

(3)у=β0+β1х1+β2х2+β3х22

Розмір ефекту кожного параметра не малий, але за винятком всі достовірні інтервали містять .β10

Який правильний спосіб зробити змінний вибір у байєсівській статистиці?

EDIT: Я можу використовувати Лассо в будь-якій регресійній моделі, як Beta модель? Я використовую модель зі змінною дисперсією, де де - вектор. Я також повинен використовувати Laplace попередньо в ?

лог(σ)=-δδХ
δδδδ

EDIT2: Я встановив дві моделі: одну з апріорі Гаусса для , та одну з Лапласа (подвійний показник).βjδj

Оцінки для Гауссової моделі є

            Mean      SD  Naive SE Time-series SE
B[1]     -1.17767 0.07112 0.0007497      0.0007498
B[2]     -0.15624 0.03916 0.0004128      0.0004249
B[3]      0.15600 0.05500 0.0005797      0.0005889
B[4]      0.07682 0.04720 0.0004975      0.0005209
delta[1] -3.42286 0.32934 0.0034715      0.0034712
delta[2]  0.06329 0.27480 0.0028966      0.0028969
delta[3]  1.06856 0.34547 0.0036416      0.0036202
delta[4] -0.32392 0.26944 0.0028401      0.0028138

Оцінки для моделі Лассо є

              Mean      SD  Naive SE Time-series SE
B[1]     -1.143644 0.07040 0.0007421      0.0007422
B[2]     -0.160541 0.05341 0.0005630      0.0005631
B[3]      0.137026 0.05642 0.0005947      0.0005897
B[4]      0.046538 0.04770 0.0005028      0.0005134
delta[1] -3.569151 0.27840 0.0029346      0.0029575
delta[2] -0.004544 0.15920 0.0016781      0.0016786
delta[3]  0.411220 0.33422 0.0035230      0.0035629
delta[4] -0.034870 0.16225 0.0017103      0.0017103
lambda    7.269359 5.45714 0.0575233      0.0592808

У estimatives для і зменшений багато в моделі Lasso, це означає , що я повинен видалити ці змінні з моделі?δ2δ4

EDIT3: Модель з подвійним експоненціальним попереднім (Лассо) дає мені більші значення Девіантності, BIC та DIC, ніж модель з Гауссовими пріорами, і я навіть отримую менші значення після зняття коефіцієнта дисперсії в гауссовій моделі.δ2


2
Розділ 18.4 DBDA2E * стосується вибору змінної в множинній регресії. З великою обережністю можна вводити показники включення з кожним коефіцієнтом і дивитися на задню ймовірність включення. При інтерпретації заднього розподілу параметрів 95% ІРЧ, включаючи нуль, не вказує на еквівалентність нулю. * DBDA2E = Проведення аналізу даних Bayes 2-го видання.
Джон К. Крушке

2
Природний спосіб порівняння моделей у байєсівських рамках - це граничні ймовірності, а не достовірні інтервали. Альтернативою, пов'язаною з усередненням моделі, є використання представлення суміші та висновок про ваги кожної моделі / компонента, якій моделі надають перевагу дані.
Сіань

@ Xi'an, але порівняння двох або більше моделей через граничну ймовірність не було б таким самим, як використання факторів Байєса, якби всі моделі отримали однакову попередню ймовірність?
DeltaIV

Шановний професоре Крушке, у мене виникають сумніви щодо обчислення інтервальних інтервалів. Що я зрозумів, що може бути багато достовірних інтервалів залежно від правдоподібності задньої частини, заснованої на різних пріорах. Але тут як вирішити, які пріори є найбільш правдоподібними, що, в свою чергу, дає найбільш правдоподібну задню частину? Інше питання полягає в тому, що я використовую Variational Inference (VI) для обчислення плакатів і врешті-решт обчислюю нижню межу доказів моделі. Як обчислити достовірний інтервал для плакатів у випадку VI? Крім того, як діяти за фактором Байєса у випадку VI?
Сандіпан Кармакар

Відповіді:


9

Добре відомо, що побудувати модель на основі того, що є суттєвим (або яким-небудь іншим критерієм, таким як AIC, чи достовірний інтервал містить 0 і т.д.), є досить проблематичним, особливо якщо ви робите висновок так, як ніби ви не робили побудови моделі. Проведення байєсівського аналізу цього не змінює (див. Також https://stats.stackexchange.com/a/201931/86652 ). Тобто ви не повинні робити вибір змінних, а скоріше моделювання усереднення (або щось, що може отримати вам кілька нульових коефіцієнтів, але відображає весь процес моделювання, наприклад, LASSO або еластична сітка).

Вибір байесівської моделі більш типово ображений як усереднення байесівської моделі. У вас різні моделі, кожна з яких відрізняється попередньою ймовірністю. Якщо ймовірність задньої моделі для моделі стає досить низькою, ви по суті повністю відмовляєтесь від моделі. Для рівних попередніх ваг для кожної моделі та плоских пріорів, модель усереднення з вагами, пропорційнимидосвід(-BIC/2) для кожної моделі це приблизно.

Можна альтернативно виразити усереднення моделі як попереднє, що є сумішшю між точковою масою (вага точкової маси - це попередня ймовірність ефекту, що точно дорівнює нулю = ефекту немає в моделі) та безперервного розподілу (наприклад, шиповидні та плитні пріори). Відбір проб MCMC може бути досить важким для такого попереднього.

Карвальо та ін. попередньо мотивуйте усадку підкови, запропонувавши, що вона працює як суцільне наближення до шип-плити до цього. Це також випадок вбудовування проблеми в ієрархічну модель, де певною мірою розмір та наявність ефектів на деякі змінні трохи послаблюють необхідні докази для інших (через глобальний параметр усадки це трохи нагадує помилкове виявлення контроль швидкості), а з іншого боку дозволяють окремим ефектам самостійно діяти, якщо докази є досить ясними. Є зручна його реалізація, доступна з пакету brms R, який базується на Stan / rstan . Існує ряд інших подібних пріоритетів, таких як підкова + попередня, і вся тема - це область постійних досліджень.


Баєсійський Лассо такий, як це stats.stackexchange.com/questions/28609/… ? Я модель з дисперсійною змінною Я повинен використовувати подвійний показник експонентів і для цих параметрів?

2

Існує ряд формальних методів вибору змінної Байєса. Дещо застарілий огляд методів відбору байесівських змінних представлений у:

Огляд методів вибору змінних Баєса: що, як і що

Більш недавній огляд, який також включає порівняння різних методів та продуктивності R-пакетів, де вони реалізовані:

Методи та інструменти для вибору варіантів байесівських змінних та моделювання усереднення в універсальній лінійній регресії

Ця посилання особливо корисна тим, що вона вказує на конкретні пакети R, де вам просто потрібно підключити відповіді та значення коваріату (а в деяких випадках і значення гіперпараметра), щоб запустити вибір змінної.

Інший, швидкий і брудний і нерекомендуваний спосіб проведення вибору змінної "Баєса" - це використання поетапного вибору (вперед, назад, обидва), використовуючи BIC і R-команду stepAIC (), яку можна налаштувати для виконання вибору з точки зору BIC.

https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html

Ще один швидкий і брудний спосіб тестування β4=0 це за допомогою співвідношення щільності Savage-Dickey та заднього моделювання, яке ви вже отримали:

https://arxiv.org/pdf/0910.1452.pdf


Я думаю, що питання задається питанням, чому всі три параметри в моделі 3 мають достовірні області, що містять 0, а не є чи ні β4дорівнює 0.
Майкл Р. Черник

@MichaelChernick Тоді чому ОП запитує "In this case is reasonable say that $\beta_4\neq 0$"? і "Which is the right way to do variable selection in Bayesian statistics"?
CTHULHU

Я пропустив цю частину питання, але не думаю, що це було головним питанням.
Майкл Р. Черник

1
@MichaelChernick Ну, мабуть, ОП має останнє слово тут ...
CTHULHU

1

Вся ідея байєсівської статистики відрізняється від частолістського підходу. Таким чином, я думаю, що використання значущих термінів не є точним. Я думаю, що читач повинен вирішити, чи будуть результати (розподіл), які ви отримаєте від вашої моделі, для своїхβє для нього надійними або довірливими. Це завжди залежить від самого розподілу. Наскільки це перекошене і широке і яка частина площі нижче нуля?

Ви також можете знайти приємну лекцію з цієї теми тут за 41:55:

https://vimeo.com/14553953


Я додав приклад гістограми однієї змінної, яка містить достовірний інтервал 0ви могли поглянути?

1
Повернення з вихідних. Де ми можемо знайти гістограму?
burton030
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.