Регресія Байєса: як це робиться порівняно зі стандартною регресією?


57

У мене виникли питання щодо байєсівської регресії:

  1. Дано стандартну регресію як . Якщо я хочу змінити це в Байєсова регресію, чи потрібно мені апріорні розподілу як для і (або вона не працює таким чином)?y=β0+β1x+εβ0β1

  2. У стандартній регресії намагаються мінімізувати залишки, щоб отримати одиничні значення для та . Як це робиться при регресії Байєса?β0β1


Я дійсно тут багато борюся:

posterior=prior×likelihood

Ймовірність походить від поточного набору даних (тож це мій параметр регресії, але не як єдине значення, а як розподіл ймовірності, правда?). Пріоритет є попереднім дослідженням (скажімо). Тому я отримав це рівняння:

y=β1x+ε

з моєю ймовірністю чи задньою (чи це просто зовсім неправильно)? β1

Я просто не можу зрозуміти, як стандартна регресія перетворюється на Баєсову.

Відповіді:


93

Проста модель лінійної регресії

yi=α+βxi+ε

можна записати з точки зору ймовірнісної моделі, що стоїть за нею

μi=α+βxiyiN(μi,σ)

тобто залежна змінна слідує за нормальним розподілом, параметризованим середнім , тобто лінійною функцією параметризованою , і стандартним відхиленням . Якщо ви оцінюєте таку модель, використовуючи звичайні найменші квадрати , вам не доведеться турбуватися про ймовірнісну формулювання, оскільки ви шукаєте оптимальні значення параметрів , зводячи до мінімуму похибки квадрата вбудованих значень до прогнозованих значень. З іншого боку, ви можете оцінити таку модель, використовуючи максимальну оцінку ймовірності , де ви б шукали оптимальні значення параметрів, максимізуючи функцію ймовірності.µ i X α , β σ α , βYμiXα,βσα,β

argmaxα,β,σi=1nN(yi;α+βxi,σ)

де - функція щільності нормального розподілу, що оцінюється в точках , параметризована засобами та стандартним відхиленням .y i α + β x i σNyiα+βxiσ

У баєсовському підході замість максимізації функції лише ймовірності ми вважаємо попередні розподіли для параметрів і використовуємо теорему Байєса

posteriorlikelihood×prior

Функція ймовірності така ж, як вище, але те, що змінюється, полягає в тому, що ви припускаєте деякі попередні розподіли для оцінюваних параметрів та включаєте їх до рівнянняα,β,σ

f(α,β,σY,X)posteriori=1nN(yiα+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors

"Які розподіли?" інше питання, оскільки існує необмежена кількість варіантів. Для параметрів можна, наприклад, припустити звичайні розподіли, параметризовані деякими гіперпараметрами , або -розподіл, якщо ви хочете зробити більш важкі хвости, або рівномірний розподіл, якщо ви не хочете робити багато припущень, але ви хочете припустити що параметри можуть бути апріорі "будь-що в заданому діапазоні" і т. д. Для вам потрібно припустити деякий попередній розподіл, який повинен бути більшим за нуль, оскільки стандартне відхилення повинно бути додатним. Це може призвести до формулювання моделі, як показано нижче Джон К. Крушке.t σα,βtσ

Постановка моделі Байєсової лінійної регресії

(джерело: http://www.indiana.edu/~kruschke/BMLR/ )

Хоча з максимальною ймовірністю ви шукали єдине оптимальне значення для кожного з параметрів, в баєсовському підході, застосовуючи теорему Байєса, ви отримуєте задній розподіл параметрів. Остаточна оцінка залежатиме від інформації, яка надходить від ваших даних та від ваших пріорів , але чим більше інформації міститься у ваших даних, тим менш впливовими є пріори .

Зауважте, що при використанні рівномірних пріорів вони набувають форми після скидання нормалізуючих констант. Це робить теорему Байєса пропорційною лише ймовірності функціонування, тому задній розподіл досягне свого максимуму точно в тій же точці, що і максимальна оцінка ймовірності. Далі, оцінка за однорідними пріорами буде такою ж, як і за допомогою звичайних найменших квадратів, оскільки мінімізація помилок у квадраті відповідає максимізації нормальної ймовірності .f(θ)1

Для оцінки моделі в баєсовському підході в деяких випадках можна використовувати кон'юговані пріори , тому задній розподіл безпосередньо доступний (див. Приклад тут ). Однак у переважній більшості випадків задній розподіл не буде доступний безпосередньо, і вам доведеться використовувати методи Маркова ланцюга Монте-Карло для оцінки моделі (перевірте цей приклад використання алгоритму Metropolis-Hastings для оцінки параметрів лінійної регресії). Нарешті, якщо вас цікавлять лише точкові оцінки параметрів, ви можете використовувати максимум післяофіційну оцінку , тобто

argmaxα,β,σf(α,β,σY,X)

Для більш детального опису логістичної регресії ви можете перевірити байєсівську модель Logit - інтуїтивне пояснення? нитка.

Щоб дізнатися більше, ви можете перевірити наступні книги:

Kruschke, J. (2014). Проведення аналізу даних Bayes: Навчальний посібник з R, JAGS та Stan. Академічна преса.

Гельман, А., Карлін, Дж. Б., Стерн, Х. С., і Рубін, Д. Б. (2004). Байєсівський аналіз даних. Chapman & Hall / CRC.


2
+1 З огляду на те, як задано питання, я, можливо, ще трохи наголошу на цій філософській різниці: У звичайних найменших квадратах та максимальній оцінці ймовірності ми починаємо з питання "Які найкращі значення для (можливо, для подальшого використовувати)? " βi, тоді як при повному байєсівському підході ми починаємо з питання "Що можна сказати про невідомі значення ?" а потім, можливо, перейдіть до використання максимуму середнього або заднього значення, якщо потрібна бальна оцінка. β iβi
JiK

2
+1. Ще одна річ, яка може бути корисною для уточнення взаємозв'язку між байєсівським та OLS-підходом, - це те, що OLS можна розуміти як заднє середнє під плоским попереднім (принаймні, наскільки я розумію). Було б чудово, якби ви могли детальніше розібратися в цьому у своїй відповіді.
амеба каже, що відбудеться Моніка

@amoeba це вдалий момент, я подумаю про це. Але з іншого боку, я не хочу робити відповідь занадто довго, тому є сенс в деталях.
Тім

1
@amoeba FYI, я додав короткий коментар до цього.
Тім

22

Враховуючи набір даних де , байєсова лінійна регресія моделює проблему в наступний спосіб:D=(x1,y1),,(xN,yN)xRd,yR

До:

wN(0,σw2Id)

w вектор , тому попередній розподіл є багатоваріантним гауссом; а - матриця ідентичності .(w1,,wd)TIdd×d

Ймовірність:

YiN(wTxi,σ2)

Будемо вважати, щоYiYj|w,ij

Зараз ми використаємо точність замість дисперсії, , і . Будемо також вважати, що відомі.a=1/σ2b=1/σw2a,b

Попередній можна вказати як

p(w)exp{b2wtw}

І ймовірність

p(D|w)exp{a2(yAw)T(yAw)}

де і є матрицею , де I-й рядок є .y=(y1,,yN)TAn×dxiT

Тоді задній -

p(w|D)p(D|w)p(w)

Після багатьох обчислень ми виявляємо це

p(w|D)N(w|μ,Λ1)

де ( - матриця точності)Λ

μ = a Λ - 1 A T y

Λ=aATA+bId
μ=aΛ1ATy

Зауважте, що дорівнює регулярної лінійної регресії, це тому, що для Гаусса середнє значення дорівнює режиму.μwMAP

Також ми можемо скласти деяку алгебру над і отримати таку рівність ( ):μΛ=aATA+bId

μ=(ATA+baId)1ATy

і порівняйте з :wMLE

wMLE=(ATA)1ATy

Додатковий вираз в відповідає попередньому. Це схоже на вираз для регресії Рейда, для особливого випадку, коли . Регресія хребта є більш загальною, оскільки методика може вибрати неправильні пріори (в байєсівській перспективі).μλ=ba

Для прогнозного заднього розподілу:

p(y|x,D)=p(y|x,D,w)p(w|x,D)dw=p(y|x,w)p(w|D)dw

це можна порахувати

y|x,DN(μTx,1a+xTΛ1x)

Довідка: Lunn et al. КУРСЬКА книга

Для використання такого інструменту MCMC, як JAGS / Stan, перевірте аналіз даних Kruschke's Doing Bayesian


Дякую jpneto. я відчуваю, що це чудова відповідь, але я ще не розумію цього через відсутність математичних знань. Але я обов'язково прочитаю його ще раз, коли
здобудуть

1
Це дуже приємно, але припущення, що точність відома, є дещо рідкісним. Чи не набагато частіше припускати зворотний розподіл гамми для дисперсії, тобто розподіл гамми для точності?
DeltaIV

+1. Чи можете ви прокоментувати трохи більше "Регресія хребта більш загальна, тому що методика може вибрати неправильні пріорі"? Я не розумію. Я думав, що RR = гауссова (належна) до . w
амеба каже, що повернеться до Моніки

@amoeba: Гауссова пріоритет є але може бути нульовим, що призводить до неправильного попереднього, тобто це призводить до MLE. λwN(0,λ1Id)λ
jpneto

1
@DeltaIV: впевнений, що коли ми маємо невизначеність щодо параметра, ми зможемо моделювати це з попереднім. Припущення про відому точність полягає у спрощенні пошуку аналітичного рішення. Зазвичай такі аналітичні рішення неможливі, і ми повинні використовувати наближення, наприклад, MCMC або якусь варіативну методику.
jpneto
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.