Байєсівська модель Logit - інтуїтивне пояснення?


11

Я мушу зізнатися, що раніше я не чув про цей термін в жодному з моїх класів, нижчих класів чи ступенів.

Що означає для логістичної регресії бути баєсівською? Я шукаю пояснення з переходом від звичайної логістичної до байесівської логістики, подібної до наступної:

Це рівняння в моделі лінійної регресії: .E(y)=β0+β1x1+...+βnxn

Це рівняння в моделі логістичної регресії: . Це робиться, коли y категорично.ln(E(y)1E(y))=β0+β1x1+...+βnxn

Що ми зробили - це змінити на .ln ( E ( y )E(y)ln(E(y)1E(y))

Отже, що зроблено з логістичною регресійною моделлю в Баєсовій логістичній регресії? Я здогадуюсь, що це не те, що стосується рівняння.

Здається, цей попередній перегляд книги визначає, але я не дуже розумію. Що це все за попередні, правдоподібні речі? Що таке ? Може, будь-хто, будь-ласка, пояснить цю частину книги чи байєсівську модель логіту по-іншому?α

Примітка: Про це питали і раніше, але не дуже відповіли.


1
Я не хочу ставити це у відповідь, тому що я думаю, що @Tim більшу частину цього висвітлював. Єдине, чого не вистачає у цій інакшій великій відповіді, - це те, що в Баєсовій логістичній регресії та байєсівських узагальнених лінійних моделях (ГЛМ) загалом попередні розподіли розміщуються не тільки над коефіцієнтами, але над дисперсіями та коваріацією цих коефіцієнтів. Це надзвичайно важливо зазначити, оскільки однією з ключових переваг байєсівського підходу до ГЛМ є більша простежуваність конкретизації, а в багатьох випадках також пристосування складних моделей для коваріації коефіцієнтів.
Зрив рівноваги

2
@BrashEquilibrium: ви згадуєте про можливе розширення ієрархічного стандарту байєсівського моделювання для моделі logit. У нашій книзі ми використовуємо, наприклад , д-до на «с, до якої фіксованої ковариационной матриці виходить з коваріата . XβX
Сіань

1
Досить справедливо на р.
Brash Equilibrium

1
Це сказало, що ще є пріоритет на товариство !!!!!! Якщо ви не обговорюєте це, ви не описуєте, як повністю працює логістична регресія.
Brash Equilibrium

Відповіді:


19

Логістичну регресію можна описати як лінійну комбінацію

η=β0+β1X1+...+βkXk

що передається через функцію зв'язку :g

g(E(Y))=η

де функцією зв'язку є функція logit

E(Y|X,β)=p=logit1(η)

де приймають лише значення у а зворотна функція logit перетворює лінійну комбінацію в цей діапазон. На цьому закінчується класична логістична регресія.{ 0 , 1 } ηY{0,1}η

Однак якщо ви пам'ятаєте, що для змінних, які приймають лише значення в , ніж можна вважати . У цьому випадку висновок функції logit можна розглядати як умовну ймовірність "успіху", тобто . Розподіл Бернуллі - це розподіл, який описує ймовірність спостереження бінарного результату, з деяким параметром , тому ми можемо описати як{ 0 , 1 } E ( Y | X , β ) P ( Y = 1 | X , β ) P ( Y = 1 | X , β ) p YE(Y)=P(Y=1){0,1}E(Y|X,β)P(Y=1|X,β)P(Y=1|X,β)pY

yiBernoulli(p)

Тож за допомогою логістичної регресії ми шукаємо деякі параметри які тогедер з незалежними змінними утворюють лінійну комбінацію . У класичній регресії (вважаємо, що функція зв'язку є функцією тотожності), проте для моделі яка приймає значення в нам потрібно перетворити так, щоб відповідати в діапазоні [ 0 , 1 ] .X η E ( Y | X , β ) = η Y { 0 , 1 }βXηE(Y|X,β)=ηY{0,1}η[0,1]

Тепер для оцінки логістичної регресії байєсівським способом ви підбираєте деякі пріори для параметрів як у випадку лінійної регресії (див. Kruschke et al, 2012 ), а потім використовуєте функцію logit для перетворення лінійної комбінації η , щоб використовувати її вихід як p параметр розподілу Бернуллі, який описує ваш YβiηpY зміннуОтже, так, ви фактично використовуєте рівняння та функцію зв'язку logit так само, як і у випадку частоценціоніста, а решта працює (наприклад, вибираючи пріори), як при оцінці лінійної регресії байєсівським способом.

Простий підхід для вибору пріорів полягає у виборі нормальних розподілів (але ви також можете використовувати інші розподіли, наприклад, - або розподіл Лапласа для більш надійної моделі) для β i s з параметрами μ i та σ 2 i , які задані або взяті з ієрархічні пріори . Тепер, маючи визначення моделі, ви можете використовувати програмне забезпечення, таке як JAGS, щоб виконати моделювання Markov Chain Monte Carlo, щоб оцінити модель. Нижче я публікую JAGS-код для простої логістичної моделі (див. Тут, щоб отримати більше прикладів).tβiμiσi2

model {
   # setting up priors
   a ~ dnorm(0, .0001)
   b ~ dnorm(0, .0001)

   for (i in 1:N) {
      # passing the linear combination through logit function
      logit(p[i]) <- a + b * x[i]

      # likelihood function
      y[i] ~ dbern(p[i])
   }
}

Як бачимо, код безпосередньо перекладається на визначення моделі. Програмне забезпечення - це те, що воно черпає деякі значення з Normal priors для, aа bпотім використовує ці значення для оцінки, pі, нарешті, використовує функцію ймовірності, щоб оцінити, наскільки вірогідні ваші дані з урахуванням цих параметрів (це коли ви використовуєте теорему Байєса, дивіться тут для більш детальний опис).

Основна модель логістичної регресії може бути розширена для моделювання залежності між предикторами за допомогою ієрархічної моделі (включаючи гіперпріори ). У цьому випадку ви можете отримати 's з багатоваріантного нормального розподілу, який дозволяє нам включати інформацію про коваріаціюβiΣ між незалежними змінними

(β0β1βk)MVN([μ0μ1μk],[σ02σ0,1σ0,kσ1,0σ12σ1,kσk,0σk,1σk2])

... але це розбирається в деталях, тому зупинимось тут.

"Байєсівська" частина тут вибирає пріори, використовуючи теорему Байєса і визначаючи модель в імовірнісних умовах. Дивіться тут для визначення "байєсівської моделі", а тут - загальну інтуїцію щодо байєсівського підходу . Що ви також можете помітити, це те, що визначення моделей є досить простим та гнучким при такому підході.


Kruschke, JK, Aguinis, H., & Joo, H. (2012). Прийшов час: Байєсові методи аналізу даних в організаційних науках. Методи організаційних досліджень, 15 (4), 722-752.

Гельман, А., Якулін, А., Піттау, Г. М. та Су, Ю.-С. (2008). Попередньо розповсюджений за умовчанням попередній розподіл для логістичних та інших регресійних моделей. Аннали прикладної статистики, 2 (4), 1360–1383.


1
Вам потрібні докази відхилень, а не лише коефіцієнти.
Brash Equilibrium

3
@BCLC ні, для логістичної регресії logit використовується як функція зв'язку , тоді як - лінійна комбінація , наприклад для лінійної регресії - функція ідентичності, так що , це - це лише стандартна специфікація GLM . η η = β 0 + β 1 X 1gηη=β0+β1X1E ( Y ) = ηgE(Y)=η
Тім

1
@BCLC перевірити посилання у моїй відповіді, вони містять вступ до байєсівської статистики взагалі. Це набагато ширша тема, яку ви згадували у своєму первинному запитанні, але ви можете знайти приємне вступ у посиланнях, які я надав у своїй відповіді.
Тім

1
@Tim я зробив друкарську помилку там. Докази повинні читати пріорі. В основному, коефіцієнти - не єдині невідомі параметри. Багаточленний розподіл також має матрицю коваріації дисперсії, і, як правило, ми не вважаємо, що це відомо.
Brash Equilibrium

3
"" Байєсівська "частина тут вибирає пріори, використовуючи теорему Байєса і визначаючи модель в імовірнісних умовах". Хорошим посиланням тут є Gelman et al. МАЛКО ІНФОРМАЦІЙНИЙ ПРОМИСЛОВИЙ ПЕРШИЙ
Dalton Hance

6

Що це все за попередні, правдоподібні речі?

Ось що робить його баєсівською. Генеративна модель для даних однакова; Різниця полягає в тому, що баєсовський аналіз вибирає деякий попередній розподіл за цікавими параметрами і обчислює або наближає задній розподіл, на якому базується все умовивід. Правило Байєса пов'язує це два: заднє - пропорційне до ймовірностей, що були раніше.

Інтуїтивно це попередження дозволяє аналітику математично висловити предметну експертизу або попередні висновки. Наприклад, текст, на який ви посилаєтесь, зазначає, що попереднє значення для є багатовимірною нормою. Можливо, попередні дослідження пропонують певний діапазон параметрів, який можна виразити певними нормальними параметрами. (З гнучкістю випливає відповідальність. Ви повинні бути в змозі виправдати їх перед скептичною аудиторією.) У більш досконалих моделях можна використовувати доменний досвід для настройки певних прихованих параметрів. Наприклад, див. Приклад печінки, на який посилається ця відповідьβ .

Деякі частістські моделі можуть бути пов'язані з байєсівським колегою з певним попереднім, хоча я не впевнений, що відповідає в цьому випадку.


SeanEaster, "попереднє" - це слово, яке використовується для передбачуваного розповсюдження? Наприклад, ми припускаємо, що X або (якщо ви маєте на увазі як у , ви маєте на увазі замість , , ..., ? Я не думаю, що у є дистрибуції ...?) нормальні, але тоді ми намагаємось вписати їх в інший дистрибутив? Що саме ви маєте на увазі під "приблизними"? У мене таке відчуття, що це не те саме, що "підходить"& beta ; & beta ; 1 , & beta ; 2 , . . . , β n X 1 X 2 X n ββββ1,β2,...,βnX1X2Xnβ
BCLC

1
@BCLC Щоб відповісти на це, я розпочну з простого процесу байєсівського висновку і визначте терміни, як я йду: Байєси розглядають усі цікавлять параметри як випадкові змінні та оновлюють їхні переконання щодо цих параметрів у світлі даних. Апріорне розподіл висловлює своє переконання про параметри до аналізу даних; * задній розподіл * - за правилом Байєса, нормалізований продукт попереднього та ймовірного - узагальнює непевну думку про параметри з урахуванням попереднього та даних. Розрахунок заднього - це місце, де відбувається підгонка.
Шон Пасха

1
@BCLC Отже, чому параметри мають розподіл. В інших, як правило, простих байєсівських моделях, задні розподіли можуть мати вираз закритої форми. (Наприклад, у випадковій змінній Бернуллі з бета-версією на , задня частина - це бета-розподіл.) Але коли афіші не можуть бути виражені аналітично, ми наближаємо їх, як правило, використовуючи методи MCMC. p pβpp
Шон Пасха

Гаразд, я думаю, що я вас краще розумію, прочитавши «Нарис до вирішення проблеми в доктрині шансів» . Спасибі SeanEster
BCLC

1
P(B)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.