Навіщо використовувати посилання logit в бета-регресії?


14

Нещодавно мене зацікавило впровадження бета-регресійної моделі, для результатів якої пропорція. Зауважимо, що цей результат не впишеться у двочленний контекст, оскільки в цьому контексті немає змістовної концепції дискретного "успіху". Насправді результат насправді є часткою тривалості; чисельник - це кількість секунд, коли певна умова активна за загальну кількість секунд, протягом яких умова мала право бути активною. Я прошу вибачення за капризи, але я не хочу занадто зосереджуватися на цьому точному контексті, тому що я розумію, що існує безліч способів такого процесу моделювати, окрім бета-регресії, і наразі мене більше цікавить теоретично питання, що виникли в моїх спробах впровадити таку модель (хоча я, звичайно,

У будь-якому випадку, усі ресурси, які я зміг знайти, вказували на те, що бета-регресія зазвичай підходить за допомогою посилання logit (або probit / cloglog), а параметри інтерпретуються як зміни в логіці. Однак я ще не знайшов посилання, яке насправді дає будь-яке реальне обґрунтування того, чому можна було б скористатися цим посиланням.

Оригінальний папір Ferrari & Cribari-Neto (2004) не дає виправдання; вони зазначають лише, що функція logit є "особливо корисною" через інтерпретацію коефіцієнта шансів експонентованих параметрів. Інші джерела натякають на бажання відобразити від інтервалу (0,1) до реальної лінії. Однак чи потрібна нам функція зв'язку для такого відображення, враховуючи, що ми вже припускаємо бета-розподіл? Які переваги надає функція зв'язку вище та за межами обмежень, накладених на початку бета-розподілу?Я провів пару швидких симуляцій і не бачив прогнозів за межами інтервалу (0,1) зі зв’язком ідентичності, навіть при моделюванні з бета-розподілів, маса ймовірностей яких значною мірою близька до 0 або 1, але, можливо, моє моделювання не були достатньо загальними, щоб наздогнати деякі патології.

Мені здається, виходячи з того, як люди на практиці інтерпретують оцінки параметрів з бета-регресійних моделей (тобто як коефіцієнти шансів), які вони неявно роблять висновок щодо шансів на "успіх"; тобто вони використовують бета-регресію як заміну біноміальної моделі. Можливо, це доречно в деяких контекстах, враховуючи взаємозв'язок бета-біноміального розподілу, але мені здається, що це має бути більше особливим випадком, ніж загальним. У цьому питанні надається відповідь на інтерпретацію коефіцієнта шансів відносно безперервної пропорції, а не на результат, але мені здається, що надмірно громіздко намагатися тлумачити речі таким чином, на відміну від використання, скажімо, журналу або ідентифікаційне посилання та інтерпретація% змін або змін-одиниць.

Отже, чому ми використовуємо посилання logit для бета-регресійних моделей? Чи просто для зручності пов'язати це з біноміальними моделями?

Відповіді:


8

g(μ):(0,1)Rμ^=g1(xβ^)(0,1)x

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

Але, звичайно, можна просто спробувати обидва варіанти та побачити, чи виникають проблеми з ідентифікаційним зв’язком та / або покращує пристосованість моделі.

μ^=0.01xμ^0.02. Але це часто трактується дуже неохайно в тих сценаріях. Отже, я б стверджував, що для моделі обмеженого реагування параметри будь-якої функції зв'язку повинні бути ретельно інтерпретовані та можуть потребувати певної практики. Тому моя звичайна порада (як показано в іншій дискусії, яку ви пов'язали у своєму запитанні), щоб переглянути ефекти для регресорних конфігурацій, що цікавлять вас. Вони простіші для інтерпретації та часто (але не завжди) досить схожі (з практичної точки зору) для різних функцій зв'язку.


10

Неправильно, що логістична регресія може використовуватися лише для моделювання двійкових даних про результати. Модель логістичної регресії підходить для будь-яких даних, де 1) очікуване значення результату слід за логістичною кривою як функція провісників 2) дисперсія результату - очікуваний час результату один мінус очікуваний результат (або деяка його частка) 3) (наслідок 2) дані варіюються між 0 і 1. Ці властивості, безумовно, стосуються даних Бернуллі. Але слід провести деяку дослідницьку статистику та сюжети, перш ніж негайно дискредитувати логістичну модель як життєздатний (і простий у реалізації / пояснення) спосіб відповісти на наукове запитання.

Модель логістичної регресії - це особливий випадок узагальненої лінійної моделі (GLM), що означає, що модель дає послідовні оцінки параметрів та умовиводи. Логістичні моделі використовуються для моделювання пропорцій, порядкових змінних, показників, балів для іспитів, рангів та будь-якого небінарного результату в декількох місцях літератури.

Вибачте, що ця відповідь не спрямовує ваше запитання пізніше, але, виклавши попередні міркування, виникає помилкове уявлення, на яке варто звернутися.

Багато користувачів R припустили, що "попередження", яке виникає внаслідок встановлення безперервної відповіді з логістичними моделями, слід придушити. А «середина дороги» , як це зміна family=binomialдо family=quasibinomial. Тут показаний приклад моделювання цих даних, підгонки до моделі та отримання правильних висновків:

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

Дає точне 90% охоплення ІС


1
Я вдячний за уточнення, надані щодо моделі логістичної регресії. Ви маєте рацію, що це більш загальна модель, ніж прийнято вважати. Проте я вагаюся прийняти це як відповідь, оскільки, здається, це не досить розвиває лінію міркувань. Мені здається, ви говорите, що мої занепокоєння щодо посилання logit у бета-моделі є безпідставними, оскільки посилання logit добре працює на небінарних даних. Що є розумною позицією, але я вважаю, що це не зовсім суть мого питання про те, чому ми використовуємо logit у бета-моделі та як її інтерпретувати.
Райан Сіммонс

1
@RyanSimmons Дякую за відгук. Я згоден з вашими міркуваннями тут. Я думаю, що будь-яка «можливість вчитися» є підставою для відповіді, і тому одне питання може мати багато можливих відповідей з різним ступенем «правильності». Я не торкався Вашого запитання, яке є хорошим, тому відповідь "більш правильної" ще може з’явитися. Мені цікаво про це самому, тому намагаюся трохи більше прочитати цю тему.
АдамО
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.