Як узагальнити достовірні інтервали для медичної аудиторії


21

За допомогою пакетів Stan і Frontend rstanarmабо brmsя можу легко проаналізувати дані байєсівським способом, як я це робив раніше при змішаних моделях, таких як lme. Хоча я маю на своєму столі більшість книг та статей Крушке-Гельмана-Вагенмакера тощо, вони не розповідають, як підводити результати для медичної аудиторії, розірваної між гнівом Скілла Байесяна та Харибдами медичних рецензентів ( "ми хочемо важливості, а не тієї розсіяної речі").

Приклад: шлункова частота (1 / хв) вимірюється в трьох групах; здоровий контроль - це орієнтир. Для кожного учасника є кілька вимірювань, тому я часто використовував таку змішану модель lme:

summary(lme(freq_min~ group, random = ~1|study_id, data = mo))

Трохи відредаговані результати:

Fixed effects: freq_min ~ group 
                   Value Std.Error DF t-value p-value
(Intercept)        2.712    0.0804 70    33.7  0.0000
groupno_symptoms   0.353    0.1180 27     3.0  0.0058
groupwith_symptoms 0.195    0.1174 27     1.7  0.1086

Для простоти я буду використовувати 2 * std помилку як 95% ІС.

У контексті частотизму я би це підсумував як:

  • У контрольній групі орієнтовна частота становила 2,7 / хв (можливо, сюди слід додати CI, але я іноді уникаю цього через плутанину, створювану абсолютною та різницею CI).
  • У групі без симптом частота була вищою на 0,4 / хв, ДІ (0,11 до 0,59) / хв, р = 0,006, ніж контрольна.
  • У групі безсимптомних частота була вищою на 0,2 / хв, ІІ (від -0,04 до 0,4) / хв, р = 0,11, ніж у контролю.

Йдеться про максимально прийнятну складність для медичного видання, рецензент, ймовірно, попросить мене додати "не значиме" у другому випадку.

Тут те саме stan_lmerі пріори за замовчуванням.

freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)


           contrast lower_CredI frequency upper_CredI
        (Intercept)     2.58322     2.714       2.846
   groupno_symptoms     0.15579     0.346       0.535
 groupwith_symptoms    -0.00382     0.188       0.384

де CredI мають 90% достовірних інтервалів (див. віньєтку rstanarm, чому 90% використовується як за замовчуванням.)

Запитання:

  • Як перекласти наведене вище резюме до байєсівського світу?
  • Наскільки необхідна попередня дискусія? Я впевнений, що папір повернеться зі звичайним "суб'єктивним припущенням", коли я згадаю про пріорів; або, принаймні, "жодної технічної дискусії, будь ласка". Але всі власті Баєсів вимагають, щоб інтерпретація була справедливою лише в контексті пріорів.
  • Як я можу поставити деякий суттєвий сурогат у формулюванні, не зраджуючи байєсівських концепцій? Щось на кшталт "неймовірно різного" (uuuh ...) або майже неймовірно іншого (buoha ..., звучить як "на межі значення).

Джона Габрі та Бен Гудрих (2016). rstanarm: Байєсівське прикладне регресійне моделювання через Стен. Версія пакету R 2.9.0-3. https://CRAN.R-project.org/package=rstanarm

Команда розвитку Стен (2015). Стен: Бібліотека C ++ для вірогідності та вибірки, версія 2.8.0. URL http://mc-stan.org/ .

Пол-Крістіан Буркнер (2016). brms: Байєсові регресійні моделі за допомогою Стен. Версія пакета R 0.8.0. https://CRAN.R-project.org/package=brms

Pinheiro J, Bates D, DebRoy S, Sarkar D та R Core Team (2016). nlme: Лінійні та нелінійні моделі змішаних ефектів . Версія пакета R 3.1-124, http://CRAN.R-project.org/package=nlme>.


1
Я не маю досвіду роботи з рецензентами / редакторами медичних журналів, але, можливо, ви можете спробувати сказати, що існує нульова ймовірність того, що перехоплення є негативним, нульова ймовірність того, що коефіцієнт фіктивної змінної "без симптомів" є негативним, і приблизно 5% ймовірність що коефіцієнт фіктивного показника "із симптомами" від'ємний. Ви можете оцінити приблизно 5% точніше, зробивши це mean(as.matrix(freq_stan)[,"groupwith_symptoms"] < 0).
Бен Гудрич

Ми подумали про це, і 5% пролунали нормально; дослідники переведуть це на «значущість», але оскільки вони зазвичай неправильно розуміють значення, вони матимуть рацію подвійним запереченням. "Нульова ймовірність", з іншого боку, є вбивцею: ти б це прийняв? Можливо, <1 / Reff (p <0,001) було б наближенням? Але знову ж таки: коли я пишу p <xxx, я знаходжусь у світі значущості.
Дітер Менне

Виправте Reff на n_eff вище.
Дітер Менне

1
Я особисто не вважав би ймовірність хвоста такою, що має "менший за 1 шанс n_eff", оскільки n_eff відноситься до точності, з якою оцінюється середнє значення. Можливо, ви могли б запустити свої ланцюги достатньо довго, щоб отримати 1 від’ємний розіграш для коефіцієнта на, group_nosymptomsа потім сказати, що ймовірність його негативного значення є 1 / draws. Але для перехоплення ланцюг ніколи не збирається бродити на негативну територію за цими даними, тому, мабуть, ви могли б сказати, що ймовірність менша 1 / draws.
Бен Гудрич

Я отримав кілька хороших порад щодо включення p-значень для експерта з домену, але не для рецензента статистичних експертів тут: stats.stackexchange.com/questions/148649/… . Ми використовували p <мінімум (n_eff всіх параметрів) як консервативну верхню межу, коли p = 0.
стинь

Відповіді:


16

Швидкі думки:

1) Ключовим питанням є те, на яке застосоване запитання ви намагаєтесь відповісти для своєї аудиторії, оскільки це визначає, яку інформацію ви хочете отримати зі свого статистичного аналізу. У цьому випадку мені здається, що ви хочете оцінити величину різниць між групами (або, можливо, величину співвідношень груп, якщо це міра, більш знайома вашій аудиторії). Величину відмінностей безпосередньо не визначають аналізи, представлені у запитанні. Але прямо вперед можна отримати те, що ви хочете від байєсівського аналізу: ви хочете задній розподіл різниць (або співвідношень). Потім, із заднього розподілу різниць (або співвідношень), ви можете зробити пряме твердження про ймовірність, таке як таке:

"95% найбільш достовірних різниць падають між [низький межа 95% HDI] і [високий межа 95% HDI]" (тут я використовую 95% інтервал найвищої щільності [HDI] як достовірний інтервал, і тому, що вони визначте найвищі значення параметрів щільності, вони відображені як "найбільш надійні")

Аудиторія медичних журналів інтуїтивно та правильно зрозуміла б це твердження, адже саме те, що аудиторія зазвичай вважає, є значенням частоточного інтервалу довіри (навіть якщо це не означає частого інтервалу довіри).

Як ви отримуєте відмінності (або співвідношення) від Stan або JAGS? Лише післяобробкою завершеного ланцюга MCMC. На кожному кроці ланцюга обчислюйте відповідні відмінності (або співвідношення), а потім вивчайте задній розподіл різниць (або співвідношень). Приклади наведені в DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ для MCMC, як правило, на рисунку 7.9 (стор. 177), для JAGS на рисунку 8.6 (стор. 211), а для Stan у розділі 16.3 (с. 468) тощо!

2) Якщо вас змушує традиція робити заяву про те, відхилена чи ні різниця в нулі, у вас є два байєсівські варіанти.

2A) Один із варіантів - складати заяви про ймовірність щодо інтервалів, що знаходяться біля нуля, та їх відношення до ІРЧ. Для цього ви встановите область практичної еквівалентності (ROPE) навколо нуля, що є лише порогом рішення, відповідним вашому застосованому домену --- наскільки велика різниця тривіально мала? Встановлення таких меж проводиться звичайно, наприклад, при клінічному тестуванні на неповноцінність. Якщо у вашому полі є міра "розмір ефекту", можуть бути умовні позначення для "малого" ефекту, а обмеження ROPE можуть бути, скажімо, половиною малого ефекту. Тоді ви можете робити прямі твердження про ймовірність, такі як:

"Тільки 1,2% заднього розподілу різниць практично еквівалентно нулю"

і

"95% найбільш достовірних різниць - це практично не еквівалентні нулю (тобто 95% HDI і ROPE не перетинаються), і тому ми відкидаємо нуль." (зауважте відмінність між твердженням про ймовірність від заднього розподілу порівняно з подальшим рішенням на основі цього твердження)

Ви також можете прийняти різницю нульову для практичних цілей, якщо 95% найбільш достовірні значення практично всі еквівалентні нулю.

2B) Другим варіантом баєса є тестування нульової гіпотези Баєса. (Зауважте, що вищевказаного методу не було"Тестування гіпотез"!) Тестування нульової гіпотези Байєса робить порівняння попередньої розподілу байесівської моделі, яка передбачає, що різниця може бути нульовою проти альтернативного попереднього розподілу, який передбачає, що різниця може бути деяким розсіяним діапазоном можливостей. Результат такого порівняння моделі (як правило) дуже сильно залежить від конкретного вибору альтернативного розподілу, тому для вибору альтернативи слід зробити ретельне обґрунтування. Найкраще використовувати принаймні м'яко проінформовані пріорі як для нуля, так і для альтернативи, щоб порівняння моделі було справді значущим. Зауважте, що порівняння моделі надає іншу інформацію, ніж оцінка відмінностей між групами, оскільки порівняння моделі стосується іншого питання. Таким чином, навіть при порівнянні моделі,

Можливо, є способи зробити байєсівську нульову гіпотезу з виводу Stan / JAGS / MCMC, але я не знаю в цьому випадку. Наприклад, можна спробувати наближення Savage-Dickey до коефіцієнта Байєса, але це покладається на знання попередньої щільності на відмінності, що вимагатиме математичного аналізу або додаткового наближення MCMC від попереднього.

Два методи для визначення нульових значень обговорюються в гл. 12 DBDA2E https://sites.google.com/site/doingbayesiandataanaanasis/ . Але я дійсно не хочу, щоб ця дискусія була осторонь дебатів про "правильний" спосіб оцінки нульових значень; вони просто різні, і вони надають різну інформацію. Основний пункт моєї відповіді - пункт 1, наведений вище: Подивіться на задній розподіл відмінностей між групами.


3
Ласкаво просимо на наш сайт! Чудово, що ти стаєш частиною нашої спільноти!
Тім

Якщо ви хочете з’єднати свій обліковий запис із цим stats.stackexchange.com/users/16592 (який, здається, теж ваш), ви можете зробити це автоматично через stats.stackexchange.com/contact .
Амеба каже: Відновити Моніку

Ви можете зробити тест гіпотези, описаний тут, використовуючи brms. Дивіться: github.com/paul-buerkner/brms
bjw

3

Після етикету SO це було написано як коментар до @John K. Kruschke, але більш тривалі коментарі важко структурувати. Вибачте.

  • @John K. Kruschke пише: Просто шляхом обробки після завершеного ланцюга MCMC ...

lower_CredIі upper_CredIв оригінальній публікації були обчислені, як ви згадали, з повних ланцюгів MCMC і лише трохи переформатовані для кращого порівняння з lmeрезультатами. Хоча ви віддаєте перевагу HDI, це прості кванти; з симетричним заднім у цьому прикладі це не має великої різниці.

  • РОЗА та розмір ефекту

Я бачив, що заявки до комітетів з етики проводили обчислення статистичної влади, не висловлюючи припущення про розмір ефекту. Навіть у випадку, коли неможливо визначити "клінічно релевантний ефект", важко пояснити цю концепцію медичним дослідникам. Трохи простіше для випробувань на неповноцінність, але вони не так часто є предметом дослідження.

Тож я цілком впевнений, що введення ROPES буде неприйнятним - з іншого припущення, люди не можуть пам’ятати більше ніж одне число. Фактори Байєса можуть спрацювати, оскільки раніше було лише одне число, яке можна взяти додому, як значення р.

  • Пріори

Я здивований, що ні @John K. Kruschke, ні @Ben Goodrich з команди Stan не згадують пріорів; Більшість робіт з цього питання вимагають детального обговорення попередньої чутливості під час представлення результатів.

Було б добре, якби у наступному виданні вашої книги - сподіваємось, що зі Стен - ви можете додати вікна "Як опублікувати це (у нестатистичному документі) зі 100 словами" для вибраних прикладів. Коли я взяв би ваше слово 23.1 словом, типовий медичний дослідний документ мав би 100 сторінок і цифр ...


* Основним моментом було дивитись на задній розподіл відмінностей (між групами, між комбінаціями груп). Ось для цього потрібна післяобробка ланцюга MCMC.
Джон К. Крушке

* РОЗА: Ви «цілком впевнені, що ROPE не будуть прийнятними» і «важко пояснити цю концепцію медичним дослідникам». Тоді я не бачу, як фактори Байєса будуть легше пояснити чи прийняти, оскільки фактор Байєса бере ще більш детальне пояснення та обґрунтування певного порогу BF для прийняття рішення !! Мені здається, ви припустили, що ваша аудиторія назавжди окостеніла в умовах частої партії; якщо це так, просто використовуйте статистику частотистів або подайте свою роботу в більш освічений журнал.
Джон К. Крушке

* Ви сильно перебільшуєте рекомендації Ч. 23.1, які насправді можна вирішити коротко у невеликій кількості тексту, особливо для простих моделей, таких як ви використовуєте тут. Продовження в наступному коментарі ...
Джон К. Крушке

1
(i) Мотивуйте використання Bayesian - це дає рясне інформативне заднє розповсюдження. (ii) Поясніть модель та її параметри, що в цьому випадку легко. (iii) Обґрунтуйте попереднє - знову тривіальне в цьому випадку, просто сказавши, що ви використовували дифузні пріори, які по суті не впливають на задню частину. (Але НЕ, якщо ви використовуєте фактори Байєса, для яких важливим є попередній.) (Iv) Повідомте про гладкості ланцюга MCMC - тривіально сказати, що ESS становила близько 10 000 для всіх параметрів та відмінностей. Продовження в наступному коментарі ...
Джон К. Крушке

1
(v) Інтерпретація задньої: Просто зазначайте центральну тенденцію (наприклад, режим) задньої частини та її 95% ІРЧ для кожної різниці, що цікавить. Це не так коротко, як твіт, але це лише пара абзаців.
Джон К. Крушке
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.