Як порівняти середню виживаність між групами?


12

Я вивчаю середню виживаність, використовуючи Каплан-Мейєра в різних станах для типу раку. Існують досить великі відмінності між державами. Як я можу порівняти середню виживаність між усіма державами та визначити, які з них суттєво відрізняються від середньої середньої виживаності по всій країні?


Чи не могли б ви дати деяку інформацію про розміри вибірки, часові рамки,% виживання тощо, щоб ми могли краще зрозуміти дизайн вашого дослідження?
chl

чи є цензуровані значення в даних - крім найбільших значень?
ronaf

У даних дійсно є цензуровані значення, і загальна кількість населення становить приблизно 1500, середня загальна виживаність становить 18 місяців (діапазон 300-600 днів) ... часовий інтервал - період 2000-2007 роки.
Міша

Відповіді:


6

Слід пам’ятати про криву виживання Каплана-Мейєра - це в основному описовий характер, а не інфекційний . Це лише функція даних, з неймовірно гнучкою моделлю, що лежить за нею. Це сила, тому що це означає, що практично немає припущень, які можуть бути порушені, а слабкість, тому що важко узагальнити її, і що вона відповідає "шуму", а також "сигналу". Якщо ви хочете зробити висновок, вам, в основному, потрібно ввести щось невідоме, що ви хочете знати.

Тепер одним із способів порівняння медіанних часів виживання є наступні припущення:

  1. Я маю оцінку медіанного часу виживання для кожного з станів, наведеного кривою каплана Мейєра. iтii
  2. Я очікую, що справжній середній час виживання буде рівним цій оцінці. E ( T i | t i ) = t iТiЕ(Тi|тi)=тi
  3. Я на 100% впевнений, що справжній середній час виживання є позитивним. Пr(Тi>0)=1

Тепер "найбільш консервативним" способом використання цих припущень є принцип максимальної ентропії, тож ви отримуєте:

p(Тi|тi)=Кехp(-λТi)

Де і λ вибираються такими, що PDF нормалізується, і очікуване значення t i . Тепер ми маємо:Кλтi

= K [ - e x p ( - λ T i )

1=0p(Тi|тi)гТi=К0ехp(-λТi)гТi
і тепер маємо E ( T i ) = 1
=К[-ехp(-λТi)λ]Тi=0Тi==КλК=λ
Е(Тi)=1λλ=тi-1

Отже, у вас є набір розподілів ймовірностей для кожної держави.

p(Тi|тi)=1тiехp(-Тiтi)(i=1,,N)

Які дають спільний розподіл ймовірностей:

p(Т1,Т2,,ТN|т1,т2,,тN)=i=1N1тiехp(-Тiтi)

Тепер це звучить так, як ви хочете перевірити гіпотезу , де ¯ t = 1Н0:Т1=Т2==ТN=т¯- середній середній час виживання. Сувора альтернативна гіпотеза, яку слід перевірити, - це "кожна держава - унікальна і красива сніжинка", гіпотезаHA:T1=t1,...,TN=tN,оскільки це найбільш вірогідна альтернатива, і таким чином представляє втрачену інформацію переходячи до більш простої гіпотези (тест "мінімакс"). Міра доказів проти більш простої гіпотези задається коефіцієнтом шансів:т¯=1Ni=1NтiНА:Т1=т1,,ТN=тN

О(НА|Н0)=p(Т1=т1,Т2=т2,,ТN=тN|т1,т2,,тN)p(Т1=т¯,Т2=т¯,,ТN=т¯|т1,т2,,тN)
=[i=1N1тi]ехp(-i=1Nтiтi)[i=1N1тi]ехp(-i=1Nт¯тi)=ехp(N[т¯тгодаrм-1])

Де

тгодаrм=[1Ni=1Nтi-1]-1т¯

- гармонійне середнє. Зауважте, що шанси завжди сприятимуть ідеальній формі, але не дуже, якщо середні часи виживання досить близькі. Далі, це дає вам прямий спосіб констатувати докази цього конкретного тесту гіпотези:

О(НА|Н0):1

Поєднайте це з правилом рішення, функцією втрати, функцією корисності тощо, яка говорить про те, наскільки вигідніше прийняти простішу гіпотезу, і ви отримали свій висновок!

Н0

НS,i:Тi=тi,Тj=Т=т¯(i)=1N-1jiтj

i

  • НАНS,i
  • Н0НS,i
  • НS,ккi

Тепер одне, що було переглянуто тут, - це кореляції між станами - ця структура передбачає, що знання медіанного рівня виживання в одному стані нічого не говорить про медіанний рівень виживання в іншому. Хоча це може здатися "поганим", покращити ситуацію не важко, а наведені вище розрахунки є хорошими початковими результатами, які легко підрахувати.

Додавання зв’язків між станами змінить ймовірнісні моделі, і ви ефективно побачите деяке "об'єднання" медіанних часів виживання. Один із способів включення кореляцій у аналіз - це розділення справжнього часу виживання на два компоненти: "загальну частину" чи "тенденцію" та "окрему частину":

Тi=Т+Ui

Uiσ


(+1) Дуже цікаво. Ваше повідомлення також змусило мене вставити коментар у свою відповідь.
ГаБоргуля

М1

@cardinal, мої вибачення - це друкарська помилка. буде видалено
ймовірністьлогічний

ніяких вибачень не потрібно. Просто не був впевнений, чи пропустив я це під час читання або просто пропустив щось очевидне.
кардинал

4

Я подумав, що я просто додам до цієї теми, що вас може зацікавити кількісна регресія з цензурою. Bottai & Zhang 2010 запропонували "регрес Лапласа", який може виконати саме це завдання, PDF-файл про це можна знайти тут . Для цього є пакет Stata, він ще не переведений на R, хоча пакет kvantreg у R має функцію цензурованої квантильної регресії, crq , що може бути варіантом.

Я думаю, що підхід дуже цікавий і може бути набагато більш інтуїтивним для пацієнтів, ніж коефіцієнт небезпеки. Знаючи, наприклад, що 50% препарату виживають ще 2 місяці, ніж ті, які не приймають наркотики, і побічні ефекти змушують вас перебувати 1-2 місяці в лікарні, може зробити вибір лікування набагато простішим.


Я не знаю "регрес Лапласа", але щодо вашого другого абзацу цікаво, чи я правильно його розумію. Зазвичай в аналізі виживання (думаючи про прискорений час відмови) ми б сказали щось на кшталт "50-й перцентиль для групи наркотиків настає на 2 місяці пізніше, ніж 50-й для контрольної групи". Це те, що ви маєте на увазі, чи результат LR надає інше тлумачення?
gung - Відновіть Моніку

@gung: Я думаю, ти маєш рацію у своїй інтерпретації - змінив текст, краще? Я сам не використовував регресійних моделей, хоча останнім часом я стикався з ними. Tt - цікава альтернатива звичайним моделям Cox, якими я багато користувався. Хоча мені, мабуть, потрібно витратити більше часу на перетравлення ідеї, я вважаю, що мені, мабуть, простіше пояснити своїм пацієнтам, оскільки я часто використовую криві КМ під час пояснення своїм пацієнтам. HR вимагає, щоб ви дійсно зрозуміли різницю між відносними та абсолютними ризиками - концепція, яка може зайняти деякий час, щоб пояснити ...
Макс Гордон


Дякую @Misha за посилання. Автор має відповідь тут: onlinelibrary.wiley.com/doi/10.1002/bimj.201100103/abrief
Макс Гордон

3

По-перше, я б візуалізувати дані: обчислити довірчі інтервали та стандартні помилки для медіанних виживань у кожному штаті та показати КІ на лісовій ділянці, медіанах та їх СЕ, використовуючи графік воронки.

"Середня середня виживаність по всій країні" - це величина, яка оцінюється за даними і, таким чином, має невизначеність, тому ви не можете сприймати це як різке референтне значення під час перевірки значимості. Інша складність підходу середнього рівня полягає в тому, що при порівнянні медіани стану з ним ви порівнюєте медіану з величиною, яка вже включає цю кількість як компонент. Таким чином, простіше порівняти кожен стан з усіма іншими державами разом. Це можна зробити, виконавши тест рангового журналу (або його альтернативи) для кожного стану.
(Відредагуйте після прочитання відповіді ймовірнісного: тест рангового журналу порівняє виживання у двох (або більше) групах, але порівняно це не суворо медіана. Якщо ви впевнені, що посередницю ви хочете порівняти, Ви можете розраховувати на його рівняння або використовувати тут також перестановку)

Ви позначили своє запитання [багаторазовим порівнянням], тому я припускаю, що ви також хочете скорегувати (збільшити) свої p значення таким чином, що якщо ви побачите хоча б одне скориговане значення p менше 5%, ви зможете зробити висновок, що "середня виживаність у державах не рівні »на рівні 5% значущості. Ви можете використовувати загальні та надмірно консервативні методи, такі як Бонферроні, але оптимальна схема корекції враховує співвідношення значень p. Я припускаю, що ви не хочете вбудовувати жодних апріорних знань у корекційну схему, тому я обговорю схему, де коригування множить кожне значення p на ту саму константу C.

Оскільки я не знаю, як отримати формулу для отримання оптимального множника С, я б застосував перекомпонування . Згідно з нульовою гіпотезою, що характеристики виживання однакові у всіх станах, тому можна перестановити державні мітки випадків раку та перерахувати медіанів. Отримавши багато перекомпонованих векторів державних p значень, я чисельно знайшов би множник С, нижче якого менше 95% векторів не містять значущих p значень і вище яких більше 95%. Хоча діапазон виглядає широким, я б неодноразово збільшував кількість повторних проб на порядок.


Гарна порада щодо візуалізації даних. (+1)
ймовірністьлогічний

@probabilityislogic Дякую! Я також вітаю критику, особливо якщо вона конструктивна.
ГаБоргуля

Єдина критика, яку я маю - це використання p-значень, але це скоріше "фішка на моє плече", ніж все, що у вашій відповіді - схоже, якщо ви збираєтесь використовувати p-значення, то те, що ви рекомендуєте, добре. Я просто не думаю, що використання p-значень добре. дивіться тут мій обмін з @eduardo в коментарях щодо p-значень.
ймовірністьлогічний
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.