Порівнюючи показники захворюваності


9

Я хочу порівняти показник захворюваності між двома групами (одна без захворювання та одна із захворюванням).

Я планував обчислити коефіцієнт частоти захворюваності (IRR), тобто групу захворюваності B / рівень частоти захворюваності, група А, а потім перевірити, чи є цей показник рівним 1, і, нарешті, обчислити 95% інтервали ІС для IRR.

Я знайшов метод для обчислення 95% ІС у книзі ( Основи біостатистики Роснера ):

exp[log(IRR)±1.96(1/a1)+(1/a2)]

де a1 та a2 - кількість подій. Але це наближення справедливе лише для достатньо великих розмірів вибірки, і я думаю, що кількість подій, які у мене є, є малі (можливо, для загального порівняння це нормально.)

Тому я думаю, що я повинен використовувати інший метод.

Я використовую R і пакет точних даних, і я виявив, що, можливо, я можу використовувати poisson.test(). Але ця функція має 3 способи визначення двосторонніх p-значень: центральне, міні-значення та блейкер.

Отже, мої запитання :

  1. Чи правильно, щоб порівняти два коефіцієнти захворюваності, використовуючи тест для порівняння показників пуассона?

  2. Коли ви використовуєте функцію poisson.test в R з пакету точної, який метод найкращий?

Віньєтка для exactci каже:

центральний: в 2 рази перевищує мінімальну однобічну p-величину, обмежену вище 1. Назва 'central' мотивована пов'язаними інтервалами конверсійності інверсії, які є центральними інтервалами, тобто вони гарантують, що справжній параметр має менше ймовірність бути меншою (більше) ніж нижній (верхній) хвіст довірчого інтервалу 100 (1- )%. Це називається Hirji (2006) TST (удвічі менший хвіст).α/2α

minlike: сума ймовірностей результатів з ймовірністю менша або дорівнює спостережуваній ймовірності. Це називається методом PB (на основі ймовірності) за Hirji (2006).

блакер: поєднує ймовірність меншого спостережуваного хвоста з найменшою ймовірністю протилежного хвоста, що не перевищує спостережуваної хвостової ймовірності. Назва "blaker" мотивована Blaker (2000), який всебічно вивчає пов'язаний метод для інтервалів відповідності. Це називається методом КТ (комбінований хвіст) Хірджі (2006).

Мої дані:

Group A: 
Age group 1: 3 cases    in 10459 person yrs.   Incidence rate: 0.29 
Age group 2: 7 cases    in 2279 person yrs.    Incidence rate: 3.07
Age group 3: 4 cases    in 1990 person yrs.    Incidence rate: 2.01
Age group 4: 9 cases    in 1618 person yrs.    Incidence rate: 5.56
Age group 5: 11 cases   in 1357 person yrs.    Incidence rate: 8.11
Age group 6: 11 cases   in 1090 person yrs.    Incidence rate: 10.09
Age group 7: 9 cases    in 819 person yrs.     Incidence rate: 10.99
  Total:    54 cases in 19612 person yrs.      Incidence rate: 2.75

Group B: 
Age group 1: 3 cases    in 3088 person yrs.   Incidence rate: 0.97 
Age group 2: 1 cases    in 707 person yrs.    Incidence rate: 1.41
Age group 3: 2 cases    in 630 person yrs.    Incidence rate: 3.17
Age group 4: 6 cases    in 441 person yrs.    Incidence rate: 13.59
Age group 5: 10 cases   in 365 person yrs.    Incidence rate: 27.4
Age group 6: 6 cases   in 249 person yrs.    Incidence rate: 24.06
Age group 7: 0 cases    in 116 person yrs.     Incidence rate: 0
  Total:    28 cases in 5597 person yrs.      Incidence rate: 5.0

Відповіді:


2

Пара думок:

По-перше, запропоноване вами порівняння - коефіцієнт частоти інцидентів між A і B - наразі не обумовлений жодними коваріатами. Що означає, що кількість ваших подій становить 54 для групи А і 28 для групи В. Це більш ніж достатньо для звичайних великих вибіркових методів інтервалу довіри.

По-друге, навіть якщо ви маєте намір скорегувати вплив на вік, а не обчислювати коефіцієнт для кожної групи, вам, можливо, краще послужити, використовуючи регресійний підхід. Як правило, якщо ви стратифікуєте на багато рівнів змінної, вона стає досить громіздкою порівняно з рівнянням регресії, що дасть вам співвідношення швидкостей A і B під час контролю за віком. Я вважаю, що стандартні підходи все одно працюватимуть для вашого розміру вибірки, хоча якщо ви переживаєте про це, ви можете використовувати щось на зразок glmperm .


1

Рівень захворюваності кожної групи у ваших даних - це лише середнє значення суми незалежних змінних Бернуллі (0/1) - у кожного пацієнта є своя змінна, яка отримує значення 0 або 1, ви підсумовуєте їх і приймаєте середнє значення, яке - рівень захворюваності.

Я великі зразки (а ваш зразок великий), середнє значення буде розподілено нормально, тому ви можете використовувати простий z-тест, щоб перевірити, чи обидва показники різні чи ні.

У R погляньте на prop.test: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/prop.test.html

Якщо ви хочете в повній мірі використовувати ці дані, спробуйте переконатися, чи розподіл частоти захворюваності відрізняється між групами А та В. Для цього тест на незалежність може зробити трюк, наприклад, хі-квадрат G -тест: http://udel.edu/~mcdonald/statchiind.html


0

Єдиний спосіб бути впевненим, що зразок є досить великим (або, як сказав Чарлі Гейєр, - що ви насправді перебуваєте в асимптопії ) - це зробити багато моделювання Монте-Карло або як EpiGard запропонував використовувати щось на зразок glmperm.

Що стосується того, який метод є найкращим у точних, то тут немає кращого - або, як це робив Фішер

Найкраще для чого?

Майкл Фей надає тут деякі пояснення

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.