Точно як Rx coxph () поводиться з повторними заходами?


10

Контекст

Я намагаюся зрозуміти, як coxph () приймає та обробляє повторні записи для предметів (або пацієнта / замовника, якщо вам зручніше). Одні називають цей формат Лонг, інші називають це «повторними заходами».

Дивіться, наприклад, набір даних, що включає стовпчик ідентифікатора в розділі Відповіді за адресою:

Найкращі пакети для моделей Cox з коваріатами, що змінюються часом

Припустимо також, що коріаріати змінюються за часом і є рівно одна змінна цензура (тобто подія), яка є двійковою.

Запитання

1) У відповіді на вищенаведене посилання, якщо ID не вказаний як параметр у виклику до coxph (), чи повинні результати бути такими ж, як включення кластеру (ID) як параметра в coxph ()?

Я намагався шукати документацію, але, здається, не чітко вказано таке (1): https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

2) Якщо відповідь на (1) - «ні», то (математично) чому? Здається, кластер () у coxph () шукає кореляції між суб'єктами відповідно до підрозділу "кластер" на pg. 20 в

https://cran.r-project.org/web/packages/survival/survival.pdf

3) Неясне запитання: як співвідношення coxph () при повторних заходах порівнюється з методами регресії рентгенівських фракцій?

Додатки

Наступні підказки щодо використання кластера (ID):

Чи є в курсі версія повторного тесту?

як:

https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

GEE-підхід: додайте "+ кластер (предмет)" до оператора моделі в coxph Підхід змішаних моделей: Додати "+ (1 | тема)" в статтю моделі в coxme.

Спасибі заздалегідь!

Відповіді:


11
  1. В тому числі cluster(ID)не змінює точкових оцінок параметрів. Це все ж змінює спосіб обчислення стандартних помилок.

    Більш детально можна ознайомитись у книзі Therneau & Grambsch Розширення моделі Кокса , глава 8.2. Зауважте, що у їх прикладі вони використовуються method = "breslow"як корекція зв'язків, але також за замовчуванням ( method = "efron") буде використаний аналогічний розрахунок для se, і в резюме відображається як "надійний se".

  2. Якщо використовується кластер (ІД), накладається "надійна" оцінка стандартних помилок і вимірюється можлива залежність між суб'єктами (наприклад, за стандартними помилками та показниками дисперсії). Не використання кластеру (ID), з іншого боку, нав'язує незалежність кожному спостереженню, і більше "інформації" передбачається в даних. Більш технічно, функція балу для параметрів не змінюється, але дисперсія цього бала все ж є. Більш інтуїтивний аргумент полягає в тому, що 100 спостережень на 100 осіб дають більше інформації, ніж 100 спостережень на 10 осіб (або кластери).

  3. Справді розпливчасто. Коротше кажучи, +frailty(ID)в coxph()припадках стандартних моделей крихкості з гамма-або логнормального випадковими ефектами і непараметрическим базовий ризик / інтенсивністю. frailtypackвикористовує параметричну базову лінію (також гнучкі версії зі сплайнами або кусково-постійними функціями), а також підходить для більш складних моделей, таких як корельована крихкість, вкладеність і т.д.

Нарешті, +cluster()це дещо в дусі GEE, оскільки ви берете оцінку рівнянь з вірогідності з незалежними спостереженнями і використовуєте інший "надійний" оцінювач для стандартних помилок.

редагувати: Дякую @Ivan за пропозиції щодо чіткості публікації.


Дякую. Щодо (2): може "Це тому, що якщо ви (неправильно) припускаєте ..." замінити на "Якщо ви не використовуєте кластер (ID) у виклику до coxph (), то ви неправильно припускаєте ...."
Quetzalcoatl

Я мав на увазі: якщо спостереження кластеризовані, то вони можуть бути або не бути незалежними. Якщо припустити, що вони незалежні (тобто не використовують кластер (id)), то, напевно, помилково в цьому випадку, але ідеї про те, що знати заздалегідь,
Теодор,

(2) може бути перефразоване так: якщо використовується кластер (ІД), накладається "надійна" оцінка стандартних помилок і вимірюється можлива залежність між суб'єктами (наприклад, за стандартними помилками та дисперсійними балами). Не використання кластеру (ID), з іншого боку, нав'язує незалежність кожному спостереженню, і більше "інформації" передбачається в даних.
Quetzalcoatl

Посилальне посилання, яке ви вказали в (1), має бути: springer.com/us/book/9780387987842 (якщо припустити, що ви цитуєте книгу Терно та Грамбша)
Quetzalcoatl

Також зауважте: як пояснено в книзі Терно та Грамбша, причина відповіді в (1) вище є правильною, оскільки coxph () використовує метод Breslow як типовий для зв'язків.
Quetzalcoatl

1

Ось відповідь із survivalвіньєтки на упаковці, яку я вважав корисною - вона пов’язана у першій відповіді на перше питання, з яким ви пов’язані:

Найкращі пакети для моделей Cox з коваріатами, що змінюються часом

Вони посилаються на налаштування даних у довгій формі або даних з повторними записами для предметів.

Одне поширене питання при цій настройці даних - чи потрібно турбуватися про співвіднесені дані, оскільки у даного суб'єкта є багато спостережень. Відповідь - ні, у нас немає. Причина в тому, що це представлення - просто фокус програмування. Рівняння ймовірності в будь-який момент часу використовують лише одну копію будь-якого предмета, програма вибирає правильний рядок даних кожного разу. З цього правила є два винятки:

  • Якщо суб'єкти мають кілька подій, то рядки для подій співвідносяться в межах теми та потрібна дисперсія кластера.
  • Коли об'єкт з'являється з інтервалами, що перетинаються. Це, однак, майже завжди є помилкою даних, оскільки відповідає двом примірникам предмета, який присутній в одних і тих же шарах одночасно, наприклад, вона може зустріти себе на вечірці.

Приклад, який вони дають, - це

fit <- coxph(Surv(time1, time2, status) ~ age + creatinine, data=mydata)

припускаючи, що якщо ви надасте два рази (початок і кінець періоду) Survзамість одного, coxph()вигадайте решту.


Якщо я щось не зрозумів, я вважаю, що цей коментар вводить в оману? Нам потрібно турбуватися про співвіднесені дані, якщо ми хочемо отримати точні оцінки дисперсії, отже чому додавання терміна + кластер (ІД) змінює орієнтовні умови дисперсії?
AP30
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.