Основні питання щодо дискретного аналізу виживання в часі


18

Я намагаюся провести дискретний аналіз виживання часу за допомогою логістичної регресійної моделі, і я не впевнений, що повністю розумію цей процес. Я б дуже вдячний за допомогу з кількома основними питаннями.

Ось налаштування:

Я дивлюся на членство в групі протягом п'ятирічного періоду. Кожен член має щомісячний облік членства за кожен місяць, який є членом групи. Я розглядаю всіх членів, члени яких розпочалися протягом п'ятирічного періоду (щоб уникнути питань "лівої цензури" з членами, які приєдналися раніше). Кожен запис буде індексуватися часом, час один - місяць, до якого приєднався член. Отже, член, який залишається два з половиною роки, матиме тридцять щомісячних записів, пронумерованих від одного до тридцяти. Кожному запису також буде надана двійкова змінна, яка матиме значення одного за останній місяць членства, а нуль інакше; значення одиниці для двійкової змінної позначає подію, коли член вийшов із групи. Для кожного члена, членство якого продовжується за п'ятирічним вікном аналізу,

Отже, модель логістичної регресії побудована для прогнозування значень змінної бінарної події. Все йде нормально. Один з типових способів оцінювання бінарної моделі прогнозування - це вимірювання підйому на вибірці затримки. Для моделі логістичної регресії, яку я створив для прогнозу події, що закінчується членством, я обчислив підйом на наборі даних про тримання з співвідношенням п'яти до одного не подій до подій. Я класифікував прогнозовані значення в децили. Децил з найвищими прогнозованими значеннями містить сімдесят відсотків, ліфт більше чотирьох. Перші два децили в поєднанні містять шістдесят п’ять відсотків усіх тих, що знаходяться в обміні. У певних контекстах це вважатиметься досить гідною прогностичною моделлю, але мені цікаво, чи достатньо це для аналізу аналізу виживання.

Нехай h[j,k] - функція небезпеки для окремої j в місяці k , а S[j,k] - ймовірність того, що індивід j виживе через місяць k .

Ось мої основні питання:

  1. Чи дискретна небезпечна функція, h[j,k] , умовна ймовірність невиживання (виходу з групи) кожного місяця?

  2. Чи є прогнозовані значення з оцінки логістичної моделі регресії функції небезпеки? (тобто є дорівнює модельному прогнозованому значенню для індивідуального j у місяці k , чи потрібно зробити щось більше для отримання оцінок функції небезпеки?)h[j,k]jk

  3. Чи дорівнює ймовірність виживання до місяця q для окремої дорівнює добутку на мінус функцію небезпеки від першого місяця до q , тобто чи S [ j , q ] = ( 1 - h [ j , 1 ] ) ( 1 - h [ j , 2 ] ) jq ?S[j,q]=(1h[j,1])(1h[j,2])(1h[j,q])

  4. Чи є середнє значення всіх особин j за кожен час k розумною оцінкою загальної сукупності популяції?S[j,k]jк

  5. Чи повинен графік загальної сукупності означати ймовірність виживання за місяцями, що нагадує щомісячний графік Каплана-Мейєра?

Якщо відповідь на будь-яке з цих питань - ні, то у мене серйозне непорозуміння, і я міг би реально скористатись допомогою / поясненням. Крім того, чи є якесь правило про те, наскільки хороша модель бінарного прогнозування повинна бути, щоб створити точний профіль виживання?


Можливо, це може допомогти вам у вирішенні деяких ваших запитань
jujae

Відповіді:


7

Припустимо, K - найбільше значення k (тобто найбільший місяць / період, що спостерігається у ваших даних).

  1. Ось функція небезпеки з повністю дискретною параметризацією часу, а з вектором параметрів B - вектор умовних змінних X : hj,k=eαk+BX1+eαk+BX . Функція небезпеки також може бути побудована на основі альтернативних параметрів часу (наприклад,k або функції його як змінної в моделі) або навколо гібриду обох.

    Базова функція логіт небезпеки описує ймовірність настання події в час k , умовну при переживши до часу k . Додавання до моделі предикторів ( X ) ще більше обмежує цю умовність.

  2. Ні, оцінки логістичної регресії α^1 , , α K , B ) є НЕ функції небезпеки самі. Моделі логістичної регресії: logit ( h j , k ) = α k + B Xα^KB^(hj,k)=αk+BX , і вам потрібно виконати антигігітальне перетворення в (1) вище, щоб отримати оцінки небезпеки.

  3. Так. Хоча я б фіксувати його S J , Q = Π д я = 1 ( 1 - ч J , я ) . Функція виживання ймовірність не відчуває події за часом до , і, звичайно , також може бути обумовлена X .S^j,q=i=1q(1hj,i)kX

  4. Це тонке запитання, не впевнений, що у мене є відповіді. Однак у мене є питання. :) Розмір вибірки з кожним періодом часу зменшується з часом через правильну цензуру та внаслідок події: чи враховували б ви це під час обчислення середнього часу виживання? Як? Що ви маєте на увазі під "населенням"? До якої сукупності людей, набраних у вашому дослідженні, узагальнюється? Або ви маєте на увазі якусь статистичну концепцію "надселення"? Умовивід є великий проблемою в цих моделях, тому що ми оцінюємо β s і їх стандартні помилки, але потрібно робити дельту-метод обернено-клацають , щоб отримати стандартні помилки для ч J , до і (від моєї власної роботи) отримання правильного стандарту помилки для S Jh^j,kS^j,k працює тільки на папері (я не можу отримати правильні охоплення CI для S J , K в умовних моделях).S^j,k

  5. Можна використовувати графіки ступеневих функцій, що нагадують Каплан-Мейєр, а також можна використовувати графіки прямолінійних ліній (тобто з'єднувати точки між періодами часу з лінією). Ви повинні використовувати останній випадок лише тоді, коли саме поняття «дискретний час» допускає можливість поділу періодів. Ви також можете побудувати / повідомлятися оцінки загальної захворюваності (що 1Sj,k . ... по крайней мере , епідеміологи часто визначають «кумулятивний частоту» таким чином, цей термін використовується по- різному в конкуруючих моделей ризиків Термін поглинання також може використовувати тут.).


Я думаю, що у питанні 2 ОП запитує про передбачувану величину з логістичної моделі, а не про оцінки коефіцієнтів регресії. Це може бути актуально
jujae

h^(t)

Чи не передбачуване значення логістичної моделі ймовірність успіху двійкового rv такого, що не потрібен анти-логіт. Тобтоypred=exp(βTx)/(1+exp(βTx))

Повернувшись до початкового питання 2, ОП запитала: "Чи передбачені прогнозовані значення з моделі логістичної регресії оцінки функції небезпеки?" Я б сказав так (якщо моє розуміння передбачуваного значення є правильним). А ви говорите "ні" і наводите аргумент, що оцінені коефіцієнти не є такими, як оцінка небезпеки. Я погоджуюся з вашим твердженням, вони правильні, але це не те, що ОП запитало з мого розуміння.
jujae

kS^j(k)S(k)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.