Інтуїція до функції накопичувальної небезпеки (аналіз виживання)


17

Я намагаюся отримати інтуїцію щодо кожної з основних функцій в актуарній науці (спеціально для моделі пропорційних ризиків Кокса). Ось що я маю досі:

  • f(x) : починаючи з часу початку, розподілу ймовірності, коли ви помрете.
  • F(x) : просто кумулятивний розподіл. На часT , який відсоток населення буде мертвим?
  • S(x) :1F(x) . На часT , який відсоток населення буде живий?
  • h(x) : небезпечна функція. За певний часT з людей, які ще живуть, це може бути використане для оцінки кількості людей, які помруть у наступний часовий проміжок, або якщо інтервал -> 0, "швидка" ймовірність смерті.
  • H(x) : накопичувальна небезпека. Не маю уявлення.

Яка ідея поєднання значень небезпеки, особливо коли вони безперервні? Якщо ми використовуємо дискретний приклад зі смертністю протягом чотирьох сезонів, а функція небезпеки полягає в наступному:

  • Починаючи з весни, всі живі, і 20% помре
  • Зараз влітку з тих, хто залишився, 50% помре
  • Зараз восени з тих, хто залишився, 75% загинуть
  • Заключний сезон - зима. З тих, хто залишився, 100% загинуть

Тоді кумулятивна небезпека становить 20%, 70%, 145%, 245% ?? Що це означає, і чому це корисно?


1
Ваш має бути x , або навпаки. Tx
Glen_b -Встановіть Моніку

5
Щодо , ви маєте помилку (хоча це дуже поширена плутанина). Ви пишете, "інтервал-> 0," миттєва "ймовірність смерті". Правильним твердженням буде "миттєва смертність ". Це не може бути ймовірністю, оскільки це ймовірність, поділена на d t ; більше того, це може бути> 1. h(x)dt
gung - Відновіть Моніку

Відповіді:


6

Поєднання пропорцій, що помирають так само, як ви робите, не становить для вас накопичувальної небезпеки. Коефіцієнт небезпеки в постійному часі - це умовна ймовірність того, що протягом дуже короткого проміжку часу відбудеться подія:

h(t)=limΔt0P(t<Tt+Δt|T>t)Δt

Накопичувальна небезпека інтегрує (миттєву) ступінь небезпеки за віком / часом. Це як підбиття підсумків ймовірностей, але оскільки дуже мало, ці ймовірності також є невеликими числами (наприклад, рівень небезпеки вмирання може бути приблизно 0,004 у віці близько 30). Коефіцієнт небезпеки залежить від того, що ви не пережили події до t , тому для населення вона може становити більше 1.Δtt

Ви можете подивитися якусь таблицю життєвої смертності людини, хоча це дискретна формулювання часу, і спробувати накопичити .mx

Якщо ви використовуєте R, ось невеликий приклад наближення цих функцій до кількості смертей на кожному віковому інтервалі 1-го року:

dx <-  c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 
         62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 
         175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 
         223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 
         436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 
         823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 
         1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 
         2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 
         3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 
         872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 
         11L, 6L, 3L, 2L)

x <- 0:(length(dx)-1) # age vector

plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", 
     main="h(t)", log="y")
plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", 
     main="H(t)")

Сподіваюсь, це допомагає.


Чи правильно сказати, що h (t) * dt - це ймовірність події, яка відбудеться в інтервалі довжини dt навколо t? отже, значення h (t) - це ймовірність події, що відбудеться протягом 1 одиниці часу, зосередженої навколо t. Це було б лише в тому випадку, якщо h (t) <= 1
ворона

10

У книзі "Вступ до аналізу виживання за допомогою статистики" (2-е видання) Маріо Клівса є хороша глава на цю тему.

Ви можете знайти розділ про книги Google , стор. 13-15. Але я б порадив прочитати всю главу 2.

Ось коротка форма:

  • "він вимірює загальну кількість ризику, накопиченого до часу t" (стор. 8)
  • Порахуйте інтерпретацію даних: "це дає кількість разів, коли ми би очікували (математично) спостереження за помилками [або іншими подіями] протягом заданого періоду, якби тільки подія відмови була повторюваною" (стор. 13)

5

Я б небезпечно здогадатися, що це заслуговує уваги завдяки використанню в діагностичних діаграмах:

h(x)=eβTzh0(x)βzh0(x)logH(x)=βTz+H0(x)logH^(x)x

h(x)=αθ(xθ)α1θαlogH(x)=αlogxαlogθlogH^(x)logxα^α^logθ^, за умови правильного припущення Вейбулла. І звичайно, нахил, близький до 1, говорить про те, що експоненціальна модель може відповідати.

H(x)x


3

Перефразовуючи те, що говорить @Scortchi, я підкреслив би, що функція накопичувальної небезпеки не має приємної інтерпретації, і як такий я б не намагався використовувати її як спосіб інтерпретації результатів; сказати нестатистичному досліднику, що сукупні небезпеки різні, швидше за все, це призведе до відповіді "мм-хм", і тоді вони більше ніколи не запитуватимуть про цю тему, і не вдалим чином.

Однак накопичувальна небезпечна функція виявляється дуже корисною математично, наприклад, загальним способом зв’язку функції небезпеки та функції виживання. Тому важливо знати, що таке кумулятивна небезпека та як її можна використовувати в різних статистичних методах. Але загалом, я не думаю, що особливо корисно думати про реальні дані з точки зору накопичувальної небезпеки.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.