Статистичні методи для даних, де відомо лише мінімальне / максимальне значення


29

Чи існує галузь статистики, яка займається даними, для яких точні значення невідомі , але для кожної окремої людини ми знаємо або максимальне, або мінімальне значення, пов'язане зі значенням ?

Я підозрюю, що моя проблема багато в чому випливає з того, що я намагаюся сформулювати її в статистичному плані, але, сподіваюся, приклад допоможе уточнити:

Скажімо, є дві пов'язані сукупності і такі, що в певний момент члени можуть "перейти" в , але зворотне неможливо. Час переходу є змінним, але не випадковим. Наприклад, можуть бути "особи без потомства", а "особи, що мають принаймні одне потомство". Мене цікавить вік, коли цей прогрес відбувається, але у мене є лише дані поперечного перерізу. Для будь-якого даного людини, я можу дізнатися, якщо вони належать до A або B . Я також знаю вік цих осіб. Для кожної особи в популяції АБ А В А ВАБАБАБАБА, Я знаю, що вік у перехідний період буде ВЕЛИКІшим, ніж їх поточний вік. Так само, для членів групи , я знаю, що вік, який переходив, був меншим, ніж їх поточний вік. Але я не знаю точних значень.Б

Скажіть, у мене є ще один фактор, який я хочу порівняти з віком перехідного періоду. Наприклад, я хочу знати, чи впливає підвид або розмір тіла на вік першого потомства. У мене, безумовно, є якась корисна інформація, яка повинна інформувати про ці питання: в середньому, серед людей, які перебувають в , люди похилого віку матимуть пізніший перехід. Але інформація недосконала , особливо для молодих людей. І навпаки , для населення B .АБ

Чи існують усталені методи поводження з подібними даними ? Мені не обов’язково потрібен повний метод того, як провести такий аналіз, просто деякі пошукові терміни або корисні ресурси, щоб почати мене в потрібному місці!

Застереження: Я роблю спрощене припущення, що перехід від до В є миттєвим. Я також готовий припустити, що більшість людей в якийсь момент просунуться до Б , припускаючи, що вони живуть досить довго. І я усвідомлюю, що поздовжні дані були б дуже корисними, але припускаю, що вони недоступні в цьому випадку.АББ

Вибачте, якщо це дублікат, як я вже сказав, частина моєї проблеми полягає в тому, що я не знаю, що мені слід шукати. З тієї ж причини, будь-ласка, додайте інші теги, якщо потрібно.

Приклад набору даних: Ssp вказує один з двох підвидів, або Y . Потомство вказує на відсутність потомства ( A ) або принаймні на одне потомство ( B )ХYАБ

 age ssp offsp
  21   Y     A
  20   Y     B
  26   X     B
  33   X     B
  33   X     A
  24   X     B
  34   Y     B
  22   Y     B
  10   Y     B
  20   Y     A
  44   X     B
  18   Y     A
  11   Y     B
  27   X     A
  31   X     B
  14   Y     B
  41   X     B
  15   Y     A
  33   X     B
  24   X     B
  11   Y     A
  28   X     A
  22   X     B
  16   Y     A
  16   Y     B
  24   Y     B
  20   Y     B
  18   X     B
  21   Y     B
  16   Y     B
  24   Y     A
  39   X     B
  13   Y     A
  10   Y     B
  18   Y     A
  16   Y     A
  21   X     A
  26   X     B
  11   Y     A
  40   X     B
   8   Y     A
  41   X     B
  29   X     B
  53   X     B
  34   X     B
  34   X     B
  15   Y     A
  40   X     B
  30   X     A
  40   X     B

Редагувати: приклад даних змінився, оскільки він не був дуже репрезентативним


2
Це цікава ситуація. Чи можете ви надати свої дані?
gung - Відновіть Моніку

1
Я не зможу розмістити повний набір даних, але можу дати приклад набору.
користувач2390246

Відповіді:


26

Це називається поточними даними про стан . Ви отримуєте один перегляд поперечного перерізу даних, а щодо відповіді, все, що вам відомо, це те, що у спостережуваному віці кожного суб'єкта подія (у вашому випадку: перехід від А до В) сталася чи ні. Це особливий випадок інтервальної цензури .

ТiiСiiСi<ТiТХ

Щоб проаналізувати це за допомогою методів інтервальної цензури, ви хочете розмістити свої дані у загальному форматі інтервальної цензури. Тобто для кожного предмета ми маємо інтервал , який представляє інтервал, в якому ми знаємо, що T i повинен міститися. Отже, якщо предмет i підлягає правильній цензурі під час огляду c i , ми пишемо ( c i , ) . Якщо її залишити цензурованою в c i , ми б представляли її як ( 0 , c i ) .(лi,ri)Тiici(ci,)ci(0,ci)

Безсоромний штекер: якщо ви хочете використовувати регресійні моделі для аналізу своїх даних, це можна зробити в R за допомогою icenReg (я автор). Насправді, у подібному питанні про поточні дані про стан , ОП створив хорошу демонстрацію використання icenReg . Він починає з того, що показує, що ігнорування цензурної частини та використання логістичної регресії призводить до упередженості (важлива примітка: він має на увазі використання логістичної регресії без коригування віку . Детальніше про це пізніше).

Ще один чудовий пакет interval, який містить серед інших інструментів статистичні тести журналів.

Редагувати:

@EdM запропонував використовувати логістичну регресію для вирішення проблеми. Я був несправедливо зневажливий, сказавши, що вам доведеться турбуватися про функціональну форму часу. Хоча я стою за твердженням, що вам слід хвилюватися про функціональну форму часу, я зрозумів, що відбулося дуже розумне перетворення, яке призводить до розумного параметричного оцінювача.

Зокрема, якщо ми використовуємо журнал (час) як коваріант у нашій моделі з логістичною регресією, ми закінчуємо модель пропорційної шанси з логістично-логістичною базовою лінією.

Щоб побачити це, спочатку врахуйте, що модель регресії пропорційних шансів визначається як

Коефіцієнти(т|Х,β)=еХТβКоефіцієнтио(т)

Коефіцієнтио(т)т

Тепер розглянемо логістичну регресію з log (Time) як коваріат. У нас тоді є

П(Y=1|Т=т)=досвід(β0+β1журнал(т))1+досвід(β0+β1журнал(т))

Трохи працюючи, ви можете бачити це як CDF логістично-логістичної моделі (з нелінійним перетворенням параметрів).

R демонстрація того, що пристосування еквівалентні:

> library(icenReg)
> data(miceData)
> 
> ## miceData contains current status data about presence 
> ## of tumors at sacrifice in two groups
> ## in interval censored format: 
> ## l = lower end of interval, u = upper end
> ## first three mice all left censored
> 
> head(miceData, 3)
  l   u grp
1 0 381  ce
2 0 477  ce
3 0 485  ce
> 
> ## To fit this with logistic regression, 
> ## we need to extract age at sacrifice
> ## if the observation is left censored, 
> ## this is the upper end of the interval
> ## if right censored, is the lower end of interval
> 
> age <- numeric()
> isLeftCensored <- miceData$l == 0
> age[isLeftCensored] <- miceData$u[isLeftCensored]
> age[!isLeftCensored] <- miceData$l[!isLeftCensored]
> 
> log_age <- log(age)
> resp <- !isLeftCensored
> 
> 
> ## Fitting logistic regression model
> logReg_fit <- glm(resp ~ log_age + grp, 
+                     data = miceData, family = binomial)
> 
> ## Fitting proportional odds regression model with log-logistic baseline
> ## interval censored model
> ic_fit <- ic_par(cbind(l,u) ~ grp, 
+            model = 'po', dist = 'loglogistic', data = miceData)
> 
> summary(logReg_fit)

Call:
glm(formula = resp ~ log_age + grp, family = binomial, data = miceData)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.1413  -0.8052   0.5712   0.8778   1.8767  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  18.3526     6.7149   2.733  0.00627 **
log_age      -2.7203     1.0414  -2.612  0.00900 **
grpge        -1.1721     0.4713  -2.487  0.01288 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 196.84  on 143  degrees of freedom
Residual deviance: 160.61  on 141  degrees of freedom
AIC: 166.61

Number of Fisher Scoring iterations: 5

> summary(ic_fit)

Model:  Proportional Odds
Baseline:  loglogistic 
Call: ic_par(formula = cbind(l, u) ~ grp, data = miceData, model = "po", 
    dist = "loglogistic")

          Estimate Exp(Est) Std.Error z-value        p
log_alpha    6.603 737.2000   0.07747  85.240 0.000000
log_beta     1.001   2.7200   0.38280   2.614 0.008943
grpge       -1.172   0.3097   0.47130  -2.487 0.012880

final llk =  -80.30575 
Iterations =  10 
> 
> ## Comparing loglikelihoods
> logReg_fit$deviance/(-2) - ic_fit$llk
[1] 2.643219e-12

Зауважимо, що ефект grpмає однаковий характер для кожної моделі, і остаточна ймовірність журналу відрізняється лише числовою помилкою. Базові параметри (тобто перехоплення та log_age для логістичної регресії, альфа і бета для інтервальної цензурованої моделі) різні параметризації, тому вони не рівні.

Отже, у вас це є: використання логістичної регресії еквівалентно встановленню пропорційних коефіцієнтів з логістично-логістичним базовим розподілом. Якщо ви добре підходите до цієї параметричної моделі, логістична регресія цілком розумна. Я застерігаю, що з інтервально цензурованими даними напівпараметричні моделі, як правило, віддають перевагу через складність оцінювання відповідності моделі, але якби я справді вважав, що не існує місця для повністю параметричних моделей, я б їх не включав icenReg.


Це виглядає дуже корисно. Я перегляну ресурси, на які ви вказуєте, і пограю з пакетом icenReg. Я намагаюсь поцікавитись, чому логістична регресія менш підходить - пропозиція @EdM виглядає на поверхні так, ніби вона повинна працювати. Чи виникає упередженість, тому що "подія" - тут, має потомство - може вплинути на виживання? Отже, якщо це зменшить виживання, ми виявимо, що серед осіб даного віку ті, хто не відтворився, будуть надмірно представлені?
користувач2390246

1
@ user2390246: Ви можете використовувати логістичну регресію для поточних даних про стан. Але тоді вам доведеться зробити багато роботи, отримуючи функціональну форму віку, і це взаємодія з іншими змінними, правильно. Це дуже нетривіально. Для моделей на основі виживання ви можете використовувати напівпараметричну базову лінію ( ic_spв icenReg) і зовсім не турбуватися з цього приводу. Крім того, дивлячись на криві виживання для двох груп, правильно відповідає на ваше запитання. Спроба відтворити це з логістичного пристосування можна зробити, але знову ж таки, набагато більше роботи, ніж використання моделей виживання.
Кліф АВ

Я погоджуюсь з цим щодо @CliffAB. У мене були вагання щодо того, як рекомендувати логістичну регресію саме через труднощі отримати правильну функціональну форму для залежності від віку. Я не мав досвіду аналізу поточних даних про стан; не потрібно розуміти, що форма залежності від віку є великою перевагою цієї методики. Я все ж буду тримати свою відповідь, щоб ті, хто пізніше вивчає цю тему, зрозуміли, як це відбувається.
EdM

Мені здається, що ваш коментар тут - суть справи. Це допоможе, якби ви могли це розвинути у своїй відповіді. Наприклад, якщо ви могли б використати приклади даних ОП для побудови моделі LR та інтервальної цензурованої моделі виживання, і показати, як останній легше відповідає на дослідницьке питання ОП.
gung - Відновіть Моніку

1
@gung: насправді я зайняв більш м'яку позицію щодо логістичної регресії. Я відредагував свою відповідь, щоб це відобразити.
Кліф АВ

4

f(х)Ж(х)хiif(хi)уi1-Ж(уi)ziЖ(zi)(уi,zi]Ж(zi)-Ж(уi)


1
f(х)Ж(уi)Ж(уi+)

4

Ця проблема, здається, може добре впоратися з логістичною регресією.

У вас є два стани, A і B, і ви хочете вивчити ймовірність того, чи певна особа незворотно перейшла з стану A в стан B. Однією з основних змінних прогнозів був би вік на момент спостереження. Іншим фактором або чинниками, що цікавлять, будуть додаткові змінні прогнози.

Тоді ваша логістична модель використовує фактичні спостереження стану А / В, віку та інших факторів, щоб оцінити ймовірність перебування в стані В як функцію цих прогнокторів. Вік, у якому ця ймовірність перевищує 0,5, може бути використаний як оцінка часу переходу, і ви б потім вивчили вплив інших факторів (-ів) на прогнозований час переходу.

Додано у відповідь на обговорення:

Як і у будь-якій лінійній моделі, ви повинні переконатися, що ваші прогнози трансформуються таким чином, що вони несуть лінійне відношення до змінної результату, в цьому випадку логічні шанси ймовірності переходу в стан B. Це не обов'язково тривіальна проблема. Відповідь @CliffAB показує, як можна використовувати перетворення журналу вікової змінної.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.