Я трохи спрощуючи, я маю близько мільйона записів, які фіксують час входу та виходу людей у систему, яка охоплює близько десяти років. Кожен запис має час входу, але не кожен запис має час виходу. Середній час роботи в системі становить ~ 1 рік.
Часи виходу відсутні через дві причини:
- Людина не покинула систему під час збору даних.
- Час виходу людини не зафіксовано. Так трапляється, говорять, 50% записів
Цікаві питання:
- Чи менше людей проводять менше часу в системі, а скільки менше часу.
- Чи записується більше часу виходу та скільки.
Ми можемо моделювати це, сказавши, що ймовірність запису виходу змінюється лінійно з часом і що час у системі має Weibull, параметри якого лінійно змінюються з часом. Тоді ми можемо зробити максимальну оцінку ймовірності різних параметрів і очні яблука отримати результати та вважати їх правдоподібними. Ми вибрали дистрибутив Вейбулла, тому що він, здається, використовується для вимірювання часу життя, і це цікаво сказати, на відміну від відповідності даним краще, ніж скажімо, розподілу гамми.
Де я повинен шукати, щоб отримати підказку, як це зробити правильно? Ми дещо кмітливі, але не надзвичайно статистично спритні.