Я хочу створити модель прогнозування для прогнозування відбиття і хочу використати дискретну модель виживання часу, пристосовану до набору даних щодо персонального періоду (по одному рядку для кожного клієнта та дискретному періоду, яким вони загрожували, з показником для події - рівним 1 якщо збивання трапилося в той період, інше 0).
- Мені підходить модель, використовуючи звичайну логістичну регресію, використовуючи техніку Зінгера та Віллета.
- Збиток клієнта може статися де завгодно протягом місяця, але про це ми знаємо лише наприкінці місяця (тобто колись протягом цього місяця вони пішли). 24 місяці використовуються для тренувань.
- Використовувана змінна часу - це час початку вибірки - всі клієнти, активні станом на 31.12.2008, - всі вони отримують t = 0 станом на січень 2009 року (не класичний спосіб зробити це, але я вважаю, що спосіб побудови прогностична модель проти традиційної статистичної). Використовуваний коваріат - це повноваження замовника в той момент часу.
Існує серія коваріатів, які були побудовані - такі, які не змінюються в рядах набору даних (для даного клієнта), а деякі - з такими.
Ці коваріати часового варіанту є проблемою, і те, що змушує мене поставити під сумнів модель виживання для прогнозування збірника (порівняно з звичайним класифікатором, який прогнозує збільшення в наступні х місяців на основі поточних даних знімка). Інваріантні в часі описують активність за місяць до цього, і, як очікується, вони будуть важливими чинниками.
Впровадження цієї прогнозної моделі, принаймні на основі мого сучасного мислення, полягає в оцінці бази клієнтів в кінці кожного місяця, обчислюючи ймовірність / ризик змінитись десь протягом наступного місяця. Потім знову протягом наступних 1,2 або 3 місяців. Потім протягом наступних 1,2,3,4,5,6 місяців. Для ймовірності відтоку 3 та 6 місяців я б використовував оціночну криву виживання.
Проблема:
Що стосується роздуму про підрахунок балів, як я можу включити прогнози, що змінюються часом? Здається, я можу забивати лише за допомогою інваріантних за часом прогнозів або включати ті, які є інваріантними за часом, ви повинні зробити їх інваріантними за часом - встановити значення "прямо зараз".
Хтось має досвід чи думки щодо використання моделі виживання?
Оновлення на основі коментаря @JVM:
Проблема полягає не в оцінці моделі, інтерпретації коефіцієнтів, побудові графіків небезпеки / виживання цікавих коваріатних значень з використанням навчальних даних тощо. Проблема полягає у використанні моделі для прогнозування ризику для даного клієнта. Скажімо, наприкінці цього місяця я хочу оцінити всіх, хто досі є активним клієнтом із цією моделлю. Я хочу прогнозувати оцінку ризику x періодів (ризик закрити рахунок наприкінці наступного місяця; ризик закрити рахунок наприкінці двох місяців з цього часу тощо). Якщо є коваріати, що змінюються за часом, їхні значення невідомі в будь-який майбутній період, тож як використовувати модель?
Остаточне оновлення:
набір даних про особовий період матиме запис для кожної людини та кожного періоду часу, коли вони загрожують. Скажімо, є періоди часу J (можливо, J = 1 ... 24 протягом 24 місяців) Скажімо, я будую дискретну модель виживання в часі, де для простоти ми просто трактуємо час Т як лінійний і маємо два коваріати X і Z, де X - час -інваріантний, тобто він є постійним у кожному періоді для i-ї людини, а Z змінюється за часом, тобто кожен запис для i-ї людини може приймати різне значення. Наприклад, X може бути статтю клієнтів, а Z може бути, скільки вони коштували компанії за попередній місяць. Модель логіту небезпеки для i-ї людини в j-му періоді часу:
Єдині рішення, на які я можу подумати, це:
- Не використовуйте коваріати, що змінюються часом, як Z. Це значно послабить модель передбачення події взбивання, хоча, наприклад, зменшення Z означає, що клієнт відключається і, можливо, готується виїхати.
- Використовуйте коваріати, що змінюються в часі, але відставання їх (як Z було вище), що дозволяє нам прогнозувати, однак на багато періодів ми відставали від змінної (знову ж таки, думаючи про модель, яка містить нові поточні дані).
- Використовуйте коваріати, що змінюються часом, але зберігайте їх як константи в прогнозі (таким чином, модель підходила для різних даних, але для прогнозування ми залишаємо їх постійними та імітуємо, як зміни цих значень, якщо згодом насправді спостерігатимуть, впливатимуть на ризик збивання.