Модель виживання для прогнозування Churn - прогнози, що змінюються у часі?


17

Я хочу створити модель прогнозування для прогнозування відбиття і хочу використати дискретну модель виживання часу, пристосовану до набору даних щодо персонального періоду (по одному рядку для кожного клієнта та дискретному періоду, яким вони загрожували, з показником для події - рівним 1 якщо збивання трапилося в той період, інше 0).

  • Мені підходить модель, використовуючи звичайну логістичну регресію, використовуючи техніку Зінгера та Віллета.
  • Збиток клієнта може статися де завгодно протягом місяця, але про це ми знаємо лише наприкінці місяця (тобто колись протягом цього місяця вони пішли). 24 місяці використовуються для тренувань.
  • Використовувана змінна часу - це час початку вибірки - всі клієнти, активні станом на 31.12.2008, - всі вони отримують t = 0 станом на січень 2009 року (не класичний спосіб зробити це, але я вважаю, що спосіб побудови прогностична модель проти традиційної статистичної). Використовуваний коваріат - це повноваження замовника в той момент часу.
  • Існує серія коваріатів, які були побудовані - такі, які не змінюються в рядах набору даних (для даного клієнта), а деякі - з такими.

  • Ці коваріати часового варіанту є проблемою, і те, що змушує мене поставити під сумнів модель виживання для прогнозування збірника (порівняно з звичайним класифікатором, який прогнозує збільшення в наступні х місяців на основі поточних даних знімка). Інваріантні в часі описують активність за місяць до цього, і, як очікується, вони будуть важливими чинниками.

Впровадження цієї прогнозної моделі, принаймні на основі мого сучасного мислення, полягає в оцінці бази клієнтів в кінці кожного місяця, обчислюючи ймовірність / ризик змінитись десь протягом наступного місяця. Потім знову протягом наступних 1,2 або 3 місяців. Потім протягом наступних 1,2,3,4,5,6 місяців. Для ймовірності відтоку 3 та 6 місяців я б використовував оціночну криву виживання.

Проблема:

Що стосується роздуму про підрахунок балів, як я можу включити прогнози, що змінюються часом? Здається, я можу забивати лише за допомогою інваріантних за часом прогнозів або включати ті, які є інваріантними за часом, ви повинні зробити їх інваріантними за часом - встановити значення "прямо зараз".

Хтось має досвід чи думки щодо використання моделі виживання?

Оновлення на основі коментаря @JVM:

Проблема полягає не в оцінці моделі, інтерпретації коефіцієнтів, побудові графіків небезпеки / виживання цікавих коваріатних значень з використанням навчальних даних тощо. Проблема полягає у використанні моделі для прогнозування ризику для даного клієнта. Скажімо, наприкінці цього місяця я хочу оцінити всіх, хто досі є активним клієнтом із цією моделлю. Я хочу прогнозувати оцінку ризику x періодів (ризик закрити рахунок наприкінці наступного місяця; ризик закрити рахунок наприкінці двох місяців з цього часу тощо). Якщо є коваріати, що змінюються за часом, їхні значення невідомі в будь-який майбутній період, тож як використовувати модель?

Остаточне оновлення:

набір даних про особовий період матиме запис для кожної людини та кожного періоду часу, коли вони загрожують. Скажімо, є періоди часу J (можливо, J = 1 ... 24 протягом 24 місяців) Скажімо, я будую дискретну модель виживання в часі, де для простоти ми просто трактуємо час Т як лінійний і маємо два коваріати X і Z, де X - час -інваріантний, тобто він є постійним у кожному періоді для i-ї людини, а Z змінюється за часом, тобто кожен запис для i-ї людини може приймати різне значення. Наприклад, X може бути статтю клієнтів, а Z може бути, скільки вони коштували компанії за попередній місяць. Модель логіту небезпеки для i-ї людини в j-му періоді часу:

логiт(год(тij))=α0+α1Тj+β1Хi+β2Zij

Zj

Єдині рішення, на які я можу подумати, це:

  • Не використовуйте коваріати, що змінюються часом, як Z. Це значно послабить модель передбачення події взбивання, хоча, наприклад, зменшення Z означає, що клієнт відключається і, можливо, готується виїхати.
  • Використовуйте коваріати, що змінюються в часі, але відставання їх (як Z було вище), що дозволяє нам прогнозувати, однак на багато періодів ми відставали від змінної (знову ж таки, думаючи про модель, яка містить нові поточні дані).
  • Використовуйте коваріати, що змінюються часом, але зберігайте їх як константи в прогнозі (таким чином, модель підходила для різних даних, але для прогнозування ми залишаємо їх постійними та імітуємо, як зміни цих значень, якщо згодом насправді спостерігатимуть, впливатимуть на ризик збивання.
  • Zj

Пару запитань: По-перше, ви погоджуєтесь з використанням дискретної моделі часу? Те, що ви хочете зробити, може бути простішим у параметричній моделі виживання. По-друге, чи змогли б ви навести приклад того, що ви маєте на увазі під струпом; Ось, можливо, просто приклад того, як виглядають ваші дані?
Джейсон Морган

@JWM. Churn означає, що клієнт скасував свій рахунок. Оскільки я знаю лише місяць, коли клієнт скасував, я вважаю, що дискретний час підходить. Я вважаю, що однакова проблема з передбачувачами, що змінюються за часом, існує, якщо модель дискретна або безперервна (Кокс або АФТ) Ні?
B_Miner

Прошу вибачення за те, що все ще не зовсім сприймаю вашу стурбованість. Ви повинні мати можливість досить добре оцінити свою модель. Хоча, оскільки у вас, ймовірно, буде похибка вимірювання у вашій TVC та залежній змінній, ви, ймовірно, повинні використовувати відставання TVC у моделі. В іншому випадку ви ризикуєте використовувати коеваріантне значення, яке вимірюється після настання події, як предиктор для цієї події. Ви можете побачити питання про узгодженість часу. Хоча я знаю, що ваша мета - прогнозування, якщо ви хочете прийнятних інтервалів довіри, ви хочете оцінити надійні стандартні помилки (принаймні).
Джейсон Морган

@JVM, мабуть, я не зміг добре пояснити себе. Я додав відповідь у запитання.
B_Miner

t=0с>0П(Тi>с+х|Жс)

Відповіді:


1

Дякую за роз’яснення, B_Miner. Я не дуже багато прогнозую себе, тому візьміть те, що випливає з дрібкою солі. Ось що я зробив би, як мінімум, перший зріз даних.

  • Спочатку сформулюйте та оцініть модель, яка пояснює ваші ТВС. Зробіть всю перехресну перевірку, перевірку помилок тощо, щоб переконатися, що у вас є гідна модель даних.
  • По-друге, сформулюйте та оцініть модель виживання (будь-якого смаку). Зробіть всю перехресну перевірку, перевірку помилок, щоб переконатися, що ця модель також є розумною.
  • По-третє, визначтесь із методом використання прогнозів із моделі ТВС як основи прогнозування ризиків розвитку і все, що ви хочете. Ще раз переконайтесь, що прогнози обґрунтовані за допомогою вибірки.

Коли у вас є модель, яку ви вважаєте розумною, я б запропонував завантажувати дані як спосіб включити помилку в першій моделі TVC у другу модель. В основному застосовують кроки 1-3 N рази, кожен раз беручи зразок завантажувальної програми з даних і створюючи набір прогнозів. Коли у вас є розумна кількість прогнозів, підсумуйте їх будь-яким способом, який ви вважаєте, що підходить для вашого завдання; наприклад, забезпечити середній ризик виникнення пошкодження для кожного окремого або коваріантного профілю, що становить інтерес, а також 95% довірчі інтервали.


@JVM. Чи правильно я читаю, що Ваша пропозиція - це мій останній варіант рішення (в остаточному оновлення). Що ви розробляєте моделі для прогнозування кожного Z (TVC) для використання в реальній моделі виживання?
B_Miner

2

Як я бачу, є дві парадигми аналізу виживання, які можна використовувати. Регресія Кокса дозволяє застосовувати коваріати, що змінюються за часом, і давала б оцінку ризику скасування, обумовленому будь-яким певним набором коваріатів відносно середнього рівня скасування. Рамка GLM з помилками Пуассона також є пропорційною моделлю небезпеки і особливо підходить для дискретних інтервалів. JVM вказав, що в поточному місяці можлива помилка у використанні неповних даних, але я відчуваю, що ви хочете, щоб оцінка була обумовлена ​​останнім значенням ко-змінної або набору коваріатів. Кращий опис ситуації з даними може дати кращі опрацьовані приклади ....

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.