Модель Кокса проти логістичної регресії


15

Скажімо, нам задається наступна проблема:

Прогнозуйте, які клієнти, швидше за все, припинять купувати в нашому магазині протягом наступних 3 місяців.
Для кожного клієнта ми знаємо місяць, коли його почали купувати в нашому магазині, а також ми маємо багато поведінкових особливостей у щомісячних агрегатах. "Старший" клієнт купує вже п'ятдесят місяців; позначимо час, коли клієнт почав купувати через t ( t[0,50] ). Можна припустити, що кількість клієнтів дуже велика. Якщо клієнт припиняє купувати на три місяці, а потім повертається, то він розглядається як новий клієнт, тому подія (припинення покупки) може статися лише один раз.

На думку мені приходять два рішення:

Логістичний регрес - для кожного клієнта та кожного місяця (можливо, за винятком трьох останніх місяців) ми можемо сказати, чи припинив клієнт купувати чи ні, тому ми можемо робити прокатні зразки з одним спостереженням на клієнта та місяць. Ми можемо використовувати кількість місяців від початку як категоричну змінну, щоб отримати деякий еквівалент функції базової небезпеки.

Розширена модель Кокса - Ця проблема також може бути змодельована за допомогою розширеної моделі Кокса. Здається, ця проблема більше підходить для аналізу виживання.

Питання: Які переваги аналізу виживання у подібних проблемах? Аналіз виживання був придуманий чомусь, тому має бути якась серйозна перевага.

Мої знання в аналізі виживання не дуже глибокі, і я думаю, що більшість потенційних переваг моделі Кокса також можна досягти за допомогою логістичної регресії.

  • Еквівалент стратифікованої моделі Кокса можна отримати, використовуючи взаємодію і стратифікуючої змінної. t
  • Модель взаємодії Кокса може бути отримана шляхом занурення населення в декілька підгруп та оцінки LR для кожної підгрупи.

Єдина перевага, яку я бачу, - це те, що модель Кокса є більш гнучкою; наприклад, ми можемо легко обчислити ймовірність того, що клієнт перестане купувати через 6 місяців.

Відповіді:


10

Проблема моделі Кокса полягає в тому, що вона нічого не передбачає. "Перехоплення" (базова функція небезпеки) у моделях Кокса ніколи фактично не оцінюється. Логістична регресія може використовуватися для прогнозування ризику чи ймовірності для якоїсь події, в цьому випадку: чи приходить суб'єкт, щоб придбати щось на конкретний місяць.

Проблема припущень, що стоять за звичайною логістичною регресією, полягає в тому, що ви ставитесь до кожного спостереження за місяць за людиною як до незалежного, незалежно від того, чи це той самий чоловік, чи той самий місяць, в якому спостерігалися спостереження. Це може бути небезпечно, оскільки деякі предмети купуються через двомісячні інтервали, тому послідовні спостереження за місячними спостереженнями негативно співвідносяться. Крім того, клієнт може бути утриманий або втрачений добрими чи поганими переживаннями, які ведуть людину поспіль за місяцями спостереження позитивно співвідносяться.

Я думаю, що вдалим початком цієї проблеми прогнозування є підхід до прогнозування, де ми можемо використовувати попередню інформацію для інформування наших прогнозів щодо діяльності наступного місяця. Простий початок цієї проблеми - коригування ефекту, що відстає, або показника того, чи приїхав суб'єкт у минулому місяці, як прогнозуючи, чи може він прибути цього місяця.


2
Чи не можна тут використовувати багаторівневу логістичну регресію для вирішення питання про незалежність? Рівень 2 буде клієнтом, а рівень 1 буде повторюватись у часі.
Forinstance

1
@AdamO, перехоплення можна оцінити, і в поєднанні з прогнозуванням часткової небезпеки індивіда ми можемо створити індивідуальні криві виживання. Я не впевнений, чому ви вважаєте, що модель Кокса може передбачити "нічого".
Cam.Davidson.Pilon

δ

З метою прогнозування, я вважаю, що це не блокатори. Незвичайно поєднувати декілька оцінок для створення єдиного прогнозу, і (на жаль, я не виступаю за це) інтервали прогнозування зазвичай не використовуються та не є доступними.
Cam.Davidson.Pilon

@ Cam.Davidson.Pilon Я не сказав, що прогнози ризику неможливо отримати з даних про виживання, я сказав, що моделі Кокса не прогнозують ризик. Крок між викликом coxphта отриманням оцінок ризиків крутий і безліч.
AdamO

3

TjjPr(Tj>3)j3 місяці.

Аналіз виживання враховує той факт, що кожен клієнт має свій власний час вступу до дослідження. Факт, що період спостереження відрізняється від клієнтів, не є проблемою.

j не припиняє купувати протягом періоду дослідження, тоді записується останній час спостереження, і дані вважаються правильно цензурованими. Методи аналізу виживання спеціально розроблені для професійного обліку цензури.


Зауваження : ось документ, який свідчить про те, що за певних обмежень і логістична, і модель Кокса пов'язані між собою.


Дякую за відповідь Якщо SA належним чином поводиться з цензурою, то це означає, що рішення LR не поводиться з цензурою належним чином. Як це може призвести? Я досі просто не можу переконати міссельфт, що SA краще для встановленої цілі часу. Чи можу я десь знайти цю статтю безкоштовно?
Томек Тарчинський

Я здогадуюсь, що ти записав би Y=0

Мій електронний лист: tomek.tarczynski@gmail.com Дуже дякую!
Томек Тарчинський

@TomekTarczynski: отримано?
окрам

Так, ще раз дякую! Я завтра встигну прочитати його уважніше. Я просто зняв це, і якщо я правильно зрозумів, це вирішує незначну проблему. Використовуючи аналогію магазину, він порівнює LR та COX з проблемою "Яка ймовірність, що клієнт більше не буде клієнтом після встановленої кількості місяців від початку?"
Томек Тарчинський

2

Маркетингова література пропонує Pareto / NBD тут або подібне. Ви в основному припускаєте, що покупка - поки вона купує - слідує за негативним біноміальним розподілом. Але вам доведеться моделювати час, коли клієнт зупиняється. Це інша частина.

Піт Фейдер та Брюс Харді мають деякі документи про це разом з Ейбом.

Існує кілька простіших підходів до Pareto / NBD, навіть лише підрахунок різних робіт Fader і Hardie. НЕ використовуйте простіший підхід, при якому передбачається, що ймовірність зупинки є постійною в кожен момент часу - це означає, що ваші більш важкі клієнти швидше випадуть. Це простіша модель, яка підходить, але неправильна.

Я не підходив до одного із них; вибачте, що трохи неспецифічний.

Ось посилання на документ Abe, який переглядає цю проблему як ієрархічний Байєс. . Якби я знову працював у цій галузі, я думаю, я би перевірив цей підхід.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.