Чи можна концептуально зрозуміти модель pareto / nbd?

Я вчусь використовувати пакет BTYD, який використовує модель Pareto / NBD, щоб передбачити, коли очікується повернення замовника. Однак уся література про цю модель сповнена математики, і, здається, не існує простого / концептуального пояснення функціонування цієї моделі. Чи можна зрозуміти модель Pareto / NBD для не-математиків? Я переглянув цей відомий документ Фейдера . Модель Pareto / NBD передбачає такі припущення:

i. Під час активності кількість операцій, здійснених клієнтом за часовий період t, розподіляється Пуассоном зі швидкістю транзакцій λ.

ii. Неоднорідність ставок транзакцій серед клієнтів слід розподілу гамми з параметром форми r та параметром шкали α.

iii. У кожного замовника спостерігається незабезпечений «термін експлуатації» довжиною τ. Цей момент, коли клієнт стає неактивним, розподіляється експоненціально зі швидкістю випадання µ.

iv) Неоднорідність швидкості випадання серед клієнтів слід розподілу гамми з параметром форми s та параметром шкали β.

v. Коефіцієнт транзакції λ та коефіцієнт відмови µ змінюються незалежно від клієнтів. "

Я не розумію (інтуїція позаду) обґрунтування припущень (ii), (iii) та (iv). Чому тільки ці дистрибуції, чому не інші?

Також припущення щодо моделі BG / NBD:

i.) Під час активності кількість транзакцій, здійснених клієнтом, слідкує за процесом Пуассона зі швидкістю трансакції λ. Це еквівалентно припущенню, що час між транзакціями розподіляється експоненціально зі швидкістю транзакції λ

ii) Гетерогенність у λ слід гамма-розподілу

iii) Після будь-якої транзакції замовник стає неактивним із ймовірністю p. Тому точка, в якій клієнт «випадає», розподіляється між транзакціями відповідно до (зміщеного) геометричного розподілу з pmf

iv) Гетерогенність у p слід за бета-розподілом

(Інтуїтивна) раціональність припущень (ii), (iii) та (iv) також зовсім не очевидна.

Я буду вдячний за будь-яку допомогу. Дякую.

— користувач3282777
джерело

Не могли б ви додати якусь посилання на літературу, яка вам складна?

— kjetil b halvorsen

Я розробив, де все незрозуміло. Я знаю, що не просто запровадити інтуїцію до гри, але якщо це було так можливо, це буде дуже корисно. Дякую.

— користувач3282777

Уявіть, що ви новопризначений менеджер квіткового магазину. У вас є дані про минулорічних клієнтів - частоту, з якою вони здійснюють покупки та скільки часу з часу останнього відвідування. Ви хочете знати, скільки бізнесу, ймовірно, принесуть перераховані клієнти в цьому році. Є кілька речей, які слід врахувати:

[припущення (ii)] Клієнти мають різні звички до покупок.

Деяким подобається постійно мати свіжі квіти, а інші лише за особливих випадків. Більш сенс мати розподіл за швидкістю транзакцій , ніж припускати, що один пояснює поведінку кожного. $\lambda$ $\lambda$

Розподіл повинен мати кілька параметрів (не обов'язково мати багато даних), бути досить гнучким (мабуть, ви не сприймаєте підприємця гуру і не знаєте все про звички покупок) і приймати значення в додатних дійсних числах. Гамма-дистриб'ютор позначає всі ці скриньки, і він добре вивчений і відносно простий у роботі. Він часто використовується як пріоритет для позитивних параметрів в різних умовах.

[припущення (iii)] Можливо, ви вже втратили деяких клієнтів у списку.

Якщо в останній рік Андреа купувала квіти приблизно раз на місяць, це досить безпечна ставка, яку вона поверне цього року. Якщо Бен купував квіти щотижня, але його немає вже місяцями, то, можливо, він знайшов інший квітковий магазин. Створюючи майбутні бізнес-плани, ви можете розраховувати на Андреа, але не на Бена.

Клієнти не скажуть вам, коли вони переїхали, і саме тут для обох моделей починається припущення про "незастережене життя". Уявіть третього замовника, Кері. Моделі Pareto / NBD та BG / NBD дають вам два різні способи подумати про те, що Кері назавжди вийде з магазину.

Що стосується випадку Парето / NBD, уявіть, що в будь-який момент часу є невеликий шанс, що Кері може натрапити на кращий магазин, ніж ваш. Цей постійний нескінченно малий ризик дає вам експоненціальне життя - і чим довше минуло від останнього візиту Кері, тим довше він зазнавав інших (можливо кращих) квіткових магазинів.

Справа BG / NBD трохи більше надумана. Щоразу, коли Кері приходить у ваш магазин, він зобов’язаний придбати кілька квітів. Під час перегляду він розгляне зміни в ціні, якості та різноманітності після останнього відвідування, і це, зрештою, змусить його вирішити, чи повертатись наступного разу, чи шукати інший магазин. Тому замість того, щоб постійно наражатися на небезпеку, Кері має певну ймовірність просто вирішити піти після кожної покупки.

[припущення (iv)] Не всі покупці однаково віддані вашому магазину.

Деякі клієнти постійні, і лише смерть - або різке зростання цін - змусять їх піти. Інші, можливо, захочуть дослідити, і з радістю залишать вас заради нового квіткового магазину шипшини через дорогу. Замість того, щоб ставитись до єдиного виходу для всіх клієнтів, має більше сенсу розподілити коефіцієнти вибуття (або ймовірності у випадку BG / NBD).

Це працює дуже точно так само, як і звички покупців. Ми після гнучкої налагодженої дистрибуції з кількома параметрами. У випадку Pareto / NBD ми використовуємо гамму, оскільки показник знаходиться в додатних реальних числах. У випадку BG / NBD ми використовуємо бета-версію, що є стандартом до параметрів у . $\mu$ $(0; 1)$

Я сподіваюся, що це допомагає. Погляньте на оригінальний документ (Schmittlein et al., 1987), якщо ви ще цього не зробили - вони пройдуть там інтуїцію.

— Люба Б.
джерело

Дякую за таку важку працю та чітке пояснення. Причина використання дистрибуції Gamma полягає в тому, що з ними відносно легко працювати і часто використовується як попередня позитивні параметри в різних умовах. Хоча форми більшості гамма-розподілу (з різними значеннями параметрів) легко зрозуміти, але підходити «Гетерогенність швидкостей транзакцій у клієнтів» до гамма-розподілу, який майже падає експоненціально (для k = 1, theta = 2, як у графі Вікіпедії [ тут] en.wikipedia.org/wiki/Gamma_distribution ) важко зрозуміти. Чи виключаємо ми таку поведінку?

— користувач3282777

Ваші оцінки параметрів Gamma залежатимуть від даних, з якими ви працюєте. Вся справа в тому, що розподіл Gamma може мати суттєво різні форми на основі всього двох параметрів, і ви можете дозволити даним говорити самі за себе, не нав'язуючи занадто суворих припущень (більш-менш).

— Люба Б.