Чому вони вибирали б тут розповсюдження гамми?


14

В одній із вправ мого курсу ми використовуємо медичний набір даних Kaggle .

Вправа говорить:

ми хочемо моделювати розподіл індивідуальних зарядів, і ми також дійсно хочемо мати можливість виявити нашу невизначеність щодо цього розподілу, щоб ми могли краще зафіксувати діапазон значень, який ми можемо побачити. Завантаження даних та виконання початкового перегляду:

сюжет

З вищесказаного ми можемо підозрювати, що тут відбувається якесь експоненціальне поширення. ... Можливості нарахування страхових вимог можуть бути мультимодальними. Розподіл гами може застосовуватися, і ми можемо перевірити це на розподіл зборів, які були спочатку не страховими вимогами.

Я переглянув "Гамма-розподіл" і виявив "безперервне, лише позитивне, унімодальне розподіл, яке кодує час, необхідний для подій" альфа "в процесі Пуассона із середнім часом прибуття" бета ""

Тут немає часу, лише пов’язані між собою збори, застраховані чи ні.

Чому вони обрали б розподіл гами?

Відповіді:


27

Якщо ви розглядаєте прості параметричні моделі для умовного розподілу даних (тобто розподілу кожної групи або очікуваного розподілу для кожної комбінації змінних предиктора), і ви маєте справу з позитивним безперервним розподілом, двома поширеними варіантами є Gamma і log-Normal . Крім того, що задовольняють специфікацію області розповсюдження (реальні числа більше нуля), ці розподіли обчислювально зручні та часто мають механістичний сенс.

  • Розподіл log-Normal легко виводиться шляхом експоненції нормального розподілу (навпаки, log-перетворюючий log-Normal відхиляється, дає нормальне відхилення). З механістичної точки зору, log-Normal виникає через центральну граничну теорему, коли кожне спостереження відображає добуток великої кількості iid випадкових величин. Після перетворення даних у журнал ви отримаєте доступ до величезної кількості обчислювальних та аналітичних інструментів (наприклад, до будь-якого, що передбачає нормальність або використовує методи найменших квадратів).
  • nλдоступний; він також має особливо зручну форму для аналізу.

Є й інші причини, з яких можна вибрати ту чи іншу - наприклад, "важкість" хвоста розподілу , яка може бути важливою при прогнозуванні частоти екстремальних подій. Існує багато інших позитивних, постійних розповсюджень (наприклад, дивіться цей список ), але вони, як правило, використовуються у більш спеціалізованих програмах.

Дуже мало таких розподілів охоплює мультимодальність, яку ви бачите в граничних розподілах вище, але мультимодальність може бути пояснена даними, згрупованими в категорії, описані спостережуваними категоричними прогнозами. Якщо немає спостережуваних предикторів, які пояснюють мультимодальність, можна вибрати модель кінцевої суміші на основі суміші (невеликого, дискретного) числа позитивних безперервних розподілів.


1
також варто відзначити, що гамма-та лонормальні моделі дають майже завжди дуже схожі результати
carlo

2
Я працюю в дослідженнях охорони здоров’я. Я можу підтвердити, що в цілому гамма або лонормальне розповсюдження було б відповідним вибором для моделі витрат на охорону здоров'я або суми претензій. Розподіл гами можна використовувати в часі для моделей подій, але вони не застосовуються тут.
Weiwen Ng

Спасибі!! Це було дуже корисно.
Вікі Б
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.