Нульові завищені розподіли, що вони насправді?


15

Я намагаюся зрозуміти нульові завищені розподіли. Хто вони? В чому справа?

Якщо у мене є дані з багатьма нулями, то я міг би підходити до логістичної регресії спочатку обчислити ймовірність нулів, а потім я міг видалити всі нулі, а потім підходити до звичайної регресії за допомогою мого вибору розподілу (пуассон, наприклад).

Тоді хтось сказав мені "ей, використовуй нульовий завищений розподіл", але, дивлячись на це, схоже, це не робить щось інакше, ніж те, що я запропонував вище? Він має регулярний параметр , а потім інший параметр для моделювання ймовірності нуля? Це просто робить обидві речі одночасно ні?pμp


3
Чому ви видаляєте всі нулі? ви можете зробити це разом, спочатку обчислюєте ймовірність 0 і 1 і використовуєте це як вагу для розподілу Пуассона, що є завищеною нульовою моделлю (розподілом). Прочитайте це, цілком зрозуміло en.wikipedia.org/wiki/Zero-inflated_model
Глибокий Північ

Відповіді:


13

підходять під логістичну регресію спочатку обчислюють ймовірність нулів, а потім я можу видалити всі нулі, а потім підходити до звичайної регресії за допомогою мого вибору розподілу (пуассон, наприклад)

Ви абсолютно праві. Це один із способів пристосувати модель до завищення нуля (або, як в коментарях зазначає Ахім Цайле, це суворо "модель перешкод", яку можна розглядати як особливий випадок з надутою нульовою моделлю).

Різниця між описаною вами процедурою та моделлю "все в одному" з нульовим надуванням - це поширення помилок. Як і всі інші двоетапні процедури в статистиці, загальна невизначеність ваших прогнозів на кроці 2 не враховуватиме невизначеність щодо того, має бути прогноз 0 або ні.

Іноді це необхідне зло. На щастя, це в цьому випадку не обов’язково. У R ви можете використовувати pscl::hurdle()або fitdistrplus::fitdist().


чи можете ви пояснити це «загальна невизначеність ваших прогнозів на кроці 2 не враховуватиме невизначеність щодо того, має бути прогноз 0 або ні»? Коли ви робите Zip Poisson, ви збільшите ймовірність першої частини на функцію вірогідності моделі Пуассона, тому на кроці 2 буде враховано невизначеність 0 або 1.
Глибока північ,

1
@DeepNorth, якщо під "невизначеністю 0 або 1" ви маєте на увазі щось на зразок , то це твердження є самою оцінкою. Будучи оцінкою, існує певна ступінь невизначеності. Який діапазон правдоподібних значень? Наскільки ми впевнені, що вірно? Це невизначеність, яка не поширюється в простому двоступеневому порядку. 0,51P(Y=1|X=x)=0.510.51
shadowtalker

3
@ssdecontrol Зазвичай це називається не завищеною нулем моделлю, а моделлю перешкод (наприклад, pscl::hurdle()). А для отримання належного пристосування розподіл, що використовується для даних без нулів, повинен бути нульовим (або не призводити до нулів в першу чергу). Дивіться мою відповідь для отримання більш детальної інформації.
Ахім Цейлей

9

Основна ідея, яку ви описуєте, - це правильний підхід, і її часто називають моделлю перешкод (або модель з двох частин), а не нульову модель .

Однак дуже важливо, щоб модель для ненульових даних враховувала видалення нулів. Якщо ви помістите модель Пуассона до даних без нулів, це майже напевно призведе до поганого пристосування, оскільки розподіл Пуассона завжди має позитивну ймовірність. Природною альтернативою є використання нульового розподілу Пуассона, що є класичним підходом до запобігання регресії для даних підрахунку.

Основна відмінність між моделями, завищеними від нуля та перешкодами, полягає в тому, яка ймовірність моделюється у бінарній частині регресії. Для перешкодних моделей це просто ймовірність нуля проти не нуля. У нульових завищених моделях це ймовірність мати надлишковий нуль , тобто ймовірність нуля, що не викликається не завищеним розподілом (наприклад, Пуассоном).

Для обговорення як моделей перешкод, так і нульових показників інфляції для підрахунку даних у R див. Наш рукопис, опублікований в JSS, а також доставлений як віньєтка до psclпакету: http://dx.doi.org/10.18637/jss.v027.i08


7

Те, що сказав ssdecontrol, дуже коректно. Але я хотів би додати до дискусії кілька центів.

Я просто переглядав лекцію про нульові завищені моделі для підрахунку даних Річарда МакЛарета на YouTube.

Має сенс оцінювати р, контролюючи змінні, що пояснюють швидкість чистої моделі Пуассона, особливо якщо врахувати, що шанс виникнення спостережуваного нуля від розподілу Пуассона не становить 100%.

Нульові завищені розподіли як багаторівнева модель

Це також має сенс, якщо ви враховуєте параметри моделі, оскільки в кінцевому підсумку ви маєте дві змінні для оцінки, p і швидкість моделі Пуассона, і два рівняння, випадок, коли підрахунок дорівнює нулю, і випадок, коли підрахунок відрізняється від нуль.

Джерело зображень: Статистичне переосмислення - Байєсівський курс з прикладами в R та Stan від Річарда МакЛарета

Редагувати : друкарські помилки


Посилання на навчальні матеріали оцінені ... але як це дає відповідь на питання? Це виглядає як коментар, опублікований як відповідь ...
RTbecard
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.