Яка різниця між нульовими і надутими моделями?


81

Цікаво, чи існує чітка різниця між так званими нульово-завищеними розподілами (моделями) та так званими розподілами перешкод-нуль (моделі)? У літературі такі терміни зустрічаються досить часто, і я підозрюю, що вони не однакові, але ви, будь ласка, поясніть мені різницю простими термінами?

Відповіді:


80

Дякую за цікаве запитання!

Різниця: Одне обмеження стандартних моделей підрахунку полягає в тому, що нулі та ненулі (позитивні) приймаються з одного і того ж процесу генерації даних. У моделях перешкод ці два процеси не обмежуються однаковими. Основна ідея полягає в тому, що ймовірність Бернуллі керує двійковим результатом того, чи має числова змінна нульова чи позитивна реалізація. Якщо реалізація позитивна, перешкода перетинається, а умовний розподіл позитивів регулюється моделлю даних обліку усіченого нуля. З нульовими завищеними моделями, змінна відповіді моделюється як суміш розподілу Бернуллі (або називають його точковою масою в нулі) та розподілу Пуассона (або будь-якого іншого розподілу підрахунків, підтримуваного на невід'ємні цілі числа). Більш детально та формули див., Наприклад, Gurmu and Trivedi (2011) та Dalrymple, Hudson та Ford (2003).

Приклад: Моделі перешкод можуть бути мотивовані послідовними процесами прийняття рішень, з якими стикаються люди. Ви спочатку вирішуєте, чи потрібно щось купувати, а потім приймаєте рішення про кількість цього чогось (що повинно бути позитивним). Коли вам дозволяється (або може потенційно) нічого не купувати після того, як ви вирішили придбати щось, є прикладом ситуації, коли модель із заниженою нульовою точністю доречна. Нулі можуть надходити з двох джерел: а) не приймати рішення про покупку; б) хотів купити, але в кінцевому підсумку нічого не купував (наприклад, немає на складі).

Бета: модель перешкод - це особливий випадок моделі з двох частин, описаної у главі 16 Фріса (2011). Там ми побачимо, що для моделей з двох частин обсяг використовуваної медичної допомоги може бути безперервним, а також змінною кількістю. Тож те, що в літературі дещо заплутано називають "нульовим завищеним бета-розподілом", насправді належить до класу розподілів та моделей з двох частин (настільки поширених в актуарній науці), що відповідає вищенаведеному визначенню моделі перешкод. . У цій чудовій книзі обговорено нульові завищені моделі в розділі 12.4.1 та моделі перешкод у розділі 12.4.2, із формулами та прикладами з актуарних застосувань.

Історія: нульово завищені моделі Пуассона (ZIP) без коваріатів мають довгу історію (див., Наприклад, Джонсон та Коц, 1969). Загальна форма моделей регресії ZIP, що включає коваріати, пояснюється Ламбертом (1992). Моделі перешкод спочатку були запропоновані канадським статистиком Креггом (1971), а пізніше були розроблені далі Маллахі (1986). Ви можете також розглянути Croston (1972), де позитивні геометричні підрахунки використовуються разом з процесом Бернуллі для опису цілочислового процесу, домінує нулі.

R: Нарешті, якщо ви використовуєте R, є пакет pscl для "Класи та методи для R, розроблений в політологічній обчислювальній лабораторії" Саймона Джекмана, що містить функції hurdle () та zeroinfl () від Achim Zeileis.

Для виготовлення вищезазначених даних зверталися до наступних посилань:

  • Гурму, С. і Триведі, П. К. Зайві нулі в моделях підрахунку для рекреаційних екскурсій Журнал ділової та економічної статистики, 1996, 14, 469-477
  • Джонсон, Н., Коц, С., Розподіли в статистиці: дискретні розподіли. 1969, Хауфтон Мізін, Бостон
  • Ламберт, Д., нульова завищена пуассонова регресія із застосуванням до дефектів у виробництві. Технометрія, 1992, 34 (1), 1–14.
  • Cragg, JG Деякі статистичні моделі для обмежених залежних змінних із застосуванням до попиту товарів тривалого користування Econometrica, 1971, 39, 829-844
  • Mullahy, J. Специфікація та тестування деяких моделей даних з модифікованими підрахунками Journal of Econometrics, 1986, 33, 341-365
  • Фріс, регресійне моделювання EW за допомогою актуарних та фінансових додатків Cambridge University Press, 2011
  • Dalrymple, ML; Хадсон, Іл і Форд, кінцева суміш RPK, моделі з нульовими роздувами Пуассона та Хердл із застосуванням до обчислювальної статистики та аналізу даних SIDS, 2003, 41, 491-504
  • Кростон, JD Прогнозування та контроль запасів для періодичних попитів Оперативні дослідження щокварталу, 1972, 23, 289-303

2
Тоді чи є модель перешкод насправді сама "модель"? Або працює дві послідовні та окремо оцінені моделі? Уявіть, як моделювати конкурентоспроможність виборчих перегонів, дивлячись на показники конкурентоспроможності (1 - перемога у перемозі). Це обмежено [0, 1), оскільки немає зв’язків (наприклад, 1). Тому спочатку робимо логістичну регресію для аналізу 0 проти (0, 1). Потім робимо бета-регресію для аналізу (0, 1) випадків. Здається, це дві цілком різні моделі, з власними коефіцієнтами та окремою оцінкою? Або я щось пропускаю?
Марк Білий

Наприклад, у своїй відповіді ви згадуєте, що нулі можуть бути пов’язані з (а) рішенням не купувати автомобіль, або (б) бажати, але його немає на складі. Здається, що модель перешкод не змогла б розмежовувати між собою, оскільки вони робляться послідовно ...?
Марк Білий

Розглянемо інший приклад: відповіді є [1, 7], як традиційна шкала Лікерта, з величезним ефектом стелі на 7. Можна зробити модель перешкод, що є логістичною регресією [1, 7) проти 7, а потім регресією Тобіта. для всіх випадків, коли спостерігаються відповіді <7. Знову ми отримуємо два набори коефіцієнтів регресії, і вони оцінюються окремо. Здається, ми не моделюємо ці процеси спільно, а у двох абсолютно різних моделях? Отже, чи перешкода насправді є моделлю, чи просто процес створення двох різних типів узагальнених лінійних моделей поспіль?
Марк Білий

Я продовжив це питання у своєму власному дописі тут: stats.stackexchange.com/questions/320924/…
Марк Уайт

47

Моделі перешкод припускають, що існує лише один процес, за допомогою якого може бути створений нуль, тоді як моделі, що надувають нуль, припускають, що існує 2 різних процеси, які можуть призвести до нуля.

Моделі перешкод передбачають 2 типи предметів: (1) тих, хто ніколи не відчуває результату, і (2) тих, хто завжди відчуває результат хоча б раз. Нульово завищені моделі концептуалізують суб'єктів як (1) тих, хто ніколи не відчуває результату, і (2) тих, хто може відчути результат, але не завжди.

Простіше кажучи: і моделі з нульовим надуванням, і перешкоди описані у двох частинах.

Перша - це частина вимкнення, яка є бінарним процесом. Система "вимкнена" з ймовірністю і "увімкнена" з ймовірністю . (Тут відома як вірогідність інфляції.) Коли система "вимкнена", можливі лише підрахунки нуля. Ця частина однакова для моделей із заниженими нулями та перешкодами.1 - π ππ1ππ

Друга частина - це лічильна частина, яка виникає, коли система "включена". Тут різняться моделі з нульовими надутими перешкодами. У моделях із заниженою нулем кількість підрахунків все ще може дорівнювати нулю. У моделях перешкод вони повинні бути нульовими. У цій частині нульово-завищені моделі використовують "звичайний" дискретний розподіл ймовірностей, тоді як в моделях перешкод використовується функція дискретного розподілу ймовірності, що має усічену нуль.

Приклад моделі перешкод: Виробник автомобілів хоче порівняти дві програми контролю якості для своїх автомобілів. Він порівнює їх на основі кількості поданих гарантійних вимог. Для кожної програми набір випадково відібраних клієнтів дотримується протягом 1 року, а кількість гарантійних претензій, які вони подають, підраховується. Потім порівняються ймовірності інфляції для кожної з двох програм. Стан "вимкнено" - "подано нульові претензії", тоді як стан "увімкнено" - "подано щонайменше одну заяву"

Приклад моделі із заниженою нулем: У цьому ж дослідженні вище дослідники з'ясовували, що деякі ремонти автомобілів були виправлені без подання гарантійного вимоги. Таким чином, нулі є сумішшю відсутності проблем контролю якості, а також наявності проблем контролю якості, які не передбачають гарантійних претензій. Стан "вимкнено" означає "подано нульові вимоги", тоді як стан "увімкнено" означає "подано щонайменше одну вимогу АБО, було проведено ремонт без реєстрування претензії".

Тут див. Дослідження, в якому обидва типи моделей застосовувалися до одного набору даних.


Дякую за детальну відповідь. Чи матимете ви уявлення про те, яка підходить термінологія для стандартного бета-розподілу з доданими нулями? Використовуючи ваше визначення нульових моделей, явно є одне джерело нулів, тому його не можна назвати завищеним нулем ... Дивіться цю дискусію stats.stackexchange.com/questions/81343/…
skulker

2
Мені подобається "нульовий додаток бета-розподілу", як запропонував @Hibernating
Даррен Джеймс

10

в ZIP-моделі ~ 0 з ймовірністю розподілу та ~ Пуассона ( ) з вірогідністю , таким чином, модель ZIP є сумішшю з двома компонентами і: yiπyiλ1π

Pr(yj=0)=π+(1π)eλ
Pr(yj=xi)=(1π)λxieλxi!,xi1

і в моделі перешкод ~ 0 з вірогідністю і ~ усічене розподілення Пуассона ( ) з вірогідністю , і: yiπyiλ1π

Pr(yj=0)=π
Pr(yj=xi)=(1π)1eλ(λxieλxi!),xi1

4

Щодо моделей перешкод, то ось цитата «Успіхи математичного та статистичного моделювання» (Arnold, Balakrishnan, Sarabia, & Mínguez, 2008):

Модель перешкод характеризується процесом нижче перешкоди та вище. Очевидно, що найбільш широко використовується модель перешкод - це та, яка встановлює перешкоду на нуль. Формально модель перешкод на нулі виражається як: для дляP(Ni=ni)=f1(0)ni=0 P(Ni=ni)=1f1(0)1f2(0)f2(ni)=ϕf2(ni)ni=1,2,...

Змінна може трактуватися як ймовірність перетину перешкоди, а точніше у випадку страхування, ймовірність повідомити хоча б про одну претензію.ϕ

Щодо моделей із заниженим рівнем нуля, у Вікіпедії сказано :

Нульово-завищена модель - це статистична модель, заснована на нульовому завищеному імовірнісному розподілі, тобто розподілі, що дозволяє проводити часті нульові оцінки.

Нульово завищена модель Пуассона стосується випадкової події, що містить надлишкові дані нульового рахунку за одиницю часу. Наприклад, кількість претензій до страхової компанії з боку будь-якої покритої особи майже завжди дорівнює нулю, інакше значні збитки можуть призвести до банкрутства страхової компанії. Модель Пуассона (ZIP) з нульовим рівнем зайнято дві компоненти, які відповідають двом процесам генерації нуля. Перший процес регулюється бінарним розподілом, який генерує структурні нулі. Другий процес регулюється розподілом Пуассона, який генерує кількість, деякі з яких можуть дорівнювати нулю. Дві моделі моделі описані так:[1]

Pr(yj=0)=π+(1π)eλ
Pr(yj=hi)=(1π)λhieλhi!,hi1
де змінна результат має будь-яке невід'ємне ціле значення, - очікуване число Пуассона для го індивіда; - ймовірність додаткових нулів.yjλiiπ

Від Арнольда та його колег (2008) я бачу, що модель перешкод на нулі є особливим випадком більш загального класу моделей перешкод, але із посилання на Wikipedia ( Hall, 2004 ) я також бачу, що деякі нульові- надуті моделі можуть бути верхньообмеженими. Я не зовсім розумію різницю у формулах, але вони здаються досить схожими (обидва навіть використовують дуже схожий приклад страхових претензій). Я сподіваюся, що інші відповіді можуть допомогти пояснити будь-яку важливу різницю, і що ця відповідь допоможе встановити основу для них.

Посилання Вікіпедії:

  1. Ламберт, Д. (1992). Нульова завищена регресія Пуассона, із застосуванням до дефектів у виробництві. Технометрія, 34 (1), 1–14.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.