GLM з безперервними даними, накопиченими в нулі

11

Я намагаюся запустити модель, щоб оцінити, наскільки добре катастрофічні захворювання, такі як туберкульоз, СНІД тощо, впливають на витрати на госпіталізацію. Я маю "затрати на госпіталізацію" як залежну змінну та різні індивідуальні маркери як незалежні змінні, майже всі з яких є манекенами, такими як стать, голова домогосподарства, статус бідності і, звичайно, манекен на те, чи є у вас захворювання (плюс вік та вік у квадраті) та купа термінів взаємодії.

Як і слід було очікувати, є значна кількість - і я маю на увазі багато - даних, накопичених у нулі (тобто немає витрат на госпіталізацію за 12-місячний референтний період). Що було б найкращим способом поводження з такими даними?

На сьогодні я вирішив перетворити вартість на ln(1+cost)те, щоб включити всі спостереження, а потім запустити лінійну модель. Я на правильному шляху?

— користувач42372
джерело

1

Ваша відповідь насправді рахується? Термін, який ви шукаєте, - це нульова інфляція .

— gung - Відновіть Моніку

2

Можна також мати нульовий надутий безперервний розподіл; є, наприклад, гамма-моделі, завищені нулем.

— Glen_b -Встановіть Моніку

1

@Glen_b, це я мав на увазі. Я ніколи цього не робив. Пропозиція Френка Харрелла про OLR - це розумний спосіб вирішити також проблему.

— gung - Відновіть Моніку

8

Як обговорювалося в іншому місці на сайті, порядкова регресія (наприклад, пропорційні шанси, пропорційна небезпека, пробіт) - це гнучкий і надійний підхід. Допускаються розриви в розподілі , в тому числі вкрай грудне. Нічого не передбачається про розподіл для одного . Нульові завищені моделі роблять набагато більше припущень, ніж напівпараметричні моделі. Для повного вивчення прикладу див. Розділи 15 моїх курсів на веб-сайті http://biostat.mc.vanderbilt.edu/CourseBios330 . $Y$ $Y$ $X$

Одна велика перевага порядкових моделей для безперервного полягає в тому, що вам не потрібно знати, як перетворити перед аналізом. $Y$ $Y$

— Френк Харрелл
джерело

8

Скупчення при 0 називається "нульовою інфляцією". На сьогодні найпоширенішими є випадкові моделі, що призводять до нульового завищення Пуассона та нульової завищеної негативної біноміальної регресії. Однак існують способи моделювання нульової інфляції реальними позитивними значеннями (наприклад, нульова завищена гамма-модель).

Див. Min and Agresti, 2002, «Моделювання негативних даних із збиттям у нулі для огляду цих методів.

— Пітер Флом
джерело

1

Пропозиція щодо використання нульової завищеної моделі Пуассона - цікавий початок. Він має деякі переваги спільного моделювання ймовірності виникнення будь-яких витрат, пов’язаних із захворюванням, а також процесу того, якими виявляться ці витрати, якщо у вас є якісь захворювання. Це обмеження полягає в тому, що воно накладає деяку сувору структуру того, що є формою результату, що обумовлюється нарахуванням будь-яких витрат (наприклад, специфічне середньо-відхильне співвідношення і позитивний цілий результат ... останнє з яких можна зменшити для деяких цілі моделювання).

Якщо все в порядку, інтерпретуючи хвороби , пов'язаної з визнанням і хвороби, пов'язані з цим витрати обумовлюватися прийому процесів самостійно, ви можете розширити це, перше моделювання бінарного процесу у / п ви нараховуватися витрати , пов'язані з хворобою? Це проста модель логістичної регресії та дозволяє оцінити фактори ризику та поширеність. Враховуючи це, ви можете обмежити аналіз підгруппою осіб, які нарахували будь-які витрати, та моделювати процес фактичних витрат, використовуючи безліч методик моделювання. Пуассон хороший, квазі-пуассон буде кращим (враховуючи невеликі незмірені джерела коваріації в даних та відхилення від припущень моделі). Але небо є межею при моделюванні безперервного процесу витрат.

Якщо вам абсолютно потрібно моделювати співвідношення параметрів у процесі, ви можете використовувати оцінки завантаження SE. Я не бачу причин, чому це було б недійсно, але мені було б цікаво почути інформацію інших, якщо це може бути неправильним. Взагалі, я вважаю, що це два окремі питання, і їх слід розглядати як такі, щоб мати справедливий висновок.

— АдамО
джерело