Як працює розподіл Пуассона при моделюванні постійних даних і чи призводить це до втрати інформації?


20

Співробітниця аналізує деякі біологічні дані для своєї дисертації з деякою неприємною гетероседастичністю (малюнок нижче). Вона аналізує це за змішаною моделлю, але все ще має проблеми з залишками.

Перетворення змінних відповідей змін журналу очищує речі, і на основі відгуків на це питання, здається, є відповідним підходом. Однак спочатку ми думали, що існують проблеми із використанням трансформованих змінних із змішаними моделями. Виявляється, ми неправильно трактували твердження в SAS Littell & Milliken (2006) для змішаних моделей, яке вказувало на те, чому не доцільно перетворювати дані підрахунку, а потім аналізувати їх за допомогою звичайної лінійної змішаної моделі (повна цитата нижче) .

Підхід, який також покращив залишки, полягав у використанні узагальненої лінійної моделі з розподілом Пуассона. Я читав, що розподіл Пуассона може використовуватися для моделювання безперервних даних (наприклад, як обговорювалося в цій публікації ), і пакети статистики дозволяють це робити, але я не розумію, що відбувається, коли модель підходить.

З метою розуміння того, як проводяться основні обчислення, мої запитання: Коли ви прилаштовуєте розподіл Пуассона до безперервних даних, 1) чи це дані округлюються до найближчого цілого числа 2) це призводить до втрати інформації та 3) Коли, якщо взагалі, доцільно використовувати модель Пуассона для безперервних даних?

Littel & Milliken 2006, pg 529 "перетворення даних [count] може бути контрпродуктивним. Наприклад, перетворення може спотворити розподіл випадкових модельних ефектів або лінійність моделі. Що ще важливіше, трансформація даних все ще залишає відкритою можливість. негативних прогнозованих підрахунків. Отже, висновок із змішаної моделі з використанням перетворених даних є дуже підозрілим ".

введіть тут опис зображення


1
Як і @Tomas, я не знаю, що ви не повинні трансформувати змінні перед змішаною моделлю, і я прочитав зовсім небагато цієї теми. У мене є книга Рамона і Літтеля .... на яку сторінку ви посилаєтесь?
Пітер Флом - Відновити Моніку

Виявляється, ми неправильно інтерпретували заяву на стор. 529.
N Brouwer

Відповіді:


22

Я оцінював постійні позитивні результати регресії Пуассона за допомогою лінеаризованого оцінювача дисперсії Хубера / Білого / Сендвіча. Однак це не особливо вагомий привід робити що-небудь, тому ось кілька актуальних посилань.

у

Є також деякі обнадійливі докази симуляції від Сантоса Сільви та Тенрейро (2006), де Пуассон входить у найкращий показ. Це також добре в симуляції з великою кількістю нулів у результаті . Ви також можете легко зробити власне моделювання, щоб переконати себе, що це працює у вашому випадку сніжинки.

Нарешті, ви також можете використовувати GLM з функцією зв’язку журналу та сімейством Пуассонів. Це дає ідентичні результати та зумовлює реакції на поштовхи колінного суглоба, які мають лише підрахунок даних.

Посилання без необв’язаних посилань:

Gourieroux, C., A. Monfort та A. Trognon (1984). “Псевдомексикальні методи максимальної вірогідності: додатки до пуассонових моделей”, Економетрика , 52, 701-720.


2
Дивіться також цей приємний запис у блозі Stata, написаний Біллом Гулдом - blog.stata.com/2011/08/22/…
boscovich

1
у

У блозі Stata є пов’язана публікація, яка пропонує додаткові докази моделювання .
Мастеров Дмитро Васильович

6

Розподіл Пуассона призначений лише для підрахунку даних, намагатися подавати їх безперервними даними - це противно, і я вважаю, що цього не слід робити. Однією з причин є те, що ви не знаєте, як масштабувати свою постійну змінну. І Пуассон дуже залежить від масштабу! Я намагався пояснити це простим прикладом тут . Тож саме з цієї причини я б не використовував Пуассона ні для чого, крім підрахунку даних.

Також пам’ятайте, що GLM виконує 2 речі - функцію зв’язку (перетворення змінної відповіді, вхід у випадку Пуассона) та залишки (розподіл Пуассона в цьому випадку). Подумайте про біологічне завдання, про залишки, а потім виберіть правильний метод. Іноді має сенс використовувати перетворення журналу, але залишатися з нормально розподіленими залишками.

"але здається, що звичайна мудрість полягає в тому, що ви не повинні трансформувати дані, що вводяться в змішану модель"

Я чую це вперше! Для мене це взагалі не має сенсу. Змішана модель може бути подібно до звичайної лінійної моделі, просто з доданими випадковими ефектами. Чи можете ви вказати точне цитування тут? На мою думку, якщо перетворення журналу очищає речі, просто використовуйте його!


Дякую за допомогу; те, що я вважав "загальноприйнятою мудрістю", - це неправильне читання Літтел і Міллікена. Я відредагував своє запитання і додав цитату з L&M 2006.
N Brouwer

@NBrouwer: так, здається, ви насправді неправильно трактували це. Трансформувати дані підрахунку неприємно, а ще гірше трансформувати безперервні дані для підрахунку даних і намагатися помістити на нього Пуассона! Саме це я і намагався вам пояснити. Не робіть цього. Просто перетворіть ваші безперервні дані, як вам потрібно. Це дуже часто зустрічається в статистиці, не потрібно про це турбуватися.
Цікаво

5

Ось ще одна чудова дискусія про те, як використовувати модель Пуассона, щоб відповідати лог-регресіям: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Я кажу другові, так, як пропонує запис у блозі). Основна мета полягає в тому, що ми використовуємо лише ту частину моделі Пуассона, яка є посиланням на журнал. Частина, яка вимагає дисперсії, дорівнює середній, може бути замінена сендвіч-оцінкою дисперсії. Однак це все для даних iid; на розширення з кластеризованою / змішаною моделлю належним чином посилався Димитрій Мастеров .


1

Якщо проблема полягає в масштабуванні дисперсії із середнім значенням, але у вас є безперервні дані, чи задумалися ви про використання безперервного розповсюдження, яке може вирішити проблеми, які у вас виникли. Можливо, гамма? Дисперсія матиме квадратичний зв'язок із середнім - насправді подібно до негативного двочлена.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.