Співробітниця аналізує деякі біологічні дані для своєї дисертації з деякою неприємною гетероседастичністю (малюнок нижче). Вона аналізує це за змішаною моделлю, але все ще має проблеми з залишками.
Перетворення змінних відповідей змін журналу очищує речі, і на основі відгуків на це питання, здається, є відповідним підходом. Однак спочатку ми думали, що існують проблеми із використанням трансформованих змінних із змішаними моделями. Виявляється, ми неправильно трактували твердження в SAS Littell & Milliken (2006) для змішаних моделей, яке вказувало на те, чому не доцільно перетворювати дані підрахунку, а потім аналізувати їх за допомогою звичайної лінійної змішаної моделі (повна цитата нижче) .
Підхід, який також покращив залишки, полягав у використанні узагальненої лінійної моделі з розподілом Пуассона. Я читав, що розподіл Пуассона може використовуватися для моделювання безперервних даних (наприклад, як обговорювалося в цій публікації ), і пакети статистики дозволяють це робити, але я не розумію, що відбувається, коли модель підходить.
З метою розуміння того, як проводяться основні обчислення, мої запитання: Коли ви прилаштовуєте розподіл Пуассона до безперервних даних, 1) чи це дані округлюються до найближчого цілого числа 2) це призводить до втрати інформації та 3) Коли, якщо взагалі, доцільно використовувати модель Пуассона для безперервних даних?
Littel & Milliken 2006, pg 529 "перетворення даних [count] може бути контрпродуктивним. Наприклад, перетворення може спотворити розподіл випадкових модельних ефектів або лінійність моделі. Що ще важливіше, трансформація даних все ще залишає відкритою можливість. негативних прогнозованих підрахунків. Отже, висновок із змішаної моделі з використанням перетворених даних є дуже підозрілим ".