Чи насправді * корисні тести на наддисперсність у ГЛМ?


15

Явище «надмірної дисперсії» в GLM виникає щоразу, коли ми використовуємо модель, яка обмежує дисперсію змінної відповіді, і дані виявляють більшу дисперсію, ніж дозволяє обмеження моделі. Це трапляється зазвичай при моделюванні підрахунку даних за допомогою GLM Poisson, і це може бути діагностовано за допомогою відомих тестів. Якщо тести показують, що є статистично значущі докази надмірної дисперсії, то ми зазвичай узагальнюємо модель, використовуючи ширше сімейство розподілів, що звільняє параметр дисперсії від обмеження, що виникає за початковою моделлю. У випадку з Poisson GLM прийнято узагальнювати або до негативно-біноміального, або до квазі-пуассонівського GLM.

Ця ситуація вагітна з очевидним запереченням. Навіщо взагалі починати з Poisson GLM? Можна розпочати безпосередньо з більш широких форм розподілу, які мають (відносно) параметр вільної дисперсії, і дозволяють параметру дисперсії підходити до даних, повністю ігноруючи тести на наддисперсію. В інших ситуаціях, коли ми робимо аналіз даних, ми майже завжди використовуємо форми розподілу, які дозволяють отримати свободу принаймні перші два моменти, так навіщо робити тут виключення?

Моє запитання: Чи є якісь вагомі причини почати з розподілу, який фіксує дисперсію (наприклад, розподілу Пуассона), а потім виконати тест на наддисперсію? Як ця процедура порівнюється з пропусканням цієї вправи повністю та переходом до більш загальних моделей (наприклад, негативно-біноміальних, квазі-Пуассона тощо)? Іншими словами, чому б не завжди використовувати розподіл з параметром вільної дисперсії?


1
я здогадуюсь, що, якщо в основі справді лежить пуассон, то ваш результат в glm не буде виявляти ті добре відомі-хороші властивості, як оцінки, також ефективні в сенсі, коли дисперсія оцінок буде більшою, ніж вона повинна бути, якщо правильна модель була використана. Оцінки, ймовірно, навіть не є об'єктивними або середньоквадратичними. Але це лише моя інтуїція, і я можу помилитися. Мені було б цікаво, що це хороша відповідь.
mlofton

3
На мій досвід, тестування на наддисперсність (як не парадоксально) в основному використовується, коли ви знаєте (з урахуванням процесу формування даних), що наддисперсія не може бути присутнім. У цьому контексті тестування на наддисперсію повідомляє, чи лінійна модель підбирає весь сигнал у даних. Якщо це не так, то слід врахувати додавання більше коваріатів до моделі. Якщо це так, то більше коваріатів не може допомогти.
Гордон Сміт

@GordonSmyth: Я думаю, що це хороша відповідь. Якщо ви не хочете перетворити це на власну відповідь, я складу його в свою.
Кліф АВ

1
@GordonSmyth, що потрапляє в одне, що мене завжди турбувало щодо аналізу девіантності як проби придатності: відсутність коваріатів плутається з надмірною дисперсією. Це пропонує деякі проблеми щодо того, як часто викладають матеріал. Я викладаю заняття категорично, і в підручниках це не дуже сильно.
хлопець

1
@guy Так, це правильно, і люди схильні вважати, що залишкове відхилення завжди розподілено чітко, що часто це не так. Ми намагалися зробити кращу роботу з цих питань у нашому недавньому підручнику doi.org/10.1007/978-1-4419-0118-7, але важко охопити все в просторі.
Гордон Сміт

Відповіді:


14

В принципі, я фактично погоджуюся, що 99% часу краще просто використовувати більш гнучку модель. З урахуванням сказаного, ось два з половиною аргументи, чому ви можете цього не зробити.

(1) Менш гнучка означає ефективніші оцінки. Зважаючи на те, що параметри дисперсії, як правило, менш стабільні, ніж середні параметри, ваше припущення про фіксовану середню дисперсію відношення може стабілізувати стандартні помилки більше.

(2) Перевірка моделі. Я працював з фізиками, які вважають, що різні вимірювання можна описати розподілами Пуассона завдяки теоретичній фізиці. Якщо ми відкинемо гіпотезу, що означає = дисперсія, ми маємо докази проти гіпотези Пуассона про розподіл. Як зазначалося в коментарі @GordonSmyth, якщо у вас є підстави вважати, що дане вимірювання повинно слідувати розподілу Пуассона, якщо у вас є свідчення надмірної дисперсності, у вас є докази того, що вам не вистачає важливих факторів.

Vаr[у]=αЕ[у]α1


На 2.5: Звичайно, є негативні двочлени та ГЛМ з випадковими ефектами, які не мають такого обмеження.
Бьорн

@ Björn: тому це лише половина аргументу; стосується лише методів Квазі-Імовірності. Наскільки я знаю, немає імовірнісних метод , заснованого на під дисперсією, навіть якщо це може бути проаналізовано за допомогою моделі Квазі-правдоподібності.
Кліф АВ

1
Також на 2.5: моє розуміння полягає в тому, що немає експоненціальної дисперсійної сім'ї, яка б задовольняла бажане співвідношення. Значить, квазі бал не відповідає справжньому балу. Це не означає, що немає сімейства розподілів для даних підрахунку, які задовольняють бажане співвідношення; таких родин має бути багато.
хлопець

2
@CliffAB для недостатньо дисперсних даних про кількість рахунків існує модель Конвей-Максвелл-Пуассона: en.m.wikipedia.org/wiki/…, яка реалізована в пару пакетів R.
Димитріс Різопулос

Якщо модель буде використовуватися для прогнозування, то ще одна причина віддати перевагу більш простої моделі полягає в тому, що, якщо всі інші рівні, простіша модель матиме кращі прогнозовані якості. Я думаю про AIC, BIC, а також про PAC загалом.
meh

11

Хоча це моє власне запитання, я також збираюся опублікувати свої власні два центи як відповідь, щоб ми додали до числа точок зору на це питання. Тут питання полягає в тому, чи є розумним спочатку пристосувати однопараметричний розподіл до даних. Коли ви використовуєте однопараметричний розподіл (наприклад, Poisson GLM або біноміальний GLM з фіксованим пробним параметром), дисперсія не є вільним параметром, а натомість обмежується деякою функцією середнього. Це означає, що недоцільно пристосовувати однопараметричний розподіл до даних у будь-якій ситуації, коли ви не зовсім впевнені, що дисперсія відповідає структурі цього розподілу.


Пристосування однопараметричних розподілів до даних майже завжди є поганою ідеєю: дані часто менші, ніж вказують запропоновані моделі, і навіть коли є теоретичні причини вважати, що певна однопараметрична модель може отримати, часто трапляються дані насправді походить від суміші цього однопараметричного розподілу з діапазоном значень параметрів. Це часто еквівалентно більш широкій моделі, наприклад, двопараметричному розподілу, що дозволяє отримати більшу свободу дисперсії. Як обговорюється нижче, це стосується Poisson GLM у випадку даних про підрахунок.

Як зазначено в запитанні, у більшості застосувань статистики є звичайною практикою використання форм розповсюдження, які принаймні дозволяють перші два моменти вільно змінюватися. Це гарантує, що пристосована модель дозволяє даним диктувати висновок середньої величини та дисперсії, а не штучно обмежувати їх моделлю. Наявність цього другого параметра втрачає лише одну ступінь свободи в моделі, що є невеликою втратою в порівнянні з перевагою, що дозволяє оцінити дисперсію за даними. Можна, звичайно, розширити це міркування і додати третій параметр, щоб дозволити нахил косості, четвертий, щоб дозволити пристосування куртозу тощо.


За деякими вкрай незначними винятками, Poisson GLM - це погана модель: на мій досвід, встановлення розподілу Пуассона для підрахунку даних майже завжди є поганою ідеєю. Для підрахунку даних вкрай звичайно, щоб дисперсія в даних була «перерозподілена» щодо розподілу Пуассона. Навіть у ситуаціях, коли теорія вказує на розподіл Пуассона, часто найкращою моделлю є суміш розподілів Пуассона, де дисперсія стає вільним параметром. Дійсно, у випадку даних лічильника негативно-біноміальний розподіл являє собою суміш Пуассона з розподілом гамми для параметра швидкості, тож навіть коли є теоретичні причини вважати, що підрахунки надходять відповідно до процесу розподілу Пуассона, часто трапляється так, що відбувається «надмірна дисперсія» і негативно-біноміальний розподіл підходить набагато краще.

Практика встановлення Poisson GLM для підрахунку даних, а потім проведення статистичного тестування для перевірки «надмірної дисперсії» є анахронізмом, і навряд чи це завжди є хорошою практикою. В інших формах статистичного аналізу ми не починаємо з двопараметричного розподілу, довільно вибираємо обмеження дисперсії, а потім перевіряємо це обмеження, щоб спробувати усунути параметр з розподілу. Роблячи це таким чином, ми фактично створюємо незручну гібридну процедуру, що складається з початкового тесту гіпотези, що використовується для вибору моделі, а потім фактичної моделі (або Пуассона, або більш широкого розповсюдження). У багатьох контекстах було показано, що така практика створення гібридних моделей з початкового тесту вибору моделі призводить до поганих загальних моделей.

Аналогічна ситуація, коли застосовується аналогічний гібридний метод, полягає в T-тестах середньої різниці. Раніше траплялось, що курси статистики рекомендують спочатку скористатися тестом Левене (або навіть просто деякими кумедними "правилами"), щоб перевірити рівність відмінностей між двома групами, а потім, якщо дані "пройшли" цей тест, ви б використовуйте Т-тест Стьюдента, який передбачає рівну дисперсію, і якщо дані "провалили" тест, ви замість цього використовуєте T-тест Вельча. Це насправді дуже погана процедура (див., Наприклад, тут і тут)). Набагато краще просто використовувати останній тест, який не припускає про дисперсію, а не створювати незручний тест на складання, який поєднує попередній тест на гіпотезу, а потім використовує це для вибору моделі.

Для підрахунку даних, як правило, ви отримаєте хороші початкові результати, встановивши модель двох параметрів, таких як модель негативно-біноміальної чи квазі-Пуассона. (Зауважте, що останній не є реальним розподілом, але він все ж дає розумну двопараметричну модель.) Якщо будь-яке подальше узагальнення взагалі потрібно, зазвичай це додавання нульової інфляції, де надмірна кількість нулів в даних. Обмеження до Poisson GLM - це штучний і безглуздий вибір моделі, і це не значно покращиться шляхом тестування на надмірну дисперсію.


Гаразд, ось ось незначні винятки . Єдиними реальними винятками з вищезазначених є дві ситуації:

(1) у вас є надзвичайно сильні апріорні теоретичні причини вважати, що припущення щодо розподілу одного параметра виконані, і частина аналізу полягає в тестуванні цієї теоретичної моделі на основі даних; або

(2) З якоїсь іншої (дивної) причини ваш аналіз полягає в проведенні тесту на гіпотезу щодо дисперсійності даних, і тому ви насправді хочете обмежити цю дисперсію цим гіпотезованим обмеженням, а потім перевірити цю гіпотезу.

Такі ситуації трапляються дуже рідко. Вони, як правило, виникають лише тоді, коли є чіткі апріорні теоретичні знання про механізм генерування даних, а метою аналізу є перевірка цієї основної теорії. Це може бути у надзвичайно обмеженому діапазоні застосувань, де дані генеруються у жорстко контрольованих умовах (наприклад, з фізики).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.