Хоча це моє власне запитання, я також збираюся опублікувати свої власні два центи як відповідь, щоб ми додали до числа точок зору на це питання. Тут питання полягає в тому, чи є розумним спочатку пристосувати однопараметричний розподіл до даних. Коли ви використовуєте однопараметричний розподіл (наприклад, Poisson GLM або біноміальний GLM з фіксованим пробним параметром), дисперсія не є вільним параметром, а натомість обмежується деякою функцією середнього. Це означає, що недоцільно пристосовувати однопараметричний розподіл до даних у будь-якій ситуації, коли ви не зовсім впевнені, що дисперсія відповідає структурі цього розподілу.
Пристосування однопараметричних розподілів до даних майже завжди є поганою ідеєю: дані часто менші, ніж вказують запропоновані моделі, і навіть коли є теоретичні причини вважати, що певна однопараметрична модель може отримати, часто трапляються дані насправді походить від суміші цього однопараметричного розподілу з діапазоном значень параметрів. Це часто еквівалентно більш широкій моделі, наприклад, двопараметричному розподілу, що дозволяє отримати більшу свободу дисперсії. Як обговорюється нижче, це стосується Poisson GLM у випадку даних про підрахунок.
Як зазначено в запитанні, у більшості застосувань статистики є звичайною практикою використання форм розповсюдження, які принаймні дозволяють перші два моменти вільно змінюватися. Це гарантує, що пристосована модель дозволяє даним диктувати висновок середньої величини та дисперсії, а не штучно обмежувати їх моделлю. Наявність цього другого параметра втрачає лише одну ступінь свободи в моделі, що є невеликою втратою в порівнянні з перевагою, що дозволяє оцінити дисперсію за даними. Можна, звичайно, розширити це міркування і додати третій параметр, щоб дозволити нахил косості, четвертий, щоб дозволити пристосування куртозу тощо.
За деякими вкрай незначними винятками, Poisson GLM - це погана модель: на мій досвід, встановлення розподілу Пуассона для підрахунку даних майже завжди є поганою ідеєю. Для підрахунку даних вкрай звичайно, щоб дисперсія в даних була «перерозподілена» щодо розподілу Пуассона. Навіть у ситуаціях, коли теорія вказує на розподіл Пуассона, часто найкращою моделлю є суміш розподілів Пуассона, де дисперсія стає вільним параметром. Дійсно, у випадку даних лічильника негативно-біноміальний розподіл являє собою суміш Пуассона з розподілом гамми для параметра швидкості, тож навіть коли є теоретичні причини вважати, що підрахунки надходять відповідно до процесу розподілу Пуассона, часто трапляється так, що відбувається «надмірна дисперсія» і негативно-біноміальний розподіл підходить набагато краще.
Практика встановлення Poisson GLM для підрахунку даних, а потім проведення статистичного тестування для перевірки «надмірної дисперсії» є анахронізмом, і навряд чи це завжди є хорошою практикою. В інших формах статистичного аналізу ми не починаємо з двопараметричного розподілу, довільно вибираємо обмеження дисперсії, а потім перевіряємо це обмеження, щоб спробувати усунути параметр з розподілу. Роблячи це таким чином, ми фактично створюємо незручну гібридну процедуру, що складається з початкового тесту гіпотези, що використовується для вибору моделі, а потім фактичної моделі (або Пуассона, або більш широкого розповсюдження). У багатьох контекстах було показано, що така практика створення гібридних моделей з початкового тесту вибору моделі призводить до поганих загальних моделей.
Аналогічна ситуація, коли застосовується аналогічний гібридний метод, полягає в T-тестах середньої різниці. Раніше траплялось, що курси статистики рекомендують спочатку скористатися тестом Левене (або навіть просто деякими кумедними "правилами"), щоб перевірити рівність відмінностей між двома групами, а потім, якщо дані "пройшли" цей тест, ви б використовуйте Т-тест Стьюдента, який передбачає рівну дисперсію, і якщо дані "провалили" тест, ви замість цього використовуєте T-тест Вельча. Це насправді дуже погана процедура (див., Наприклад, тут і тут)). Набагато краще просто використовувати останній тест, який не припускає про дисперсію, а не створювати незручний тест на складання, який поєднує попередній тест на гіпотезу, а потім використовує це для вибору моделі.
Для підрахунку даних, як правило, ви отримаєте хороші початкові результати, встановивши модель двох параметрів, таких як модель негативно-біноміальної чи квазі-Пуассона. (Зауважте, що останній не є реальним розподілом, але він все ж дає розумну двопараметричну модель.) Якщо будь-яке подальше узагальнення взагалі потрібно, зазвичай це додавання нульової інфляції, де надмірна кількість нулів в даних. Обмеження до Poisson GLM - це штучний і безглуздий вибір моделі, і це не значно покращиться шляхом тестування на надмірну дисперсію.
Гаразд, ось ось незначні винятки . Єдиними реальними винятками з вищезазначених є дві ситуації:
(1) у вас є надзвичайно сильні апріорні теоретичні причини вважати, що припущення щодо розподілу одного параметра виконані, і частина аналізу полягає в тестуванні цієї теоретичної моделі на основі даних; або
(2) З якоїсь іншої (дивної) причини ваш аналіз полягає в проведенні тесту на гіпотезу щодо дисперсійності даних, і тому ви насправді хочете обмежити цю дисперсію цим гіпотезованим обмеженням, а потім перевірити цю гіпотезу.
Такі ситуації трапляються дуже рідко. Вони, як правило, виникають лише тоді, коли є чіткі апріорні теоретичні знання про механізм генерування даних, а метою аналізу є перевірка цієї основної теорії. Це може бути у надзвичайно обмеженому діапазоні застосувань, де дані генеруються у жорстко контрольованих умовах (наприклад, з фізики).