Нуль-завищена регресія Пуассона


14

Нехай Y=(Y1,,Yn) незалежні і

Yi=0with probability pi+(1pi)eλiYi=kwith probability (1pi)eλiλik/k!

Припустимо також, що параметри і p = ( p 1 , , p n ) задовольняютьλ=(λ1,,λn)p=(p1,,pn)

log(λ)=Bβlogit(p)=log(p/(1p))=Gλ.

Якщо однакові коваріати впливають на і p так, що B = GλpB=G , то чому нульова завищена пуассонова регресія потребує вдвічі більше параметрів, ніж пуассонова регресія?


2
Вам ще доведеться оцінити і λ . B і G - матриці проектування (дані), тому однакові рівні не зменшують розмірність простору параметрів. βλBG
Макрос

@Macro: Якщо - це стовпець з них, то навіщо нам потрібен 1 параметр для оцінки, ніж пуассонова регресія? G
Демієн

добре, вам знадобиться оцінити ("перехоплення" в логістичній частині моделі) і λ i ("перехоплення" в частині Пуассона моделі), тому замість 1. є 2 параметри.piλi
Макрос

1
@Robby, щоб зменшити кількість параметрів, вам доведеться зробити деякі обмеження. Наприклад, , хоча немає підстав вважати, що це має сенс - тим більше, що функції зв’язку різні. λ=β
Макрос

3
@MichaelChernick - це називається нульовим завищеним Пуассоном, оскільки ви, в основному, "надуваєте" ймовірність побачити нуль з Poisson dist'n, зберігаючи ті ж відносні ймовірності побачити ненульове значення, як має Пуассон.
jbowman

Відповіді:


2

У випадку з нульовим роздутом Пуассона, якщо , то β і λ обидві мають однакову довжину, яка є кількістю стовпців B або GB=GβλBG . Таким чином, кількість параметрів вдвічі перевищує кількість стовпців проектної матриці, тобто вдвічі більше пояснювальних змінних, включаючи перехоплення (і все необхідне фіктивне кодування).

У прямій пуассоновій регресії немає жодного вектора, про який слід турбуватися, не потрібно оцінювати λ . Тож кількість параметрів - це лише довжина βpλβ тобто половина кількості параметрів у випадку, завищеному нулем.

Тепер немає жодної конкретної причини, чому дорівнює G , але в цілому це має сенс. Однак можна уявити процес генерування даних, коли шанс виникнення будь-яких подій створюється одним процесом G λ і зовсім іншим процесом B β визначає, скільки подій існує, враховуючи ненульові події. Як надуманий приклад, я вибираю аудиторії на основі результатів іспитів з історії, щоб грати в якусь непов’язану гру, а потім спостерігаю кількість забитих м'ячів. У цьому випадку B може бути зовсім іншим порівняно з G (якщо бали екзамену з історії водіння історії відрізняються від показників водіння в грі) та β і λBGGλBβBGβλможе мати різну довжину. може бути більше стовпців, ніж B або менше. Тож нульова завищена модель Пуассона в такому випадку матиме більше параметрів, ніж проста модель Пуассона.GB

У звичайній практиці я думаю, що більшість часу.G=B

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.