Регресія Пуассона проти регресії найменших квадратів серед найменших квадратів?


21

Регресія Пуассона - це GLM з функцією log-link.

Альтернативний спосіб моделювання нерозподілених даних підрахунку - це попередня обробка, взяття журналу (а точніше, журналу (1 + кількість) для обробки 0). Якщо ви регресуєте з мінімальними квадратами для відповідей підрахунку журналів, це пов’язано з регресією Пуассона? Чи може вона впоратися з подібними явищами?


6
Як ви плануєте приймати логарифми будь-яких підрахунків, що дорівнюють нулю?
whuber

3
Однозначно не рівнозначно. Простий спосіб переконатися в цьому - подивитися, що сталося, якби ви спостерігали нульові підрахунки. (Коментар створений перед тим, як побачити коментар @ whuber. Мабуть, ця сторінка не оновилася належним чином у моєму браузері.)
кардинал

Гаразд, я, очевидно, слід сказати, журнал (1 + кількість). Очевидно, що не рівнозначно, але цікаво, чи були стосунки, чи вони можуть впоратися з подібними явищами.
Брендан ОКоннор

1
Тут є корисна дискусія: blog.stata.com/2011/08/22/…
Єпископ Михайло

Відповіді:


22

З одного боку, в регресії Пуассона ліва частина модельного рівняння є логарифмом очікуваного рахунку: .log(E[Y|x])

З іншого боку, у "стандартній" лінійній моделі ліва частина - очікуване значення змінної нормальної відповіді: . Зокрема, функцією зв'язку є функція ідентичності.E[Y|x]

Тепер скажемо, що - змінна Пуассона, і ви маєте намір її нормалізувати, взявши журнал: . Оскільки має бути нормальним, ви плануєте підходити до стандартної лінійної моделі, для якої ліва частина - . Але, загалом, . Як наслідок, ці два підходи моделювання різні.Y = log ( Y ) Y E [ Y | x ] = E [ журнал ( Y ) | x ] E [ журнал ( Y ) | x ] журнал ( E [ Y | x ] )YY=log(Y)YE[Y|x]=E[log(Y)|x]E[log(Y)|x]log(E[Y|x])


6
Насправді, ніколи, якщо тільки для деякого вимірної функції , тобто повністю визначається . Е(журнал(Y)|Х)журнал(Е(Y|Х)) P(Y=f(Х)|Х)=1σ(Х)fYХ
кардинал

@cardinal. Дуже добре поставлений.
suncoolsu

9

Я бачу дві важливі відмінності.

По-перше, прогнозовані значення (за початковою шкалою) поводяться по-різному; у лонглінарних найменших квадратах вони представляють умовні геометричні засоби; в моделі log-poisson представляють умовні засоби. Оскільки дані цього типу аналізу часто перекошені вправо, умовна геометрична середня занижує умовне середнє.

Друга різниця - це мається на увазі розподіл: лонормальний проти пуассона. Це стосується структури гетероскедастичності залишків: залишкова дисперсія, пропорційна квадрату очікуваних значень (лонормальна) проти залишкової дисперсії, пропорційна очікуваному значенню (Пуассон).


-1

Одне очевидне відмінність полягає в тому, що регресія Пуассона дасть цілі числа в якості прогнозування точок, тоді як лінійна регресія підрахунку логарифмів може дати нецілі числа.


12
Як це працює? Чи не оцінює GLM очікування , які не обов'язково є цілісними?
whuber

1
Це неправда. Механічно, пуассонові регресії чудово вміють обробляти не цілі числа. Стандартні помилки не будуть розповсюджуватися пуассоном, але ви можете просто використовувати надійні стандартні помилки.
Матвій
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.