Коли використовувати надійні стандартні помилки в регресії Пуассона?


10

Я використовую регресійну модель Пуассона для підрахунку даних і мені цікаво, чи є причини не використовувати надійну стандартну помилку для оцінки параметрів? Я особливо стурбований тим, що деякі мої оцінки без надійних не суттєві (наприклад, p = 0,13), але з надійними значущими (p <0,01).

У SAS це доступно, використовуючи повторне твердження у proc genmod(наприклад, repeated subject=patid;). Я використовую http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm як приклад, в якому цитується документ Cameron та Trivedi (2009) на підтримку використання надійних стандартних помилок.

Відповіді:


6

Як правило, якщо у вас є підозра на те, що ваші помилки гетерокедастичні, вам слід використовувати надійні стандартні помилки. Той факт, що ваші оцінки стають несуттєвими, коли ви не використовуєте надійні SE, говорить про (але не доводить) необхідність в надійних SE! Ці ПЕ є "надійними" до упередженості, яку може викликати гетерокедастичність в узагальненій лінійній моделі.

Однак ця ситуація трохи інша в тому, що ви їх розміщуєте на вершині пуассонової регресії.

У Пуассона добре відома властивість, що він змушує дисперсію дорівнювати середньому, незалежно від того, підтримують дані чи ні. Перш ніж розглянути надійні стандартні помилки, я б спробував негативну біноміальну регресію, яка не страждає від цієї проблеми. Існує тест (див. Коментар), який допоможе визначити, чи є істотна зміна стандартних помилок суттєвою.

Я не знаю точно, чи означає зміна, яку ви бачите (перехід на надійні СЕ звужує ІП), має на увазі недостатню дисперсію, але це здається ймовірним. Погляньте на відповідну модель (я думаю, негативний біном, але швидкий гуглінг також пропонує квазі-Пуассону для недостатньої дисперсії?) І подивіться, що ви отримуєте в цьому налаштуванні.


Гарна відповідь! Зазвичай в OLS гетерокедастичність не викликає об'єктивності параметрів (просто неефективна). Це неправда, хоча для узагальнених лінійних моделей дивіться цю публікацію Дейва Гілза про це для довідок. Я не думаю, що я не бачив рекомендації тесту Вуонга для цього (для порівняння вкладених нульових моделей, надутих нулем, я бачив, як це пропонується). Пуассон вкладений в межах Нег. Біноміальна модель, тому можна використовувати тест відношення ймовірності для параметра дисперсії.
Енді Ш

Дякую за вашу відповідь. Я намагався негативної біноміальної регресії, але зіткнувся з попередженням: "Відносний критерій конвергенції Гесса 0,0046138565 перевищує межу 0,0001. Конвергенція сумнівна". Зауважте, що моя змінна відповідь - це число зі значеннями від 0 до 4. Чи є трансформація залежної чи незалежної змінної, яка допомогла б конвергенції? Або що робити в цьому випадку?
кара

Крім того, що стосується того, що непостійні СЕ є меншими - у своєму аналізі я бачу, що саме надійні СЕ є меншими, і саме тут полягає значення (а не в ненадійних результатах). Ось чому я хочу бути обережним щодо того, чи слід повідомляти про надійні результати - я не хочу вибирати цей метод лише через значні значення! Знову дякую!
кара

@AndyW Я перевірив свої замітки, і Вуонг справді є ZI проти Poisson. Оновлена ​​публікація. kara Я пропустив розворот. Ви можете мати недорозвинені дані, і в цьому випадку NBD також може бути рішенням :-)
Арі Б. Фрідман

@kara Важко діагностувати вашу проблему неконвергенції у коментарях. Я б спробував нове запитання лише з цього питання з якомога більшою кількістю інформації.
Арі Б. Фрідман

1

Я розмежую аналізи, використовуючи модель, засновану на надійних стандартних помилках, посилаючись на останню як "GEEs", що насправді є обмінним визначенням. Окрім фантастичного пояснення Скортчі:

GEE можуть бути "упередженими" у невеликих зразках, тобто 10-50 предметів: (Ліпсіц, Лерд і Харрінгтон, 1990; Емріх і П'ємонте, 1992; Шарплз і Бреслоу, 1992; Ліпсіц та ін., 1994; Qu, П'ємонте та ін. Williams, 1994; Gunsolley, Getchell, and Chinchilli, 1995; Sherman and le Cessie, 1997.) Коли я кажу, що GEE є упередженими, то я маю на увазі те, що стандартна оцінка помилок може бути або консервативною, або антиконсервативною через малі або нульові кількості клітин залежно від того, які пристосовані значення проявляють таку поведінку та наскільки вони відповідають загальній тенденції регресійної моделі.

Взагалі, коли параметрична модель правильно вказана, ви все одно отримуєте правильні стандартні оцінки помилок з CI на основі моделі, але вся суть використання GEE полягає в тому, щоб вмістити дуже велике "якщо". GEE дозволяють статистику просто вказати модель робочої ймовірності для даних, а параметри (замість інтерпретувати їх у строго параметричній рамці) вважаються типом "сита", який може генерувати відтворювані значення незалежно від базових, невідомих даних, що генерують. механізм. Це серце і душа напівпараметричного аналізу, прикладом якого є GEE.

GEE також обробляють незмірені джерела коваріації в даних, навіть із зазначенням незалежної матриці кореляції. Це пов'язано з використанням емпіричної, а не модельної коваріаційної матриці. Наприклад, у моделюванні Пуассона, можливо, вас зацікавлять показники народжуваності лосося, відібраного з різних потоків. Яйця, видобуті з риби-самки, можуть мати основне розповсюдження Пуассона, але генетичні зміни, що складаються із спільної придатності та наявних ресурсів у конкретних потоках, можуть зробити рибу в цих потоках схожішою, ніж серед інших потоків. GEE дасть правильні стандартні оцінки похибки населення до тих пір, поки показник вибірки буде відповідати їх частці (або по-іншому стратифікований).


1

Ви робите тест на нуль рівномірності. Це проста допоміжна регресія OLS. Опис є на сторінці 670 Камерона та Триведі. При великій наддисперсії стандартні помилки дуже спущені, тому я б дуже насторожено ставився до будь-яких результатів, які залежать від нестійкого ВКЕ, коли є наддисперсія. З недогіршенням буде навпаки, що звучить як сценарій, у якому ви знаходитесь.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.