Лінійна регресія не є правильним вибором для вашого результату, враховуючи:
- Змінна результат зазвичай не розподіляється
- Змінна результату обмежена значеннями, які вона може приймати (дані підрахунку означають, що передбачувані значення не можуть бути негативними)
- Здається, що часто зустрічаються випадки з 0 відвідуваннями
Обмежені залежні моделі змінних для підрахунку даних
Стратегія оцінки, яку ви можете обрати, диктується "структурою" змінної вашого результату. Тобто, якщо ваша змінна результат має обмежені значення, які вона може приймати (тобто якщо це обмежена залежна змінна ), вам потрібно вибрати модель, де прогнозовані значення потраплять у можливий діапазон для вашого результату. Хоча іноді лінійна регресія є хорошим наближенням для обмежених залежних змінних (наприклад, у випадку двійкового logit / probit), часто це не так. Введіть узагальнені лінійні моделі . У вашому випадку, оскільки змінною результату є дані про підрахунок, у вас є кілька варіантів:
- Модель Пуассона
- Негативна біноміальна модель
- Модель Пуассона (ZIP) із завищеною нулем
- Модель нуля завищеного негативного бінома (ZINB)
Вибір, як правило, визначається емпірично. Я коротко обговорюю вибір між цими варіантами нижче.
Пуассон проти негативного двочлена
Взагалі, Пуассон - це модель "загальної робочої коні" з 4-х модельних даних, про які я згадував вище. Обмеженням моделі є припущення, що умовна дисперсія = умовна середня величина, яка не завжди може бути істинною. Якщо ваша модель передисперсна (умовна дисперсія> умовна середня величина), вам потрібно буде використовувати замість неї негативну біноміальну модель. На щастя, коли ви запускаєте негативний біном, вихід зазвичай включає статистичний тест для параметра дисперсії (R називає цей параметр дисперсії "theta ( )", який в інших пакетах називається "альфа". Нульова гіпотеза у виборі між Пуассоном та Негативним Біномалем дорівнює: , тоді як альтернативна гіпотеза .θH0:θ=0H1:θ≠0θ є вагомим, є дані про надмірність дисперсії в моделі, і ви вибрали б негативний біном на Пуассона. Якщо коефіцієнт не є статистично значущим, представіть результати Пуассона.
ZIP проти ZINB
Одне потенційне ускладнення - нульова інфляція, яка може бути проблемою тут. Тут надходять нульові моделі ZIP і ZINB. Використовуючи ці моделі, ви припускаєте, що процес, що генерує нульові значення, відокремлений від процесу, що генерує інші, ненульові значення. Як і раніше, ZINB є доцільним, коли результат має надмірні нулі і перерозподілений, тоді як ZIP є доцільним, коли результат має надмірні нулі, але умовна середня = умовна дисперсія. Для моделей із заниженим рівнем нуля, окрім згаданих вище моделей коваріатів, вам потрібно буде подумати про змінні, які могли б створити надлишки нулів, які ви побачили в результаті. Знову ж таки, є статистичні тести, які поставляються з результатами цих моделей (іноді, можливо, доведеться вказати їх під час виконання команди), які дозволять вамемпірично вирішити, яка модель найкраща для ваших даних. Є два тести, що цікавлять: Перший - це тест коефіцієнта на дисперсійний параметр а другий - тест, який відомий як тест Вуонга, який говорить про те, чи надлишкові нулі генеруються окремим процесом (тобто чи є насправді нульова інфляція в результаті).θ
Порівнюючи вибір між ZIP та ZINB, ви знову подивитесь на тест параметра дисперсії . Знову ж (ZIP краще підходить) і (ZINB - це краще). Тест Вуонга дозволяє приймати рішення між Пуассоном проти ZIP або NB проти ZINB. Для тесту Вуонг, (Пуассон / NB краще підходить) і (ZIP / ZINB краще підходить).θH0:θ=0H1:θ≠0H0:Excess zeroes is not a result of a separate processг е г O е S I S A R E сек у л т O F а и е р а г а т е р г O гр е з иH1:Excess zeroes is a result of a separate process
Інші користувачі можуть коментувати "звичайний" робочий процес, але мій підхід - візуалізувати дані та перейти звідти. У вашому випадку я, мабуть, почав би з ZINB і запустив би тест на коефіцієнт на і тест Вуонга, оскільки саме тест на коефіцієнт на сказав би вам, який з них краще між ZIP і ZINB, і Тест Вуонга підкаже, чи слід використовувати надуті нульові моделі. θθθ
Нарешті, я не використовую R, але IDRE на сторінці прикладів аналізу даних UCLA може допомогти вам у встановленні цих моделей.
[Редагувати іншим користувачем без достатньої репутації для коментарів: У цьому документі пояснюється, чому не слід використовувати тест Вуонга для порівняння моделі нульової інфляції та надає альтернативи.
П. Вілсон, “Неправильне використання тесту Вуонга для вкладених моделей для перевірки нульової інфляції”. Економічні листи, 2015, т. 127, випуск C, 51-53 ]