Регресія зі скасованими даними


12

Спроба підрахувати кількість відвідувань за демографічними показниками та послугами. Дані дуже перекошені.

Гістограми:

гістограми

qq ділянки (зліва - журнал):

qq ділянки - справа - це журнал

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

cityі serviceє факторними змінними.

Я отримую низьке значення p для всіх змінних, але також отримую низький r-квадрат у розмірі .05. Що я повинен зробити? Чи працювала б інша модель, наприклад, експоненціальна чи щось таке?


Оскільки те, що я спочатку вважав, що висока частота нулів насправді є високою частотою подвійних, не могли б ви розповісти нам трохи більше про процес генерації даних? Яку послугу люди збиралися, і яка «кінцева мета» аналізу? Чи намагаєтесь ви передбачити кількість (кількість) відвідувань з урахуванням набору характеристик (тобто як показника якості обслуговування)? Чи абсолютно вам потрібно зберігати результат підрахунком для того, щоб відповісти на ваше дослідницьке запитання, чи можете ви змінити змінну результатів на меншу, але більшу категорії?
Маркіз де Карабас

2
У вас є дані про підрахунок. Шукайте на цьому веб-сайті регресію Пуассона.
kjetil b halvorsen

Відповіді:


11

Лінійна регресія не є правильним вибором для вашого результату, враховуючи:

  1. Змінна результат зазвичай не розподіляється
  2. Змінна результату обмежена значеннями, які вона може приймати (дані підрахунку означають, що передбачувані значення не можуть бути негативними)
  3. Здається, що часто зустрічаються випадки з 0 відвідуваннями

Обмежені залежні моделі змінних для підрахунку даних

Стратегія оцінки, яку ви можете обрати, диктується "структурою" змінної вашого результату. Тобто, якщо ваша змінна результат має обмежені значення, які вона може приймати (тобто якщо це обмежена залежна змінна ), вам потрібно вибрати модель, де прогнозовані значення потраплять у можливий діапазон для вашого результату. Хоча іноді лінійна регресія є хорошим наближенням для обмежених залежних змінних (наприклад, у випадку двійкового logit / probit), часто це не так. Введіть узагальнені лінійні моделі . У вашому випадку, оскільки змінною результату є дані про підрахунок, у вас є кілька варіантів:

  1. Модель Пуассона
  2. Негативна біноміальна модель
  3. Модель Пуассона (ZIP) із завищеною нулем
  4. Модель нуля завищеного негативного бінома (ZINB)

Вибір, як правило, визначається емпірично. Я коротко обговорюю вибір між цими варіантами нижче.


Пуассон проти негативного двочлена

Взагалі, Пуассон - це модель "загальної робочої коні" з 4-х модельних даних, про які я згадував вище. Обмеженням моделі є припущення, що умовна дисперсія = умовна середня величина, яка не завжди може бути істинною. Якщо ваша модель передисперсна (умовна дисперсія> умовна середня величина), вам потрібно буде використовувати замість неї негативну біноміальну модель. На щастя, коли ви запускаєте негативний біном, вихід зазвичай включає статистичний тест для параметра дисперсії (R називає цей параметр дисперсії "theta ( )", який в інших пакетах називається "альфа". Нульова гіпотеза у виборі між Пуассоном та Негативним Біномалем дорівнює: , тоді як альтернативна гіпотеза .θH0:θ=0H1:θ0θ є вагомим, є дані про надмірність дисперсії в моделі, і ви вибрали б негативний біном на Пуассона. Якщо коефіцієнт не є статистично значущим, представіть результати Пуассона.

ZIP проти ZINB

Одне потенційне ускладнення - нульова інфляція, яка може бути проблемою тут. Тут надходять нульові моделі ZIP і ZINB. Використовуючи ці моделі, ви припускаєте, що процес, що генерує нульові значення, відокремлений від процесу, що генерує інші, ненульові значення. Як і раніше, ZINB є доцільним, коли результат має надмірні нулі і перерозподілений, тоді як ZIP є доцільним, коли результат має надмірні нулі, але умовна середня = умовна дисперсія. Для моделей із заниженим рівнем нуля, окрім згаданих вище моделей коваріатів, вам потрібно буде подумати про змінні, які могли б створити надлишки нулів, які ви побачили в результаті. Знову ж таки, є статистичні тести, які поставляються з результатами цих моделей (іноді, можливо, доведеться вказати їх під час виконання команди), які дозволять вамемпірично вирішити, яка модель найкраща для ваших даних. Є два тести, що цікавлять: Перший - це тест коефіцієнта на дисперсійний параметр а другий - тест, який відомий як тест Вуонга, який говорить про те, чи надлишкові нулі генеруються окремим процесом (тобто чи є насправді нульова інфляція в результаті).θ

Порівнюючи вибір між ZIP та ZINB, ви знову подивитесь на тест параметра дисперсії . Знову ж (ZIP краще підходить) і (ZINB - це краще). Тест Вуонга дозволяє приймати рішення між Пуассоном проти ZIP або NB проти ZINB. Для тесту Вуонг, (Пуассон / NB краще підходить) і (ZIP / ZINB краще підходить).θH0:θ=0H1:θ0H0:Excess zeroes is not a result of a separate processг е г O е S I S A R E сек у л т O F а и е р а г а т е р г O гр е з иH1:Excess zeroes is a result of a separate process


Інші користувачі можуть коментувати "звичайний" робочий процес, але мій підхід - візуалізувати дані та перейти звідти. У вашому випадку я, мабуть, почав би з ZINB і запустив би тест на коефіцієнт на і тест Вуонга, оскільки саме тест на коефіцієнт на сказав би вам, який з них краще між ZIP і ZINB, і Тест Вуонга підкаже, чи слід використовувати надуті нульові моделі. θθθ

Нарешті, я не використовую R, але IDRE на сторінці прикладів аналізу даних UCLA може допомогти вам у встановленні цих моделей.

[Редагувати іншим користувачем без достатньої репутації для коментарів: У цьому документі пояснюється, чому не слід використовувати тест Вуонга для порівняння моделі нульової інфляції та надає альтернативи.

П. Вілсон, “Неправильне використання тесту Вуонга для вкладених моделей для перевірки нульової інфляції”. Економічні листи, 2015, т. 127, випуск C, 51-53 ]


більшість - 2 ~ відвідування. Усі записи є більше ніж 1 візит
pxxd

Я отримую подібні сюжети qq як для glm пуассона, так і для гамми, це нормально?
pxxd

3
1. Змінна результат зазвичай не розподіляється , сама по собі не є дійсним аргументом проти лінійної регресії. Набір регресійних припущень, що гарантує приємні властивості оцінювача (такі як послідовність та асимптотична нормальність), не включає нормальність змінної результату (і навіть не нормальність помилок).
Річард Харді

2

Спробуйте узагальнену лінійну модель з розподілом гами. Він може приблизно наближати вашу залежну змінну, оскільки вона є додатною і дорівнює нулю при х = 0. Я використовував R і GLM з певним успіхом у подібному випадку.


чи я використовую журнал відвідувань там або журнал посилань? glm (d вік + d $ стать + місто + місто + mdc, сімейство = гамма (посилання = журнал)) я отримую подібний сюжет qqVisits d
pxxd

1
Ні, я вважаю, що ви не повинні використовувати посилання журналу, а скоріше посвідчення особи. Але спочатку перевірте, наскільки гамма-функція відповідає вашому розповсюдженню.
Дієго

0

Всі статистичні припущення стосуються помилок моделі. Якщо ви побудуєте просту модель, використовуючи 6 рядів індикаторів, що відображають день тижня ... ви почнете бачити набагато приємніше розподіл помилок. Приступайте до включення щомісячних ефектів та ефектів відпустки (ДО ПЕРЕД, ВІД І ПІСЛЯ), і розповсюдження помилок стане ще приємнішим. Додавання показників дня місяця, тижня місяця, довгих вихідних показників і все ще стане приємніше.

Подивіться на Простий метод прогнозування кількості гостей з урахуванням поточних та історичних даних та https://stats.stackexchange.com/search?q=user%3A3382+daily+data для більш цікавого читання.


1
Ця відповідь, схоже, не стосується фактично заданого питання. Не могли б ви зробити з'єднання явним?
whuber

Я взяв його DVISITS, щоб запропонувати щоденні дані ... якщо це не так, тоді я скасовую свою відповідь. Якщо це справді поперечний переріз .. тоді, можливо, він повинен розглянути можливість стратифікації даних за основними класифікаціями.
IrishStat
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.