Ми попросили 60 людей перерахувати стільки франшиз ресторану в Атланті, скільки могли. Загальний список включав понад 70 ресторанів, але ми усунули ті, про які згадувало менше 10% людей, залишивши нас 45. На ці 45 ми підрахували частку інформаторів, які перелічили франшизу, і нас цікавить моделювання цієї пропорції як функції рекламного бюджету франшизи (перетвореного на журнал) та років з моменту отримання франшизи.
Тому я написав цей код:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
Як і передбачалося, обидві змінні виявляють сильний, значний вплив.
Але, хоча я знаю, що пропорційні дані ніколи не повинні моделюватися за допомогою регресії OLS, я згодом написав цей код:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
У цьому випадку "бюджет" все ще є вагомим прогнозним показником, але "роки" відносно слабкі і не суттєві.
Мене хвилює, що довіра до оцінок штучно завищена сукупністю. Чи не є біноміальний glm по суті векторними даними таким чином, що модель базується на 45 * 55 = 2475 рядках? Чи підходить це, враховуючи, що насправді є лише 45 ресторанів та 55 інформаторів? Це закликає моделювати змішані ефекти?
lm
і glm(...,family=binomial)
, але один з важливих є те , що біном GLM робить сильні припущення про дисперсії. Якщо дані не є розповсюдженими, то агрегація / дезагрегація не має значення.
family=quasibinomial