Чи можна ці дані зібрати в пропорції для біноміального glm?


11

Ми попросили 60 людей перерахувати стільки франшиз ресторану в Атланті, скільки могли. Загальний список включав понад 70 ресторанів, але ми усунули ті, про які згадувало менше 10% людей, залишивши нас 45. На ці 45 ми підрахували частку інформаторів, які перелічили франшизу, і нас цікавить моделювання цієї пропорції як функції рекламного бюджету франшизи (перетвореного на журнал) та років з моменту отримання франшизи.

Тому я написав цей код:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

Як і передбачалося, обидві змінні виявляють сильний, значний вплив.

Але, хоча я знаю, що пропорційні дані ніколи не повинні моделюватися за допомогою регресії OLS, я згодом написав цей код:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

У цьому випадку "бюджет" все ще є вагомим прогнозним показником, але "роки" відносно слабкі і не суттєві.

Мене хвилює, що довіра до оцінок штучно завищена сукупністю. Чи не є біноміальний glm по суті векторними даними таким чином, що модель базується на 45 * 55 = 2475 рядках? Чи підходить це, враховуючи, що насправді є лише 45 ресторанів та 55 інформаторів? Це закликає моделювати змішані ефекти?


4
підказка: подивіться, що станеться зfamily=quasibinomial
Бен Болкер

1
Цікаво. Орієнтовні коефіцієнти однакові, але стандартні похибки більш консервативні (а роки не є істотними у квазібіономічній моделі). Я шукаю файли довідки для квазібіноміального, але чи можете ви пояснити, що відбувається? Моє враження склалося, що квазібіноміал використовується в основному для наддисперсії. . .
Джеремі _

3
Саме так. Є безліч відмінностей між lmі glm(...,family=binomial), але один з важливих є те , що біном GLM робить сильні припущення про дисперсії. Якщо дані не є розповсюдженими, то агрегація / дезагрегація не має значення.
Бен Болкер

1
Вихід R показує, що параметр дисперсії вважається рівним 8,7. Я намагаюся розібратися, що це говорить про надмірність. Тим часом, Бен, я бачу, що ти маєш досить багато фону зі змішаними моделями. Чи безпечно я використовувати біноміальний glm без змішаних ефектів як для інформатора, так і для франшизи (у такому випадку я б, мабуть, мусив векторизувати всі дані, додаючи стовпець для "Ідентифікатор інформатора")?
Джеремі _

Відповіді:


1

Для пропорційних даних можна прийняти логарифм залежної змінної перед приміркою, оскільки логарифми перетворюють множення на додавання. У подібному руслі, якщо можна також взяти логарифми незалежних змінних, якщо вони також пропорційні, то отримана в результаті множинна лінійна регресія передбачає модель продукту функціонування, а не адитивну, тобто . Тобто один підходить . Для пропорційних змінних це, як правило, надає більшого значення, ніж лінійне пристосування, і є більш потужним і має більш високий .Y=cX1k1X2k2...Xnknln(Y)=ln(c)+k1ln(X1)+k2ln(X2)...+knln(Xn)R2

Тепер, якщо незмінна регресійна лінія (в ідеалі біваріантна регресія, наприклад, регресія Демінга) не буде правдоподібно проходити через {0,0}, вона стає дещо складнішою і мінімізує функцію компенсації пропорційних втрат, а не використовує звичайну мінімум квадрати.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.