Найважливіша логіка, що стоїть за моделлю. Ваша змінна "кількість патентів на рік" є змінною кількістю, тому вказується регресія Пуассона. Це GLM (узагальнена лінійна модель) з (звичайно) функцією зв’язку журналу, тоді як звичайна лінійна регресія - гауссова GLM з ідентифікаційним зв'язком. Тут справді функція зв’язку журналу є найважливішою, важливішою, ніж розподіл помилок (Пуассона чи Гаусса).
Змінна "Патенти" - це велика змінна: див. Інтенсивні та екстенсивні властивості . Для інтенсивних змінних, таких як температура, часто підходять лінійні моделі (з ідентифікаційним зв'язком). Але з великою змінною це інакше. Подумайте, що одна з ваших фармацевтичних компаній розділилася на дві різні компанії. Тоді патенти довелося розділити між двома новими компаніями. Що трапляється з коефіцієнтами, у вашій регресії? Такі змінні, як кількість працівників та бюджет RD, також повинні бути розділені.x
Загалом, в цьому контексті інтенсивна змінна - це змінна, яка не залежить від розміру компанії, тоді як велика змінна залежить (як правило, лінійно) від розміру компанії. Отже, у певному сенсі, якщо у рівнянні регресії у нас є багато різних обширних змінних, ми неодноразово вимірюємо ефекти розміру . Це здається зайвим, тому ми повинні намагатися, коли це можливо, виражати змінні в інтенсивній формі , наприклад, бюджет RD на одного працівника (або у відсотках від загального бюджету), також дохід тощо. Змінна, як кількість працівників, повинна бути залишена як обширний. Дивіться відповідь @ onestop на « Справа з кореляційними регресорами» для іншого обговорення цієї великої / інтенсивної змінної проблеми.
Давайте розглянемо це алгебраїчно:
- патенти, бюджет (на одного працівника), працівники в оригінальній компанії, тоді як
P 1 , B 1 , E 1 і P 2 , B 2 , E 2 - відповідні змінні після a розколоти. Припустимо, як було сказано вище, що Е є єдиним обширним ковариабельним (з Р , звичайно, також обширним).P,B,EP1,B1,E1P2,B2,E2EP
Тоді перед розщепленням маємо модель, зв’язок ідентичності з випадковою частиною, що залишається відхиленою:
Нехай розділені дроби будуть α , 1 - α, тому для компанії 1 після розщеплення отримаємо
α P
P=μ+β1E+β2B
α,1−α ,
так як
P1=& alphaP,E1=& alphaEале
B1=B. Так само і для компанії два. Тож модель досить складно залежить від розміру компанії, лише коефіцієнт регресії на
EαPP1=αμ+αβ1E+αβ2B=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEнезалежність від розміру компанії, розмір впливу на всі інші параметри. Це ускладнює інтерпретацію результатів, тим більше, що якщо у ваших даних є компанії різної величини, то як ви збираєтесь інтерпретувати ці коефіцієнти? Порівняння з іншими дослідженнями, заснованими на інших даних тощо, стає надзвичайно складним.
Тепер давайте подивимося, чи може допомогти використання функції зв’язку журналу. Знову ж таки, ми пишемо ідеалізовані моделі без порушень. Змінні наведені вище.
По-перше, модель перед розщепленням:
Після розколу для однієї компанії отримуємо:
P 1
P=exp(μ+β1E+β2B)
Це виглядає майже правильно, за винятком однієї проблеми, частина залежності від
Eне зовсім виходить. Таким чином, ми бачимо, що кількість працівників, одна із змінних у великій формі, повинна використовуватися в журнальній шкалі. Потім, повторивши спробу, отримуємо:
P1P1=exp(logα)exp(μ+β1E+β2B)=exp(logα+μ+β1E+β2B1)
E
P=exp(μ+β1logE+β2B)
P1P1P1P1=exp(logα)exp(μ+β1logE+β2B)=exp(logα+μ+β1logE+β2B1)=exp((1−β)logα+μ+β1logE1+β2B1)=exp(μ′+β1logE1+β2B1)
μ′ is a new intercept.
Now, we have put the model in a form where all parameters (except the intercept) have an interpretation independent of company size.
That makes interpretations of results much easier, and also comparisons with studies using other data, trends with time, and so on. You cannot achieve this form with parameters with size-independent interpretations with an identity link.
Conclusion: Use a GLM with log link function, maybe a Poisson regression, or negative-binomial, or ... The link function is orders of magnitude more important!
To sum up, when constructing a regression model for a response variable which is extensive, like a count variable.
Try to express covariables in intensive form.
Covariables which must be left as extensive: log them (the algebra above depends on there being at most one extensive covariable).
Use a log link function.
Then, other criteria, such as those based on fit, can be used for secondary decisions, such as the distribution of the disturbance term.