Добре підходить і яка модель вибрати лінійну регресію або Пуассона


19

Мені потрібні поради щодо двох головних дилем у моєму дослідженні - це тематичне дослідження трьох великих фармацевтичних препаратів та інновацій. Кількість патентів на рік є залежною змінною.

Мої запитання є

  • Які найважливіші критерії для хорошої моделі? Що більше / менш важливо? Хіба що більшість чи всі змінні будуть значущими? Це проблема "F STATISTIC"? Чи це значення "Налагоджений R квадрат"?

  • По-друге, як я можу визначити найбільш відповідну модель для дослідження? Крім патентів, які є змінною підрахунку (тому, можливо, число Пуассона), у мене є пояснювальні змінні, такі як фондовіддача, бюджет на дослідження та розробки, неодноразовий партнер (% не двійкова змінна), розмір компанії (співробітники) та ще кілька. Чи слід робити лінійну регресію чи Пуассон?


5
Кетіл дав добру детальну відповідь. Більш швидка і коротка думка, що відповідає його аргументу, полягає в тому, що те, що ви називаєте "другим", - це дійсно важливе питання. Те, що ви згадуєте спочатку, є випадковим.
Нік Кокс

Відповіді:


31

Найважливіша логіка, що стоїть за моделлю. Ваша змінна "кількість патентів на рік" є змінною кількістю, тому вказується регресія Пуассона. Це GLM (узагальнена лінійна модель) з (звичайно) функцією зв’язку журналу, тоді як звичайна лінійна регресія - гауссова GLM з ідентифікаційним зв'язком. Тут справді функція зв’язку журналу є найважливішою, важливішою, ніж розподіл помилок (Пуассона чи Гаусса).

Змінна "Патенти" - це велика змінна: див. Інтенсивні та екстенсивні властивості . Для інтенсивних змінних, таких як температура, часто підходять лінійні моделі (з ідентифікаційним зв'язком). Але з великою змінною це інакше. Подумайте, що одна з ваших фармацевтичних компаній розділилася на дві різні компанії. Тоді патенти довелося розділити між двома новими компаніями. Що трапляється з коефіцієнтами, у вашій регресії? Такі змінні, як кількість працівників та бюджет RD, також повинні бути розділені.x

Загалом, в цьому контексті інтенсивна змінна - це змінна, яка не залежить від розміру компанії, тоді як велика змінна залежить (як правило, лінійно) від розміру компанії. Отже, у певному сенсі, якщо у рівнянні регресії у нас є багато різних обширних змінних, ми неодноразово вимірюємо ефекти розміру . Це здається зайвим, тому ми повинні намагатися, коли це можливо, виражати змінні в інтенсивній формі , наприклад, бюджет RD на одного працівника (або у відсотках від загального бюджету), також дохід тощо. Змінна, як кількість працівників, повинна бути залишена як обширний. Дивіться відповідь @ onestop на « Справа з кореляційними регресорами» для іншого обговорення цієї великої / інтенсивної змінної проблеми.

Давайте розглянемо це алгебраїчно: - патенти, бюджет (на одного працівника), працівники в оригінальній компанії, тоді як P 1 , B 1 , E 1 і P 2 , B 2 , E 2 - відповідні змінні після a розколоти. Припустимо, як було сказано вище, що Е є єдиним обширним ковариабельним (з Р , звичайно, також обширним).P,B,EP1,B1,E1P2,B2,E2EP

Тоді перед розщепленням маємо модель, зв’язок ідентичності з випадковою частиною, що залишається відхиленою: Нехай розділені дроби будуть α , 1 - α, тому для компанії 1 після розщеплення отримаємо α P

P=μ+β1E+β2B
α,1α , так якP1=& alphaP,E1=& alphaEалеB1=B. Так само і для компанії два. Тож модель досить складно залежить від розміру компанії, лише коефіцієнт регресії наE
αP=αμ+αβ1E+αβ2BP1=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEнезалежність від розміру компанії, розмір впливу на всі інші параметри. Це ускладнює інтерпретацію результатів, тим більше, що якщо у ваших даних є компанії різної величини, то як ви збираєтесь інтерпретувати ці коефіцієнти? Порівняння з іншими дослідженнями, заснованими на інших даних тощо, стає надзвичайно складним.

Тепер давайте подивимося, чи може допомогти використання функції зв’язку журналу. Знову ж таки, ми пишемо ідеалізовані моделі без порушень. Змінні наведені вище.

По-перше, модель перед розщепленням: Після розколу для однієї компанії отримуємо: P 1

P=exp(μ+β1E+β2B)
Це виглядає майже правильно, за винятком однієї проблеми, частина залежності відEне зовсім виходить. Таким чином, ми бачимо, що кількість працівників, одна із змінних у великій формі, повинна використовуватися в журнальній шкалі. Потім, повторивши спробу, отримуємо:
P1=exp(logα)exp(μ+β1E+β2B)P1=exp(logα+μ+β1E+β2B1)
E

P=exp(μ+β1logE+β2B)
P1=exp(logα)exp(μ+β1logE+β2B)P1=exp(logα+μ+β1logE+β2B1)P1=exp((1β)logα+μ+β1logE1+β2B1)P1=exp(μ+β1logE1+β2B1)
μ is a new intercept. Now, we have put the model in a form where all parameters (except the intercept) have an interpretation independent of company size.

That makes interpretations of results much easier, and also comparisons with studies using other data, trends with time, and so on. You cannot achieve this form with parameters with size-independent interpretations with an identity link.

Conclusion: Use a GLM with log link function, maybe a Poisson regression, or negative-binomial, or ... The link function is orders of magnitude more important!

To sum up, when constructing a regression model for a response variable which is extensive, like a count variable.

  1. Try to express covariables in intensive form.

  2. Covariables which must be left as extensive: log them (the algebra above depends on there being at most one extensive covariable).

  3. Use a log link function.

Then, other criteria, such as those based on fit, can be used for secondary decisions, such as the distribution of the disturbance term.


3
I thought a Poisson regression was a GLS regression with log link function?
Sideshow Bob

1
Зазвичай, так, але ви також можете розглянути регресію Пуассона з ідентичністю (або іншим, наприклад, квадратним коренем). Але мій аргумент тут показує, що зазвичай ви хочете посилання на журнал.
kjetil b halvorsen

@ kjetil b halvorsen, що таке (1-β) в корекції мктермін?
гарей
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.