Зсуви можна використовувати в будь-якій регресійній моделі, але вони набагато частіші при роботі з даними підрахунку для вашої змінної відповіді. Зсув - це просто змінна, яка змушена мати в моделі коефіцієнт 1 . (Дивіться також цю відмінну нитку CV: Коли використовувати зсув в регресії Пуассона? )
При правильному використанні з даними підрахунку це дозволить вам моделювати ставки замість підрахунків . Якщо це цікавить, то це щось робити. Таким чином, це той контекст, в якому компенсації використовуються найчастіше. Розглянемо Poisson GLiM з посиланням на журнал (який є канонічним посиланням).
ln( λ )ln( λт я м е)ln( λ ) - ln( т яm e )ln( λ)ln( λ )=β0+β1Х=β0+β1Х⇒=β0+β1Х=β0+β1Х+ 1 × ln( t i m e )≠= β0+ β1Х+β2× ln( т я м е )ш ч е н β2≠ 1( c o u n t s )( r a t e s )( s t i l l r a t e s )( c o u n t s a g a i n )
(Як ви бачите, ключовим у правильному використанні зміщення є створення зміщення, а не t i m e .) ln( t i m e )т я м е
Коли коефіцієнт на не дорівнює 1 , ви більше не моделюєте показники. Але оскільки β 2 ∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ ) забезпечує набагато більшу гнучкість для встановлення даних, моделі, які не використовують ln ( t i mln(time)1β2∈(−∞,1)∪(1,∞) як зміщення, зазвичай підходять краще (хоча вони можуть також переобладнати). ln(time)
Чи варто вам моделювати підрахунок чи ставки, дійсно залежить від того, який ваш основний питання. Вам слід моделювати той, який відповідає тому, що ви хочете знати.
Що стосується того, що може означати, що не буде 1 , розглянемо приклад, коли час не є змінною, про яку йдеться. Уявіть, що вивчаєте кількість хірургічних ускладнень у різних лікарнях. В одній лікарні спостерігається набагато більше хірургічних ускладнень, але вони можуть стверджувати, що порівняння не є справедливим, оскільки роблять набагато більше операцій. Тож ви вирішили спробувати контролювати це. Ви можете просто використовувати журнал кількості операцій як компенсацію, що дозволить вивчити частоту ускладнень за одну операцію. Ви також можете використовувати журнал кількості операцій як інший коваріат. Скажімо, що коефіцієнт значно відрізняється від 1 . Якщо ββ211β2>1, то в лікарнях, які роблять більше операцій, більший рівень ускладнень (можливо, тому, що вони поспішають на роботу, щоб зробити більше). Якщо , то в лікарнях, які роблять найбільше, виникає менше ускладнень на операцію (можливо, у них є найкращі лікарі, і вони роблять більше, і роблять їх краще). β2< 1
Бачити, як це могло статися, якщо змінна, про яку йдеться, був час трохи складніше. Розподіл Пуассона виникає в результаті процесу Пуассона , в якому час між подіями експоненціально розподілений, і отже, існує природний зв’язок з аналізом виживання. В аналізі виживання час на події часто не розподіляється як експоненційний, але базовий ризик з часом може бути більшим або меншим. Таким чином, розглянемо випадок, коли ви моделюєте кількість подій, які відбуваються внаслідок певного природного початкового пункту. Якщо , це означає, що швидкість подій прискорюється, тоді як якщо β 2 < 1β2> 1β2< 1, це означає, що швидкість подій сповільнюється.
Для конкретного прикладу першого уявіть сканування, яке підраховує кількість ракових клітин за проміжок часу після видалення початкової пухлини хірургічним шляхом. Для деяких пацієнтів минуло більше часу після операції, і ви хотіли це врахувати. Оскільки після того, як рак відновився, він почне зростати експоненціально, з часом після операції цей показник зростатиме без додаткового лікування.
Для конкретного прикладу останнього розглянемо кількість людей, які помирають від спалаху хвороби, щодо якої у нас немає лікування. Спочатку багато людей помирають через те, що вони були більш чутливі до цієї хвороби, або вже мали порушену імунну систему тощо. З часом, оскільки населення, що залишилося, менш сприйнятливе до захворювання, швидкість зменшуватиметься. (Вибачте, цей приклад настільки хворобливий.)