У моделі Пуассона, яка різниця між використанням часу як коваріату чи зміщення?


18

Нещодавно я виявив, як моделювати експозиції з часом, використовуючи журнал (наприклад) часу як зміщення в регресії Пуассона.

Я зрозумів, що зміщення відповідає тому, що час є коваріатним з коефіцієнтом 1.

Я хотів би краще зрозуміти різницю між використанням часу як зміщення або як нормального коваріату (тому оцінюючи коефіцієнт). У якій ситуації я хочу використовувати той чи інший метод?

ОНГРАДА: Я не знаю, чи це цікаво, але я здійснив валідацію двох методів, використовуючи випадкові розбиті дані, повторені 500 разів, і я помітив, що використання методу зміщення призводить до більшої помилки тесту.

Відповіді:


25

Зсуви можна використовувати в будь-якій регресійній моделі, але вони набагато частіші при роботі з даними підрахунку для вашої змінної відповіді. Зсув - це просто змінна, яка змушена мати в моделі коефіцієнт 1 . (Дивіться також цю відмінну нитку CV: Коли використовувати зсув в регресії Пуассона? )

При правильному використанні з даними підрахунку це дозволить вам моделювати ставки замість підрахунків . Якщо це цікавить, то це щось робити. Таким чином, це той контекст, в якому компенсації використовуються найчастіше. Розглянемо Poisson GLiM з посиланням на журнал (який є канонічним посиланням).

ln(λ)=β0+β1Х(cоунтс)ln(λтiме)=β0+β1Х(rатес)ln(λ)-ln(тiме)=β0+β1Хln(λ)=β0+β1Х+1×ln(тiме)(стiлл rатес)ln(λ)=β0+β1Х+β2×ln(тiме)шгоден β21(cоунтс агаiн)

(Як ви бачите, ключовим у правильному використанні зміщення є створення зміщення, а не t i m e .) ln(тiме)тiме

Коли коефіцієнт на не дорівнює 1 , ви більше не моделюєте показники. Але оскільки β 2( - , 1 ) ( 1 , ) забезпечує набагато більшу гнучкість для встановлення даних, моделі, які не використовують ln ( t i mln(time)1β2(,1)(1,) як зміщення, зазвичай підходять краще (хоча вони можуть також переобладнати). ln(time)


Чи варто вам моделювати підрахунок чи ставки, дійсно залежить від того, який ваш основний питання. Вам слід моделювати той, який відповідає тому, що ви хочете знати.

Що стосується того, що може означати, що не буде 1 , розглянемо приклад, коли час не є змінною, про яку йдеться. Уявіть, що вивчаєте кількість хірургічних ускладнень у різних лікарнях. В одній лікарні спостерігається набагато більше хірургічних ускладнень, але вони можуть стверджувати, що порівняння не є справедливим, оскільки роблять набагато більше операцій. Тож ви вирішили спробувати контролювати це. Ви можете просто використовувати журнал кількості операцій як компенсацію, що дозволить вивчити частоту ускладнень за одну операцію. Ви також можете використовувати журнал кількості операцій як інший коваріат. Скажімо, що коефіцієнт значно відрізняється від 1 . Якщо ββ211β2>1, то в лікарнях, які роблять більше операцій, більший рівень ускладнень (можливо, тому, що вони поспішають на роботу, щоб зробити більше). Якщо , то в лікарнях, які роблять найбільше, виникає менше ускладнень на операцію (можливо, у них є найкращі лікарі, і вони роблять більше, і роблять їх краще). β2<1

Бачити, як це могло статися, якщо змінна, про яку йдеться, був час трохи складніше. Розподіл Пуассона виникає в результаті процесу Пуассона , в якому час між подіями експоненціально розподілений, і отже, існує природний зв’язок з аналізом виживання. В аналізі виживання час на події часто не розподіляється як експоненційний, але базовий ризик з часом може бути більшим або меншим. Таким чином, розглянемо випадок, коли ви моделюєте кількість подій, які відбуваються внаслідок певного природного початкового пункту. Якщо , це означає, що швидкість подій прискорюється, тоді як якщо β 2 < 1β2>1β2<1, це означає, що швидкість подій сповільнюється.

Для конкретного прикладу першого уявіть сканування, яке підраховує кількість ракових клітин за проміжок часу після видалення початкової пухлини хірургічним шляхом. Для деяких пацієнтів минуло більше часу після операції, і ви хотіли це врахувати. Оскільки після того, як рак відновився, він почне зростати експоненціально, з часом після операції цей показник зростатиме без додаткового лікування.

Для конкретного прикладу останнього розглянемо кількість людей, які помирають від спалаху хвороби, щодо якої у нас немає лікування. Спочатку багато людей помирають через те, що вони були більш чутливі до цієї хвороби, або вже мали порушену імунну систему тощо. З часом, оскільки населення, що залишилося, менш сприйнятливе до захворювання, швидкість зменшуватиметься. (Вибачте, цей приклад настільки хворобливий.)


y=timeexp(1pβpXp+const)y=timeβtimeexp(1pβpXp+const)

1
Тому чому слід вважати, що зв’язок між часом і подіями лінійний і зростає? Чи не краще буде оцінювати форму таких відносин у кожному випадку? У мене є ще два питання: 1. що б означало використовувати не журнал перетвореного часу замість коваріату? 2. (можливо, я повинен відредагувати питання або задати нове для цього) Я прочитав, що моделі пуассона насправді можна використовувати і з не цілим числом y. Таким чином, я міг би писати на R: glm (I (y / time) ~ cov.1 + ... + cov.n, poisson) і мати ті самі результати, що і у мене за зміщенням (log (time)). Я спробував це, але отримую різні коефіцієнти.
Бакабург

Діапазон Пуассона призначений лише для цілих чисел; не слід вводити дріб на LHS. Не використовувати перетворення журналу означає моделювання темпів подій за експоненціально одиничний час, що, ймовірно, ніколи не буде розумним у реальному світі.
gung - Відновити Моніку

1
@ Бакабург, час, мабуть, з ними співвідноситься. Це нічим не відрізняється від будь-якої іншої регресійної моделі моделювання. Я не бачу тут проблеми. Ви або зацікавлені в моделюванні середніх ставок, або у вас немає.
gung - Відновіть Моніку

1
@tatami, якщо ви збираєтеся використовувати час як коваріат (а не компенсувати), вам не доведеться приймати журнал часу. Однак, якщо ви хочете порівняти результат із зміщенням, вам потрібно буде використовувати журнал, щоб зробити їх порівнянними.
gung - Відновіть Моніку

7

Зсуви часу зазвичай можуть розглядатися як ваша модель, що оцінює швидкість події, яка відбувається за одиницю часу, при цьому зміщення контролю за тим, як довго ви спостерігали за різними предметами.

У моделях Пуассона ви завжди оцінюєте швидкість того, що щось трапляється, але ви ніколи не дотримуєтесь цього показника безпосередньо. Ви робите отримаєте , щоб спостерігати кількість разів , що подія відбувається в протягом деякого кількості часу. Зсув робить зв’язок між двома поняттями.

Наприклад, ви спостерігали, як суб'єкти стріляли в кошики за різну кількість часу, і ви підраховували кількість успішних кошиків для кожного предмета. Що вас справді цікавить, як часто кожен предмет занурює кошик, тобто кількість успішних кошиків, які кожен предмет розраховує просипати щохвилини, оскільки це дещо об'єктивна міра їхньої майстерності. Кількість кошиків, які ви фактично спостерігали, затонуло, тоді буде цей розрахунковий показник разів, скільки часу ви спостерігали за спробою. Тож можна подумати щодо одиниць відповіді, кількості кошиків за хвилину .

Важко придумати ситуацію, коли ти би використовував час, спостережуваний як коваріат, в пуассоновій регресії, оскільки за своєю суттю ти оцінюєш показник.

Наприклад, якщо я хочу оцінити ефект американки проти європейця (дуже нерозумний приклад) на кількість кошика, додавання часу як коваріату дозволило б мені оцінити цей ефект "незалежно" від часу пройденого зйомки, не є це? Крім того, це також дасть мені оцінку впливу часу на результат.

Ось приклад, який, сподіваємось, підкреслює небезпеку цього. Припустимо, що американці та європейці, по правді кажучи, щомиті занурюють однакову кількість кошиків. Але скажіть, що ми спостерігали за кожним європейцем удвічі довше, ніж за кожним американцем, тож у середньому ми спостерігали вдвічі більше кошиків за кожним європейцем.

Якщо ми створили модель , включаючи параметри для обох час спостерігається і індикатором «європейська», то обидві ці моделі пояснюють дані:

Е(кошики)=2cт+0хЄвропейський
Е(кошики)=0т+2cхЄвропейський

c

Як статистик, ми дуже хочемо, щоб у цій ситуації наша модель повідомила нам про відсутність статистичної різниці між курсом, який роблять корзини європейцями, і тим, що американці роблять кошики. Але наша модель цього не зробила, і ми залишаємось розгубленими.

Проблема полягає в тому, що ми знаємо щось, чого не знає наша модель . Тобто ми знаємо, що якщо ми спостерігатимемо за однією і тією ж особиною вдвічі більше часу, то, в очікуванні, вони зроблять вдвічі більше кошиків. Оскільки ми це знаємо, нам потрібно розповісти про нашу модель. Це те, що відбувається зсув.

Можливо, використання методу компенсації є доцільним, коли ми знаємо, що події відбуваються рівномірно з часом!

Так, але це припущення самої пуассонової моделі . Зі сторінки вікіпедії про розповсюдження пуассона

розподіл Пуассона, названий на честь французького математика Сімеона Дені Пуассона, - дискретний розподіл ймовірностей, який виражає ймовірність заданої кількості подій, що відбуваються за фіксований інтервал часу та / або простору, якщо ці події відбуваються із відомою середньою швидкістю та незалежно від час з часу останньої події .


2
Дякую за вашу відповідь. Але чи використовувати час як коваріат, чи не дасть це мені таку ж відповідь? Наприклад, якщо я хочу оцінити ефект американки проти європейця (дуже нерозумний приклад) на кількість кошика, додавання часу як коваріату дозволило б мені оцінити цей ефект "незалежно" від часу пройденого зйомки, не є це? Крім того, це також дасть мені оцінку впливу часу на результат. Іноді час не завжди важливий для змінної кількості, наприклад, коли події відбуваються на початку періоду спостереження.
Бакабург

Можливо, використання методу компенсації є доцільним, коли ми знаємо, що події відбуваються рівномірно з часом!
Бакабург

1
@Bakaburg Я додав спробу відповіді. Я сподіваюся, що це допомагає!
Меттью Друрі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.