Яку регресійну модель найбільш доцільно використати для підрахунку даних?


10

Я намагаюся трохи заглибитись у статистику, але я щось застряг. Мої дані такі:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

Тепер я хочу побудувати регресійну модель, щоб можна було передбачити кількість генів за будь-який рік на основі даних. Я робив це з лінійною регресією до цих пір, але я прочитав читання, і, здається, це не найкращий вибір для такого роду даних. Я читав, що регресія Пуассона може бути корисною, але я не знаю, що використовувати. Отже, моє питання:

Чи існує загальна модель регресії для такого роду даних? Якщо ні, що мені робити, щоб з’ясувати, який метод є найбільш підходящим для використання (з точки зору того, що я повинен дізнатися про дані)?


Моя відповідь тут: stats.stackexchange.com/questions/142338/… дуже актуальна.
kjetil b halvorsen

2
Це стосується даних часових рядів?
Майкл М

Відповіді:


22

Ні, немає загальної моделі регресії даних підрахунку.

(Так само, як немає загальної регресійної моделі для безперервних даних. Найчастіше передбачається лінійна модель з нормально розподіленим гомоскедастичним шумом і встановлюється за допомогою звичайних найменших квадратів. Однак гамма-регресія або експоненціальна регресія часто використовуються для вирішення різних припущень розподілу помилок. або моделей умовної гетерокедастичності, таких як ARCH або GARCH у контексті часових рядів, для боротьби з гетерокедастичним шумом.)

Поширені моделі включають , як ви пишете, або негативну біноміальну . Ці моделі є достатньо поширеними, щоб знайти всі види програмного забезпечення, навчальні посібники чи підручники. Особливо мені подобається негативна біноміальна регресія Хільби . Це попереднє запитання розглядає, як вибрати між різними моделями даних підрахунку.

Якщо у ваших даних "багато" нулів, і особливо якщо ви підозрюєте, що нулі можуть бути керовані іншим процесом генерування даних, ніж ненулі (або що деякі нулі надходять з одного DGP, а інші нулі та не нулі надходять з різних DGP) можуть бути корисні моделі з . Найпоширеніший - нульова завищена пуассонова (ZIP) регресія.

Ви також могли проглядати наші попередні запитання з тегами "регресія" та "дані про кількість" .


EDIT: @MichaelM піднімає хорошу оцінку. Це робить вигляд , як тимчасові ряди даних підрахунку. (І відсутні дані за 1992 та 1994 роки мені підказують, що в кожному з цих років має бути нуль. Якщо так, включіть його. Нуль - дійсне число, і воно несе інформацію.) У світлі цього я Я б також запропонував переглянути наші попередні запитання з тегами "часові ряди" та "дані про кількість" .


4
Добре, але звичайні найменші квадрати - це процедура оцінки, а не модель. Ви це знаєте, але це звичайна плутанина, тому ми не мусимо писати це поблажливо.
Нік Кокс

@NickCox: хороший момент. Я відредагував своє повідомлення.
Стефан Коласа

11

"За замовчуванням", найбільш часто використовуваний та описаний, розподіл вибору для даних підрахунку - розподіл Пуассона . Найчастіше це проілюстровано на прикладі першого практичного використання:

Практичне застосування цього розподілу здійснив Ладислав Борткевич у 1898 р., Коли йому було надано завдання дослідити кількість солдатів прусської армії, випадково вбитих кінськими ногами; цей експеримент представив розподіл Пуассона в галузі інженерної надійності.

λλ

Е(Y|Х,β)=λ=досвід(β0+β1Х1++βкХк)

λ

Проблема використання розподілу Пуассона для даних реального життя полягає в тому, що він передбачає, що він буде рівним дисперсії. Порушення цього припущення називається наддисперсією . У таких випадках ви завжди можете використовувати модель квазі-Пуассона , не-пуассонівську лінійно-лінійну модель (для великих рахунків Пуассона можна наблизити за нормальним розподілом), негативну біноміальну регресію (тісно пов'язану з Пуассоном; див. Берк та Макдональд, 2008) або інші моделі, як описано Стефаном Коласом .

Для дружнього ознайомлення з регресією Пуассона ви також можете ознайомитись з документами Lavery (2010) або Coxe, West та Aiken (2009).


Лавери, Р. (2010). Анімований посібник: вступ до пуассонової регресії. NESUG папір, sa04.

Coxe, S., West, SG, & Aiken, LS (2009). Аналіз даних підрахунку: щадне вступ до пуассонової регресії та її альтернатив. Журнал оцінки особистості, 91 (2), 121-136.

Berk, R., & MacDonald, JM (2008). Перенапруження та пуассонова регресія. Журнал кількісної кримінології, 24 (3), 269-284.


2
Ви пов'язуєте відповідність розподілу Пуассона з використанням регресії Пуассона. Не є абсолютною вимогою для регресії Пуассона, щоб відповідь була розподілом Пуассона. Регресія Пуассона добре працює для широкого спектру позитивних відповідей, включаючи вимірювані змінні величини. Це гарна ідея бути обережними щодо стандартних помилок для висновку, але це можна відстежити. Дивіться, наприклад, blog.stata.com/2011/08/22/…
Нік Кокс

@NickCox має рацію, але питання стосувалося лише даних про підрахунок, тому, ймовірно, не потрібно вдаватися до подробиць про інші звички регресії Пуассона.
Тім

3
Не потрібно вникати в деталі, домовились; але кожен привід трохи підштовхнути регресію Пуассона. Про його корисність вражає маловідомість; це заслуговує на те, щоб принаймні в багатьох інших проміжних текстах. Крім того, і що важливіше тут, я зовсім не згоден, що колись дисперсія не дорівнює значенню, вам слід використовувати інші моделі; це плутає дві досить різні проблеми.
Нік Кокс

Більше того, факт регресії Пуассона може бути використаний з вимірюваними змінними є доречним, оскільки в таких випадках значення середньої дисперсії навіть не має сенсу, оскільки вони мають різні розміри. Таким чином, такі випадки підкреслюють, що вимога такого не існує.
Нік Кокс

3
досвід(Хб)

0

Пуассон або негативний двочлен - це дві широко використовувані моделі для даних лічильника. Я б вибрав негативний двочлен, оскільки він має кращі припущення щодо дисперсії.


3
Що ви маєте на увазі під «кращим»?
Тім

2
На даний момент це скоріше коментар, ніж відповідь. Як ви думаєте, ви могли б розширити це? Слід обов'язково задуматися над коментарем Тіма - слово "краще" дуже розпливчасте
Срібна рибка

Негативні біноміальні (NB) моделі мають справу з даними наддисперсного (OD), вважаючи, що це пов'язано з кластеризацією. Потім використовується випадкова модель перехоплення з Пуассоном, розподіленою структурою "всередині" та гаммою, розподіленою "між". Що краще, залежить від вашого припущення щодо OD. Якщо ви припускаєте, що ступінь OD залежить від розміру кластера, NB може допомогти. Якщо ви припускаєте, що ви вважаєте, що OD пропорційний розміру кластера, квазі-пуассон має таке припущення. Оцінки NB будуть упередженими, якщо OD - це лише шум Гауса. Пуассон буде менш упередженим, але стандартні помилки можуть бути занадто малими для OD.
Майндард
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.