Як вирішити, яку сімейство glm використовувати?


17

У мене є дані про щільність риби, які я намагаюся порівняти між декількома різними техніками збору, дані мають багато нулів, а гістограма виглядає химерною, підходящою для розподілу пуассона, за винятком того, що, як щільність, це не цілі дані. Я відносно новичок у ГЛМ і останні кілька днів шукаю в Інтернеті, як сказати, який дистрибутив використовувати, але не зміг знайти будь-яких ресурсів, які допоможуть прийняти це рішення. Зразок гістограми даних виглядає наступним чином:Зразок гістограми

Я поняття не маю, як прийняти рішення про відповідну сім'ю, яку використовувати для ГЛМ. Якщо хтось має поради або міг би дати мені ресурс, я повинен перевірити, це було б фантастично.


1
Що саме таке "щільність риби"? Це кількість риби на одиницю об'єму озера, наприклад?
gung - Відновіть Моніку

Це кількість риби на одиницю площі (у цьому випадку квадратні метри). Ми використовували інструменти візуального опитування, тому він розраховується на кількість спостережуваних риб, поділене на площу, яку обстежують інструмент. Нам довелося використовувати щільність для стандартизації між інструментами, оскільки вони обстежують дуже різні площі, інакше я міг би просто використовувати дані підрахунку і дотримуватися розподілу пуассона.
C. Денні

7
Моя порада - поверніться до даних про підрахунок і використовуйте "область" як зміщення в моделі з посиланням на журнал --- але я не знаю, що Пуассон підійде дуже добре (це важко здогадатися, оскільки у вашій гістограмі відображаються лише граничний розподіл, а не умовні розподіли, які б моделював GLM ... і в будь-якому випадку має занадто мало бункерів, щоб бути корисними). Якщо Пуассон недостатньо важкий хвостик / spike-at-0-ish, можливий негативний двочлен, або вам знадобляться нульові або надуті моделі
Glen_b -Встановіть Моніку

Я займаюся моделюванням Пуассона цілий день, і коментар Glen_b є канонічною відповіддю.
Пол,

2
Одне доповнення - моделювання Пуассона теоретично добре виправдане, коли одиниці спостереження (у цьому випадку я гадаю, що ви рахуєте окремих риб?) Незалежно розподіляються по полю спостереження, як випадково насичені зерна піску. Згідно з цим припущенням, може бути певна зміна щільності, але положення однієї риби нічого не означає про положення інших риб. Але майте на увазі, це припущення може бути порушене на практиці, оскільки риби збираються, наприклад, у школи, і тоді їхні позиції вже не залежать.
Пол,

Відповіді:


8

Сімейства GLM містять функцію зв'язку, а також середньо-різницеві відносини. Для Poisson GLMs функція зв'язку - це журнал, а середньо-дисперсійне співвідношення - тотожність. Незважаючи на застереження, які дає вам більшість статистичних програм, цілком розумно моделювати співвідношення у безперервних даних, коли зв'язок між двома змінними лінійний за шкалою журналу, а дисперсія збільшується відповідно до середнього.

Це, по суті, є обґрунтуванням вибору функції зв'язку та дисперсії в GLM. Звичайно, за цим процесом є кілька припущень. Можна зробити більш надійну модель, використовуючи квазіподібність (див. ?quasipoisson) Або надійні стандартні помилки (див. Пакет sandwichабо gee).

Ви правильно зазначили, що у ваших даних багато густин 0. За імовірними моделями Пуассона доцільно періодично вибирати 0 в даних, тому необов'язково траплятися так, що ці спостереження призводять до зміщення ваших оцінок ставок.

Щоб перевірити припущення, що стоять за ГЛМ, зазвичай корисно переглянути залишки Пірсона. Вони враховують середнє співвідношення дисперсії та показують статистику, чи конкретні спостереження, такі як ці 0, грубо впливають на оцінку та результати.


22

Узагальнена лінійна модель визначається з точки зору лінійного предиктора

η=Xβ

що передається через функцію зв'язку :g

g(E(Y|X))=η

Він моделює співвідношення між залежною змінною та незалежними змінними X = X 1 , X 2 , , X k . Точніше, він моделює умовне математичне очікування від Y даного X ,YX=X1,X2,,XkYX

E(Y|X)=μ=g1(η)

тому модель в імовірнісних термінах можна визначити як

Y|Xf(μ,σ2)

ffYYXYX

З іншого боку, на практиці, якщо ви зацікавлені в створенні прогнозної моделі, вам може бути цікаво протестувати кілька різних дистрибутивів, і врешті-решт дізнаєтесь, що один з них дає більш точні результати, ніж інші, навіть якщо це не найбільш "підходящий" з точки зору теоретичних міркувань (наприклад, теоретично ви повинні використовувати Пуассона, але на практиці стандартна лінійна регресія найкраще працює для ваших даних).


2

Це дещо широке питання, ви запитуєте, як робити моделювання, і цілі книги присвячені цьому. Наприклад, при роботі з даними підрахунку врахуйте наступне:

Крім вибору розподілу, ви повинні вибрати функцію посилання. За допомогою даних підрахунку ви можете спробувати пуассонове чи негативне біноміальне розподіл та функцію зв’язку журналу. Причина посилання на журнал наведена тут: доброта придатності та модель для вибору лінійної регресії або Пуассона Якщо ваші патчі мають дуже різні області, можливо, ви повинні включити логарифм площі як зміщення, щоб моделювати підрахунки на одиницю площі, а не абсолютні рахує. Для пояснення зсуву в регресії даних підрахунку див. Розділ Коли використовувати зміщення в регресії Пуассона?

EDIT 

Ця відповідь спочатку була розміщена на інше питання, яке було об'єднане з цим. Хоча відповідь загальна, вона коментує специфіку набору даних та проблему, про яку більше не йдеться. Оригінальне запитання можна знайти за наступним посиланням: Сім'я в GLM - як правильно вибрати?


Ми не можемо скасувати питання, @kjetil, тільки чорти можуть це зробити (і вони справді не люблять). Я все ще можу отримати доступ до оригінального запитання Q. 1 можливість полягає в тому, що я міг би скопіювати вміст у новий Q (який був би мені автором), ви могли скопіювати цей A в новий потік, і тоді я міг би закрити цей потік як дублікат цього. Важко сказати, чи це божевільна ідея, чи це варте клопоту, але це те, що я можу зробити. У вас є перевага?
gung - Відновити Моніку

@gung: Ви можете це зробити, або я можу скопіювати інформацію з цього питання у відповідь тут. Може, це найкраще? (Я можу відредагувати, що це здається з історії редагування)
kjetil b halvorsen

1
Перш за все, @kjetilbhalvorsen, вибачте, що заплутався, оскільки це було моєю ідеєю об'єднати нитки, оскільки вони, здавалося б, майже однакові, і обидва містили хороші відповіді. Моє первісне враження було, що злиття ниток не принесе шкоди. Можливо, ви могли просто додати "Наприклад, під час роботи з даними підрахунку ..." до другого абзацу? Ваша відповідь чудово відповідає на загальне "Як вибрати сім'ю?" питання, то, може, варто залишити це загальною темою?
Тім

1
@Tim я відредагую, як ти кажеш!
kjetil b halvorsen

Спробуємо редагувати. Якщо ви хочете, щоб я повернув Q, знову надішліть мені пінг. Я зараз відкину прапор.
gung - Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.