Коли використовувати гамма-ГММ?


88

Розподіл гами може набувати досить широкого діапазону форм, а враховуючи зв'язок між середньою та дисперсією через два її параметри, здається, підходить для боротьби з гетерокедастичністю в негативних даних таким чином, що OLS-трансформований OLS може не обійтися ні WLS, ні яким-небудь гетероскестичним оцінкою VCV.

Я б скоріше використовував це для рутинного моделювання даних, що не мають негативу, але я не знаю, хто використовує його, я не вивчив його в офіційному класі, а література, яку я читаю, ніколи не використовує. Щоразу, коли Google щось на зразок "практичного використання гамма-GLM", я придумую поради використовувати його для очікування між подіями Пуассона. ГАРАЗД. Але це здається обмежувальним і не може бути його єдиним використанням.

Наївно, схоже, що гамма-GLM є відносно легким припущенням для моделювання негативних даних, враховуючи гнучкість гамми. Звичайно, вам потрібно перевірити графіки QQ та залишкові ділянки, як і будь-яка модель. Але чи є якісь серйозні недоліки, які мені не вистачає? Поза межами спілкування з людьми, які "просто керують OLS"?

Відповіді:


57

Гамма має властивість, якою поділяється логіна; а саме, коли параметр форми тримається постійним, коли параметр масштабу змінюється (як це зазвичай робиться при використанні будь-яких моделей), дисперсія пропорційна середньому квадрату (постійний коефіцієнт варіації).

Щось наближене до цього трапляється досить часто з фінансовими даними чи, справді, з багатьма іншими видами даних.

Як результат, це часто підходить для даних, які мають постійний, позитивний, правий нахил та де дисперсія є майже постійною у масштабі журналу, хоча існує ряд інших відомих (і часто досить доступних) варіантів із тими властивості.

Крім того, звичайно підходити до логічного зв'язку з гаммою GLM (порівняно рідше використовувати природне посилання). Що відрізняє від пристосування звичайної лінійної моделі до журналів даних, це те, що в масштабі журналу гамма залишається косою в різній мірі, тоді як нормальна (журнал лонормального) симетрична. Це робить його (гаму) корисним у різних ситуаціях.

Я бачив практичне використання гамма-ГММ, обговорюваного (з реальними прикладами даних) у (від верхньої частини голови) де Йонг та Геллер та Фріз , а також у багатьох роботах; Я також бачив додатки в інших областях. О, і якщо я добре пам’ятаю, MASS Venables та Ріплі використовує це для прогулів у школі (дані quine; Редагувати: виявляється, це насправді в статистичних доповненнях до MASS , див. P11, 14-ту сторінку pdf, він має посилання на журнал, але є невеликий зсув DV). Так, МакКаллах і Нелдер зробили приклад згортання крові, хоча, можливо, це було природним зв'язком.

Потім є книга Faraway, де він зробив приклад страхування автомобіля та приклад даних про виробництво напівпровідників.

Існує деякі переваги та деякі недоліки у виборі будь-якого з двох варіантів. Оскільки в ці дні обидва легко підходять; це взагалі питання вибору того, що найбільше підходить.

Це далеко не єдиний варіант; наприклад, є також обернені гауссові ГЛМ, які мають більш косий / важчий хвіст (і навіть більше гетерокедастичний), ніж гамма або лонормальний.

Щодо недоліків, то складніше робити інтервали прогнозування. Деякі діагностичні дисплеї важче інтерпретувати. Обчислити очікування за шкалою лінійного предиктора (як правило, лог-шкали) важче, ніж для еквівалентної лонормальної моделі. Тести і інтервали гіпотез, як правило, асимптотичні. Це часто відносно незначні проблеми.

Він має деякі переваги перед логмальною регресією журналу зв'язку (прийняття журналів та встановлення звичайної лінійної регресійної моделі); одне полягає в тому, що передбачити середнє легко.


3
Це має бути "Гамма" чи "гамма"? Ми знаємо, що це не названо для людини. Я бачу нижчі регістри "g" набагато частіше. Зрозуміло, що розподіл названо за функцією, яка сягає 18 століття.
Нік Кокс

2
Γ

@ NickCox Я змінив це, як ви запропонували, і я виправив "зворотний гаусс", поки я був на ньому.
Glen_b

1
@Gleb_b: Ви все ще використовуєте посилання журналу з оберненою сімейством Гаусса?
Мастеров

@ DimitriyV.Masterov Менше використовується, тому важче узагальнити. З того, що я бачив, досить часто застосовувати посилання-журнал із зворотним гауссом, але інші посилання можуть бути придатні в деяких ситуаціях, наприклад, зворотній.
Glen_b

28

Це гарне запитання. Насправді, чому люди не використовують більше узагальнених лінійних моделей (GLM) - це також хороше питання.

Попереджувальна примітка: Деякі люди використовують GLM для загальної лінійної моделі, а не те, що тут розуміється.

  • Це залежить від того, куди ти дивишся. Наприклад, розповсюдження гамми було популярним у кількох науках про навколишнє середовище протягом декількох десятиліть, тому моделювання з змінними прогнозувальника теж є природним продовженням. Є багато прикладів з гідрології та геоморфології, щоб назвати деякі сфери, в яких я відхилився.

  • Важко точно визначити, коли використовувати його поза порожньою відповіддю, коли це найкраще працює. З огляду на перекошені позитивні дані, я часто опиняюсь як гамма-та лонормальні моделі (у контексті посилань журналу GLM, нормальне чи сімейство Гаусса), так і вибираючи, яка працює краще.

  • Гамма-моделювання залишалося досить важким донедавна, безумовно, порівняно з прийняттям журналів і застосуванням лінійних регресій, не записуючи багато коду самостійно. Навіть зараз я здогадуюсь, що це не так просто в усіх основних статистичних середовищах.

  • Пояснюючи, що використовується, а що не використовується, незважаючи на достоїнства та недоліки, я думаю, що ви завжди стикаєтесь саме з тими чинниками, які ви визначаєте: що викладають, що є в літературі, яку читають люди, про що люди чули, про яку говорили на роботи та на конференціях. Отже, для пояснення вам потрібна якась аматорська соціологія науки. Більшість людей, схоже, йдуть прямими та вузькими стежками в межах власних полів. Тим більше, що чим більша внутрішня література в будь-якій галузі про методи моделювання, тим менш схильні люди в цій галузі намагаються спробувати щось інше.


1
Як визначити, що працює краще?
Мастеров Димитрій Вікторович

7
Я дивлюся на ймовірності, R-квадрати (незважаючи на те, що кажуть люди), довірчі інтервали навколо оцінок параметрів, графіки спостережених проти встановлених, залишкових проти встановлених тощо. Якби наука надала перевагу одній моделі над іншою, це теж би важило, але в мій досвід, наука не так добре сформована. Як ще можна було це зробити?
Нік Кокс

@ NickCox На що слід звернути увагу, коли аналіз спостерігається порівняно із встановленими, залишками проти встановленого та нормальним графіком qq? Я розумію, це може відрізнятися між моделями. Чи можете ви навести приклад для гамми, пуассону та негативного бінома? Спасибі
татамі

@tatami Я думаю, це зовсім нове запитання. Якщо запитаєте, ви побачите, хто кусає. Я ніколи не думав, що гамма-модель та негативна біноміальна модель є суперниками у будь-якому проекті, але це може бути невдачею уяви чи досвіду.
Нік Кокс

13

Гамма-регресія знаходиться в ГЛМ, і тому ви можете отримати багато корисних кількостей для діагностичних цілей, таких як залишки відхилення, важелі, відстань Кука тощо. Вони, можливо, не такі приємні, як відповідні величини для даних, перетворених журналом.

Одне, що дозволяє уникнути регресії гамми порівняно з лонормальним, - це зміщення перетворень. Нерівність Дженсена означає, що прогнози від лонормальної регресії будуть систематично упереджені, оскільки це моделювання трансформованих даних, а не перетворене очікуване значення.

Крім того, гамма-регресія (або інші моделі для негативних даних) може впоратися з більш широким масивом даних, ніж лонормальна, через те, що вона може мати режим у 0, наприклад, у вас з експоненціальним розподілом, яке знаходиться в гамі сім'я, що неможливо для лонормальних.

Я прочитав пропозиції про те, що використання ймовірності Пуассона як квазіімовірності є більш стабільним. Вони сполучені один з одним. Квазі-Пуассон також має істотну перевагу в тому, що може впоратися з точними значеннями 0, що викликає неприємності як в гамі, так і, особливо, у логіці.


11

На мою думку, передбачається, що помилки лежать на сімействі гамма-розподілів, однакових форм і масштабів, що змінюються відповідно до відповідної формули.

Але складно провести модельну діагностику. Зауважте, що простий сюжет QQ тут не підходить, оскільки він приблизно однакового розподілу, тоді як наш - це сімейство дистрибутивів з різними варіаціями.

Наївно, графік залишків можна використовувати, щоб побачити, що вони мають різну луску, але однакову форму, як правило, з довгими хвостами.

На мій досвід, гамма-GLM може бути застосована для вирішення проблем із довгими хвостами, і вона широко використовується в секторах страхування та навколишнього середовища і т. Д. Але припущення важко перевірити, і модель зазвичай не працює добре, тому різні документи стверджують, що використовують інші сімейні розподіли з тією ж проблемою, як, наприклад, зворотний Гаусс тощо. Це обмежує використання гамма-GLM.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.