Коли використовувати GAM vs GLM


15

Я усвідомлюю, що це може бути широким питанням, але мені було цікаво, чи існують узагальнюючі припущення, які вказують на використання GAM (Узагальнена модель добавок) для GLM (Узагальнена лінійна модель)?

Хтось нещодавно сказав мені, що GAM слід використовувати лише тоді, коли я вважаю, що структура даних є "аддитивною", тобто я очікую, що доповнення x прогнозують y. Інша людина зазначила, що GAM робить інший тип регресійного аналізу, ніж GLM, і що GLM є кращим, коли можна припустити лінійність.

Раніше я використовував GAM для екологічних даних, наприклад:

  • безперервні часові сесії
  • коли дані не мали лінійної форми
  • У мене було кілька x, щоб передбачити, що я вважав, що я маю певну нелінійну взаємодію, яку я міг би візуалізувати, використовуючи "графіки поверхні" разом зі статистичним тестом

Я, очевидно, не дуже розумію, що GAM робить іншим, ніж GLM. Я вважаю, що це достовірний статистичний тест (і я бачу збільшення використання ГАМ, принаймні, в екологічних журналах), але мені потрібно краще знати, коли його використання вказується в інших регресійних аналізах.


GAM використовуються, коли лінійний предиктор лінійно залежить від невідомих гладких функцій деяких змінних предиктора.
user2974951

1
Відмінність є розмитою, оскільки ви можете представити числові коефіцієнти, наприклад, за допомогою сплайну також у GLM.
Майкл М

3
Незважаючи на те, що розмежування розмито, ігри можуть представляти взаємодію також шляхом smae, оскільки настільки сувора придатність glm не потрібна, велика різниця полягає у висновку: гам потребує спеціальних методів, оскільки оцінка здійснюється не за допомогою проекції, а за допомогою згладжування. Що це означає на практиці, я не розумію.
kjetil b halvorsen

GLM GAM.
usεr11852

Відповіді:


14

ni=1nβixii=1nj=1qβisj(xi)s1(),,sq()qє базовим виміром. Комбінуючи основні функції, GAM можуть представляти велику кількість функціональних взаємозв'язків (для цього вони покладаються на припущення, що справжнє відношення, ймовірно, буде плавним, а не химерним). Вони по суті є розширенням GLM, однак вони розроблені таким чином, що робить їх особливо корисними для розкриття нелінійних ефектів числових коваріатів і для цього "автоматичним" способом (з оригінальної статті Hastie та Tibshirani вони мають " перевага бути повністю автоматичним, тобто не потрібно «детективної» роботи статистики » ).


2
Ну, але як сказано в коментарях, все це можна зробити і з glm's ... Я підозрюю, що головна відмінність - прагматична. Реалізація R mgcvробить багато речей, з якими ви не можете зробити glm, але можна було б зробити і в цьому рамках ...
kjetil b halvorsen

Так, я згоден з вами, GAM - це розширення GLM. Однак питання полягало в тому, коли використовувати GAM і коли використовувати GLM, і мені здалося, що op означають "класичні" форми GLM, які зазвичай не включають набір базових функцій як предикторів і не використовуються для виявлення / приблизна невідома нелінійна залежність.
Маттео

дякую - це корисно. і так, я говорив про класичні GLM
mluerig

@ matteo - ще дві речі: я) що саме ви маєте на увазі під "справжніми стосунками, швидше за все, будуть гладкі, а не хитрі"? та ii) "особливо корисно для виявлення нелінійних ефектів числових коваріатів" - як би описати / кількісно визначити нелінійність (наприклад, з mgcv)?
mluerig

Справжня взаємозв'язок може насправді не бути гладкою, проте GAM, як правило, контролюють складність моделі, додаючи покарання "хитрість" під час процесу максимізації ймовірності (зазвичай реалізується як частка інтегрованого квадрата другої похідної оціночної функції). Нелінійні ефекти числових коваріатів означають, що вплив певної числової змінної на залежну змінну може, наприклад, не збільшуватися / зменшуватися монотонно зі змінною величиною, але мати невідому форму, наприклад, з локальними максимумами, мінімумами, точками перегину ,. ..
маттео

14

Я підкреслив би, що GAM набагато гнучкіші, ніж GLM, і тому їм потрібно більше дбати про їх використання. З більшою владою настає більша відповідальність.

Ви згадуєте їх використання в екології, що я також помітив. Я був у Коста-Ріці і побачив якесь дослідження в тропічному лісі, де студенти-студенти кинули деякі дані в GAM і прийняли її шалено складні плавніші програми, тому що програмне забезпечення так сказало. Це було досить гнітюче, за винятком жартівливого / захоплюючого факту, що вони суворо включали виноску, яка задокументувала факт, що вони використовували ГУМ та вищі планки, що призвели до цього.

Вам не потрібно точно розуміти, як GAM працюють для їх використання, але вам дійсно потрібно подумати про свої дані, проблему, що склалася, автоматизований вибір вашого програмного забезпечення таких параметрів, як плавніші замовлення, ваш вибір (які гладші ви вказуєте, взаємодії, якщо більш виправдане виправдання тощо) та правдоподібність ваших результатів.

Зробіть багато сюжетів і подивіться на свої згладжуючі криві. Чи вони сходять з розуму в районах, де мало даних? Що станеться, якщо ви вкажете плавніше низького замовлення або повністю видалите згладжування? Чи реальна ступінь 7 рівніша для цієї змінної, чи вона є придатною, незважаючи на запевнення, що вона перехресно підтверджує свій вибір? Чи вистачає даних? Це якісна чи галаслива?

Мені подобаються GAMS і думаю, що вони недооцінені для вивчення даних. Вони просто надзвичайно гнучкі, і якщо ви дозволите собі науку без суворості, вони відведуть вас далі в статистичну пустелю, ніж простіші моделі, такі як GLM.


1
Я уявляю, що найчастіше я роблю те, що робили ті студенти випускників: кидаю мої дані в ігровий процес і mgcvмене осліплює, наскільки добре обробляє мої дані. Я намагаюся бути прихильним до своїх параметрів, і я перевіряю, наскільки добре передбачені значення відповідають моїм даним. ваші коментарі - це гарне нагадування про те, щоб бути трохи більш суворим - і, можливо, нарешті дістаньте книгу Сімона Вудса!
mluerig

Чорт, я піду так далеко, щоб використовувати плавніше для дослідження змінної, а потім або виправити ступінь свободи на низькому значенні, або усунути гладке та використовувати, скажімо, квадратний термін, якщо плавніше було в основному квадратичним. Наприклад, квадратика має сенс для вікового ефекту.
Уейн

@Wayne, я прийшов сюди саме для відповіді на дослідження даних стосовно GAM, і побачив, як ти це вказав. Як ви використовуєте GAM для дослідження даних? І як би ви вирішили, чи потрібна GAM, чи достатньо буде GLM. Чи було б сенсом просто запустити просту GAM, в якій ви запускаєте відповідь і кожен з потенційних прогнозів по черзі плануєте це і бачите, чи відносини вимагають GAM (тобто нелінійного та немонотонного відношення)?
Тілен

6

Я не маю репутації просто додати коментар. Я повністю погоджуюся з коментарем Уейна: З більшою владою наступає більша відповідальність . Ігри можуть бути дуже гнучкими, і часто ми отримуємо / бачимо шалено складніші плавні засоби . Потім я настійно рекомендую дослідникам обмежувати ступінь свободи (кількість вузлів) плавних функцій та перевіряти різні модельні структури (взаємодії / відсутність взаємодій тощо).

GAM можна розглядати між модельованими підходами (хоча межа нечітка, я б включив GLM до цієї групи) та керованими даними підходами (наприклад, Штучні нейронні мережі або випадкові ліси, які передбачають, що ефекти взаємодії нелінійних змінних повністю взаємодіють). Відповідно, я не повністю згідний з Хасті та Тібшірані, тому що GAM все ще потребують детективної роботи (Сподіваюся, мене ніхто не вбиває за це).

З екологічної точки зору я рекомендую використовувати шахрайство з пакетом R, щоб уникнути цих ненадійних змінних божевільних складних згладжувачів . Він був розроблений Наталією Пією та Саймоном Вудом, і це дозволяє обмежувати плавні криві до бажаних форм (наприклад, одномодальних чи монотонних) навіть для двосторонніх взаємодій. Я думаю, що GLM стає незначною альтернативою після обмеження форми гладких функцій, але це лише моя особиста думка.

Pya, N., Wood, SN, 2015. Форми з обмеженими моделями добавок. Стат. Обчислення. 25 (3), 543–559. 10.1007 / s11222-013-9448-7

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.