Значення коефіцієнтів регресії (GAM), коли вірогідність моделі не суттєво перевищує нульову


10

Я використовую регрес на основі GAM, використовуючи gamlss пакет R та припускаючи, що бета-завищений бета-розподіл даних. У мене є тільки один пояснює змінної в моїй моделі, так це в основному: mymodel = gamlss(response ~ input, family=BEZI).

Алгоритм дає мені коефіцієнт для впливу пояснювальної змінної на середнє значення ( ) та пов'язане з ним p-значення для , приблизно так:kμk(input)=0

Mu link function:  logit                                               
Mu Coefficients:                                                      
              Estimate  Std. Error  t value   Pr(>|t|)                  
(Intercept)  -2.58051     0.03766  -68.521  0.000e+00                  
input        -0.09134     0.01683   -5.428  6.118e-08

Як ви бачите у наведеному вище прикладі, гіпотеза відкидається з високою впевненістю.k(input)=0

Потім я запускаю нульову модель: null = gamlss(response ~ 1, family=BEZI)і порівнюю ймовірності, використовуючи тест коефіцієнта ймовірності:

p=1-pchisq(-2*(logLik(null)[1]-logLik(mymodel)[1]), df(mymodel)-df(null)).

У ряді випадків я отримую навіть тоді, коли коефіцієнти на вході є значущими (як вище). Я вважаю це досить незвичним - принаймні, ніколи не бувало в моєму досвіді з лінійною або логістичною регресією (насправді, цього також ніколи не бувало, коли я використовував нульову гаму з gamlss).p>0.05

Моє запитання: чи можу я все-таки довіряти залежності між реакцією та входом, коли це так?

Відповіді:


1

Я не бачу безпосередньої причини, чому це повинно бути пов’язано з GAM. Справа в тому, що ви використовуєте два тести для однієї і тієї ж речі. Оскільки в статистиці немає абсолютної впевненості, то цілком можливо, що один може дати значний результат, а інший - ні.

Можливо, один з двох тестів є просто більш потужним (але тоді, можливо, покладається на ще кілька припущень), а може, єдиний вагомий - це ваша помилка один-двадцять типу I.

Хороший приклад - тести на те, чи є зразки з одного розподілу: у вас є дуже параметричні тести для цього (Т-тест - це той, який можна використовувати для цього: якщо засоби різні, то і розподіли), а також непараметричні ті: може статися, що параметричний дає вагомий результат, а непараметричний - ні. Це може бути тому , що припущення параметричного тесту є помилковими, так як дані просто незвичайні (типу I), або тому , що розмір вибірки не є достатнім для непараметричного тесту , щоб забрати різницю, або, нарешті, з - за аспект з те, що ви насправді хочете перевірити (різні дистрибуції), що перевіряється різними тестами, просто різне (різні засоби <-> шанси бути "вищими за").

Якщо один результат тестування показує значні результати, а інший лише незначний, я б не турбувався надто сильно.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.