Яка діагностика може підтвердити використання конкретного сімейства GLM?


19

Це здається таким елементарним, але я завжди зациклююся на цьому ...

Більшість даних, з якими я маю справу, не є нормальними, а більшість аналізів базується на структурі GLM. Для мого поточного аналізу у мене є змінна відповідь, яка "швидкість ходьби" (метри / хвилина). Мені легко визначити, що я не можу використовувати OLS, але тоді я маю велику невпевненість у вирішенні того, яка сім'я (Gamma, Weibull тощо) підходить!

Я використовую Stata і дивлюсь на діагностику, як на залишки та гетероседастичність, залишки проти встановлених значень тощо

Я знаю, що дані підрахунку можуть мати форму швидкості (наприклад, показники захворюваності) і використовували гамму (аналог передисперсних дискретних негативних біноміальних моделей), але просто хотілося б, щоб "курильний пістолет" сказав ТАК, ВАМ ПРАВО СІМ'Я. Чи дивиться на стандартизовані залишки проти встановлених значень єдиний і найкращий спосіб зробити це? Я хотів би використовувати змішану модель для врахування певної ієрархії даних, але спочатку потрібно розібратися, що сімейство найкраще описує мінливу відповідей.

Будь-яка допомога вдячна. Особливо цінується мова статистики!


4
" Я хотів би, щоб" курильний пістолет "сказав ТАК, ВАМ ПРАВА СІМ'Я " - нічого цього не скажеш. Найкраще, на що можна сподіватися, - це сім'я, яка явно не помиляється. Існує багато способів вибору сімейства розподілу, але загалом це, як правило, включає поєднання апріорних або теоретичних міркувань та вказівки з самих даних.
Glen_b -Встановити Моніку

Відповіді:


14

У мене є кілька порад:

(1) Як залишки повинні порівнюватися з пристосуваннями, не завжди все очевидно, тому добре ознайомитися з діагностикою для конкретних моделей. Наприклад, у логістичних регресійних моделях, наприклад, статистика Хосмера-Лемешоу використовується для оцінки корисності; Значення важелів, як правило, невеликі, коли оцінені шанси дуже великі, дуже малі або рівні; & так далі.

(2) Іноді одне сімейство моделей може розглядатися як особливий випадок іншої, тому ви можете використовувати тест гіпотези щодо параметра, який допоможе вам вибрати. Наприклад, Експоненція проти Вейбула.

(3) Інформаційний критерій Akaike корисний при виборі між різними моделями, що включає вибір між різними сім'ями.

(4) Теоретичні / емпіричні знання про те, що ти моделюєш, звужує поле правдоподібних моделей.

Але немає автоматичного способу пошуку "правильної" сім'ї; Дані в реальному житті можуть надходити з розподілів настільки ж складними, як вам подобається, а складність моделей, які варто спробувати підходити, збільшується зі збільшенням кількості ваших даних. Це складова частина посилки Box, що жодні моделі не відповідають дійсності, але деякі є корисними.

Коментар Re @ gung: здається, що часто використовуваний тест Хосмера-Лемешоу (а) напрочуд чутливий до вибору бункерів, і (б) загалом менш потужний, ніж деякі інші тести щодо деяких відповідних класів альтернативних гіпотез. Це не погіршує пункт (1): також добре бути в курсі.


Спасибі! Ваші пропозиції стислі та точні. Я обмежений у сім'ях, якими можу користуватися через структуру мінливої ​​відповіді (позитивна, безперервна, але сильно перекошена). Серед експоненціальної родини здається, що гамма - це єдиний варіант. Тим часом я знайшов кілька корисних інструментів від NJ Cox, як показано в Stata Jounal 5 (2): 259-273 - gammafit (оцінює параметри форми та шкали), а dpplot дозволяє накладати графік ймовірності щільності та мінливу мою відповідь (можна зроблено з багатьма дистрибутивами і дозволяє мені зіставити найкращі сімейні дані за моїми даними). ​​Дякую також і для інших цукрів!
RLang

1
Зауважимо, що показано, що тест Gosmer-Lemeshow GoF залежить від використовуваного бінінгу / бути ненадійним.
gung - Відновіть Моніку

@Gung, Це явно залежить від використовуваного формату binning - не ідеально, але не впевнений, що це велика проблема, якщо ви не почнете ковтатись із бінінгами, щоб спробувати бажаний результат. Як це ненадійно та які інші тести краще?
Scortchi


1
Ви маєте рацію, що "інвалід" занадто сильний; Я лише сказав, що "ненадійний", хоча Харрелл використовує "застаріле".
gung - Відновіть Моніку

8

Ви можете знайти його цікаво читати віньєтку (вступне керівництво) для пакета R fitdistrplus. Я усвідомлюю, що ви віддаєте перевагу працювати в Stata, але, думаю, віньєтка буде достатньо зрозумілою, щоб ви могли отримати деяку інформацію про процес виведення сімей розподілу з даних. Можливо, ви зможете реалізувати деякі ідеї в Stata за допомогою власного коду. Зокрема, я думаю, що графік Каллена та Фрея, якщо він / міг бути реалізований в Stata, може бути для вас корисним.


Я переглянув цю проблему ще раз, і перейшов на R і використовую Зуур та Ієно в якості керівництва. Ще багато питань, але в цілому, я думаю, що, використовуючи varIdent, моя модель діагностики виглядає так, що вони мають «незначну неоднорідність». Графік залишків проти пристосованих виглядає добре, залишки проти кожного коваріату дають певні результати для однієї з моїх змінних моделей (висота) - в основному це функція невеликого розміру вибірки при високій висоті. Дякуємо за Ваш коментар щодо fitdistrplus. Тепер, коли я використовую R та Rstudio (люблю це!), Це буде зручно!
RLang

1
Посилання розірвано. Це вступний посібник, про який ви говорили? cran.r-project.org/doc/contrib/Ricci-distributions-en.pdf Або це був цей: cran.r-project.org/web/packages/fitdistrplus/vignettes/…
emschorsch

Останнє посилання, схоже, є іншою версією віньєтки, про яку я мав на увазі.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.