Вибір альтернативи пуассонової регресії для даних про кількість дисперсних розрядів


12

На даний момент я аналізую дані з серії поведінкових експериментів, які використовують наступний захід. Учасників цього експерименту просять вибрати підказки, які (вигадані) інші люди могли використати для вирішення серії з 10 анаграм. Учасників вважають, що ці інші люди або наберуть, або втратять гроші, залежно від їхньої ефективності у вирішенні анаграм. Підказки різняться тим, наскільки вони корисні. Наприклад, для анаграми NUNGRIN, анаграми ЗАБУДУВАННЯ, можуть бути три підказки:

  1. Швидкий рух (бездоганний)
  2. Що ви робите в марафонській гонці (корисно)
  3. Не завжди здорове хобі (безкорисне)

Для формування міри я підраховую кількість разів (з 10), коли учасник вибирає негідну підказку для іншої людини. В експериментах я використовую різноманітні різні маніпуляції, щоб вплинути на корисність підказки, яку обирають люди.

Оскільки міра корисності / безпорадності є досить сильно позитивно скасованою (велика частка людей завжди вибирає 10 найкорисніших підказок), а оскільки міра є змінною кількістю, я використовував узагальнену лінійну модель Пуассона для аналізу цих даних. Однак, коли я ще раз читав про пуассонову регресію, я виявив, що оскільки Пуассонова регресія не незалежно оцінює середнє значення та дисперсію розподілу, вона часто недооцінює дисперсію в наборі даних. Я почав досліджувати альтернативи пуассонової регресії, такі як квазіпоассонова регресія або негативна біноміальна регресія. Однак я визнаю, що я досить новачок у подібних моделях, тому приходжу сюди за порадою.

Хтось має рекомендації щодо того, яку модель використовувати для такого роду даних? Чи є якісь міркування, про які я маю знати, (наприклад, чи є одна конкретна модель потужнішою за іншу?)? Яку діагностику слід переглянути, щоб визначити, чи обрана вами модель належним чином обробляє мої дані?


Що з надійною оцінкою дисперсії / коваріації, щоб послабити припущення про те, що дисперсія дорівнює середній?
боскович

2
Оскільки вони є підрахунковими даними та негативними, що з квазі-пуассоном чи негативною біноміальною регресійною моделлю, що пояснює дисперсію?
Арун

1
Я думав про використання квазі-пуассонової або негативної біноміальної моделі, але те, що я не розумію, це на яку діагоністику слід звернути увагу, щоб переконатися в тому, що я моделюю свої дані належним чином. Оскільки існує декілька альтернатив (квазі-пуассонова, негативна біноміальна та «нульова-посилена» моделі), мені також цікаво, чи є хороший спосіб вибрати між цими альтернативами. Наприклад, чи один метод, як правило, більш потужний, ніж інші?
Патрік С. Форшер

1
Це залежить від даних. Чому б не підходити всі вони до ваших даних (Пуассон, Негативний двочлен, нульово завищений Пуассон та негативний двочлен, моделі перешкод для тих, про кого йдеться) та порівняти їх через скажімо, AIC або BIC? Дивіться cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf Потім виберіть той, який найкраще підходить для ваших даних. Ви також можете використовувати квазіімовірнісні моделі, але це питання смаку, я їх не так люблю.
Момо

1
Щоб перевірити, яка дистрибуція може бути хорошою моделлю для вашої відповіді, ви можете використовувати функцію vcd :: distplot.
Момо

Відповіді:


12

Ваш результат - кількість корисних підказок з 10, що є біноміальною випадковою змінною. Тож вам слід проаналізувати це за допомогою якоїсь біноміальної регресії, ймовірно, квазібіноміальної, щоб забезпечити наддисперсію. Зауважте, що Пуассон та оманливо названі негативні біноміальні розподіли підходять для даних без обмежень.


2
Я згадував про негативний біноміал, оскільки це надзвичайно розсіяна альтернатива Пуассону, яку спочатку запропонував позиціонер. Оскільки у кожного респондента є х / 10 підказки, це може бути двочленним, але що для кожного з 10 підказок існує фіксована ймовірність pi для i-го респондента, а події є незалежними. Це може бути ніт.
Майкл Р. Черник

2
бета-біномальний - це ще одна можливість (бета-біномальна - двочлена, як негативна двочленна - до Пуассона). betabinв aodпакеті це зроблять.
Бен Болкер

5

Я теж рекомендував би поглянути на негативний біноміал, якщо можливі результати були нескінченними, як для Пуассона. Ви можете проконсультуватися з однією з книг Джо Хільбе. У нього є одна на GEE та одна на негативну біноміальну регресію, яка протиставляється регресії Пуассона. Але, як вказував Аніко, існує лише 10 підказок, тому кожен респондент може мати лише 0, 1, 2, 3, ..., 10, а отже, ні Пуассон, ні негативна експоненція не підходять.


4

Хороший момент від @Aniko. Ще один вибір - бета-регресія. Був документ з назвою "Кращий лимонний віджимач", який дав багато інформації про цей метод.


2
Але бета-версія буде використовуватися для моделювання пропорції, а не змінної числа на кінцевому наборі цілих чисел.
Майкл Р. Черник

Він має широке використання, @MichaelChernick, див. Статтю, що досить добре.
Пітер Флом - Відновіть Моніку

@PeterFlom Він також не може обробляти дані на інтервалі [0,1], лише (0,1).
colin
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.