Перекреслені випадкові ефекти та незбалансовані дані


10

Я моделюю деякі дані, де я думаю, що у мене є два перехрещені випадкові ефекти. Але набір даних не збалансований, і я не впевнений, що потрібно зробити для його врахування.

Мої дані - це сукупність подій. Подія відбувається, коли клієнт зустрічається з провайдером для виконання завдання, яке є успішним чи ні. Є тисячі клієнтів і провайдерів, і кожен клієнт і постачальник бере участь у різній кількості подій (приблизно від 5 до 500). У кожного клієнта та постачальника є рівень майстерності, а шанс на те, що завдання виконано, є функцією навичок обох учасників. Між клієнтами та провайдерами немає перекриття.

Мене цікавлять відповідні розбіжності у кількості клієнтів та провайдерів, тому ми можемо знати, яке джерело має більший вплив на рівень успішності. Я також хочу знати конкретні цінності навичок серед клієнта та постачальників, для яких насправді є дані, щоб визначити найкращих / найгірших клієнтів чи провайдерів.

Спочатку я хочу припустити, що ймовірність успіху визначається виключно комбінованими рівнями кваліфікації клієнта і постачальника, без інших фіксованих ефектів. Отже, якщо припустити, що x є фактором для клієнта, а y - чинником для провайдера, то в R (використовуючи пакет lme4) у мене є модель, вказана як:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

Одна з проблем полягає в тому, що клієнти не рівномірно розподілені між постачальниками. Клієнти вищої кваліфікації, швидше за все, співпадають з більш високими кваліфікаціями. Я розумію, що випадковий ефект повинен бути невідповідним будь-яким іншим передбачувачам моделі, але я не знаю, як це врахувати.

Крім того, деякі клієнти та провайдери мають дуже мало подій (менше 10), в той час як інші мають багато (до 500), тому існує велика кількість розповсюджених даних про кожного учасника. В ідеалі це буде відображатися на "інтервалі довіри" навколо кожної оцінки вміння учасників (хоча, я думаю, термін довірчий інтервал тут не зовсім коректний).

Чи будуть перекреслені випадкові ефекти проблематичними через незбалансованість даних? Якщо так, то які ще інші підходи я повинен розглянути?

Відповіді:


4

Що стосується неврівноважених даних, glmer здатний обробляти незбалансовані групи: це фактично було метою розробки підходів змішаних моделей порівняно з ANOVA повторних заходів, які обмежені збалансованими конструкціями. Включення клієнтів або провайдерів з кількома подіями (навіть лише однією) все ж краще, ніж їх опускання, оскільки це покращує оцінку залишкової дисперсії (див. Martin et al. 2011 ).

Якщо ви хочете використовувати BLUPs ( ranef(model)) в якості проксі-сервера навичок, вам дійсно доведеться оцінити невизначеність навколо ваших прогнозувань точки. Це можна зробити в умовах часто-часті, використовуючи ranef(model, postVar=TRUE)або за допомогою заднього розподілу в байєсівських рамках. Однак ви не повинні використовувати BLUPs як змінну відповіді в подальших моделях регресії: див. Hadfield et al. (2010) для прикладів зловживань BLUP та різних методів адекватного врахування їх невизначеності.

Що стосується співвідношення навичок між клієнтами та постачальниками, то цей дисбаланс може бути проблематичним, якщо він дуже сильний, оскільки заважатиме правильно оцінювати дисперсію за рахунок кожного випадкового ефекту. Здається, не існує рамки змішаних моделей, яка легко впоралася б з кореляцією між випадковими перехопленнями (див. Тут для формального вираження вашої проблеми). Не могли б ви уточнити, наскільки співвідносяться середні успіхи клієнтів та провайдерів?


Дуже дякую, що вирішили одне із моїх старих питань. Відповідь все ще актуальна, і вказівки та посилання оцінені. Вибачте, пройшло так довго, щоб я помітив, що він там був! Я відзначив це вирішеним.
colonel.triq
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.