Я моделюю деякі дані, де я думаю, що у мене є два перехрещені випадкові ефекти. Але набір даних не збалансований, і я не впевнений, що потрібно зробити для його врахування.
Мої дані - це сукупність подій. Подія відбувається, коли клієнт зустрічається з провайдером для виконання завдання, яке є успішним чи ні. Є тисячі клієнтів і провайдерів, і кожен клієнт і постачальник бере участь у різній кількості подій (приблизно від 5 до 500). У кожного клієнта та постачальника є рівень майстерності, а шанс на те, що завдання виконано, є функцією навичок обох учасників. Між клієнтами та провайдерами немає перекриття.
Мене цікавлять відповідні розбіжності у кількості клієнтів та провайдерів, тому ми можемо знати, яке джерело має більший вплив на рівень успішності. Я також хочу знати конкретні цінності навичок серед клієнта та постачальників, для яких насправді є дані, щоб визначити найкращих / найгірших клієнтів чи провайдерів.
Спочатку я хочу припустити, що ймовірність успіху визначається виключно комбінованими рівнями кваліфікації клієнта і постачальника, без інших фіксованих ефектів. Отже, якщо припустити, що x є фактором для клієнта, а y - чинником для провайдера, то в R (використовуючи пакет lme4) у мене є модель, вказана як:
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
Одна з проблем полягає в тому, що клієнти не рівномірно розподілені між постачальниками. Клієнти вищої кваліфікації, швидше за все, співпадають з більш високими кваліфікаціями. Я розумію, що випадковий ефект повинен бути невідповідним будь-яким іншим передбачувачам моделі, але я не знаю, як це врахувати.
Крім того, деякі клієнти та провайдери мають дуже мало подій (менше 10), в той час як інші мають багато (до 500), тому існує велика кількість розповсюджених даних про кожного учасника. В ідеалі це буде відображатися на "інтервалі довіри" навколо кожної оцінки вміння учасників (хоча, я думаю, термін довірчий інтервал тут не зовсім коректний).
Чи будуть перекреслені випадкові ефекти проблематичними через незбалансованість даних? Якщо так, то які ще інші підходи я повинен розглянути?