Боюся, що я міг би отримати нюансовану і, можливо, незадовільну відповідь, що це суб'єктивний вибір дослідника чи аналітика даних. Як було сказано в іншому потоці, недостатньо просто сказати, що дані мають "вкладену структуру". Для справедливості, саме стільки книг описують, коли використовувати багаторівневі моделі. Наприклад, я щойно витягнув книгу Джоупа Хокса з багаторівневого аналізу зі своєї книжкової полиці, яка дає таке визначення:
Багаторівнева проблема стосується населення з ієрархічною структурою.
Навіть у досить хорошому підручнику початкове визначення здається круговим. Я думаю, що це частково пов'язане з суб'єктивністю визначення того, коли використовувати якусь модель (включаючи багаторівневу модель).
Інша книга, лінійні змішані моделі West, Welch та Galecki, говорить, що ці моделі призначені для:
вихідні змінні, в яких залишки звичайно розподіляються, але можуть не бути незалежними або мати постійну дисперсію. Проекти дослідження, що ведуть до наборів даних, які можуть бути відповідним чином проаналізовані за допомогою ЛММ, включають (1) дослідження з кластерними даними, такі як студенти в аудиторіях, або експериментальні конструкції з випадковими блоками, такими як партії сировини для промислового процесу, та (2) дослідження поздовжніх чи повторних заходів, в яких випробовуваних вимірюють повторно за часом або за різних умов.
Багаторівневе моделювання Фінча, Боліна та Келлі в R також говорить про порушення припущення про айд і корельовані залишки:
Особливе значення в контексті багаторівневого моделювання має припущення [у стандартній регресії] незалежно розподілених термінів помилок для окремих спостережень у вибірці. Це припущення, по суті, означає, що у вибірці немає залежностей для залежної змінної після обліку незалежних змінних в аналізі.
Я вважаю, що багаторівнева модель має сенс, коли є підстави вважати, що спостереження не обов'язково залежать одне від одного. Які б "кластерні" рахунки для цієї незалежності не можна моделювати.
Очевидним прикладом можуть бути діти в аудиторіях - всі вони взаємодіють між собою, що може призвести до того, що їхні тестові бали не залежать. Що робити, якщо в одному класі є хтось, хто задає питання, що призводить до того, що матеріал буде охоплений у тому класі, який не охоплюється в інших класах? Що робити, якщо вчитель на деяких заняттях прокидається більше, ніж на інших? У цьому випадку буде деяка незалежність даних; у багаторівневих словах ми могли б очікувати, що деяка дисперсія залежної змінної буде пов'язана з кластером (тобто класом).
Я думаю, що ваш приклад собаки проти слона залежить від незалежних та залежних змінних, що цікавлять вас. Наприклад, скажімо, ми запитуємо, чи є вплив кофеїну на рівень активності. Тваринам з усього зоопарку довільно отримують напій з кофеїном або контрольний напій.
Якщо ми є дослідником, який цікавиться кофеїном, ми можемо вказати багаторівневу модель, тому що нас дійсно хвилює ефект кофеїну. Ця модель буде вказана як:
activity ~ condition + (1+condition|species)
Це особливо корисно, якщо існує велика кількість видів, на яких ми перевіряємо цю гіпотезу. Однак дослідника можуть зацікавити видові ефекти кофеїну. У цьому випадку вони могли б вказати види як фіксований ефект:
activity ~ condition + species + condition*species
Це, очевидно, є проблемою, якщо існує, скажімо, 30 видів, що створює громіздкий дизайн розміром 2 х 30. Однак ви можете бути досить креативними з того, як можна моделювати ці відносини.
Наприклад, деякі дослідники стверджують про ще більш широке використання багаторівневого моделювання. Гельман, Хілл та Яджіма (2012) стверджують, що багаторівневе моделювання може бути використане як корекція для численних порівнянь - навіть в експериментальних дослідженнях, де структура даних не є явно ієрархічною за своєю суттю:
Більш важкі проблеми виникають при моделюванні декількох порівнянь, які мають більшу структуру. Наприклад, припустимо, що у нас є п'ять заходів, три різновиди лікування та підгрупи, класифіковані за двома статями та чотирма расовими групами. Ми не хотіли б моделювати цю структуру 2 × 3 × 4 × 5 як 120 обмінних груп. Навіть у цих більш складних ситуаціях ми вважаємо, що багаторівневе моделювання повинно і зрештою буде замість класичних процедур множинних порівнянь.
Проблеми можуть бути змодельовані різними способами, а в неоднозначних випадках кілька підходів можуть здатися привабливими. Я думаю, що наша робота полягає в тому, щоб вибрати розумний, усвідомлений підхід і зробити це прозоро.