Я провів комп'ютерну оцінку різних методів підгонки конкретного типу моделі, що використовується в науках про палео. У мене був великий навчальний набір, і тому я випадково (стратифікована випадкова вибірка) відклала тестовий набір. Я встановив різних методів до зразків навчальних наборів і за допомогою отриманих м моделей я передбачив відповідь для зразків тестового набору і обчислив RMSEP над зразками тестового набору. Це разовий пробіг .
Потім я повторював цей процес багато разів, кожен раз, коли я вибирав інший навчальний набір, випадковим чином відбираючи новий тестовий набір.
Зробивши це, я хочу дослідити, чи має будь-який із способів кращі чи гірші показники RMSEP. Я також хотів би зробити кілька порівнянь парних методів.
Мій підхід полягав у встановленні лінійної моделі змішаних ефектів (LME) з єдиним випадковим ефектом для Run . Я використовував lmer()
з пакету lme4, щоб відповідати моїй моделі та функціям з пакету мультикомплектів для виконання кількох порівнянь. Моя модель була по суті
lmer(RMSEP ~ method + (1 | Run), data = FOO)
де method
є фактор , який вказує , який метод був використаний для створення моделі передбачення для тестового набору , і Run
є показником для кожного конкретного прогону мого «експерименту».
Моє запитання стосується залишків LME. Враховуючи єдиний випадковий ефект для Run, я припускаю, що значення RMSEP для цього запуску є певною мірою корельованими, але є некорельованими між прогонами, на основі індукованої кореляції, яку дає випадковий ефект.
Чи справедливе це припущення про незалежність між прогонами? Якщо немає, чи є спосіб пояснити це у моделі LME або я повинен шукати використовувати інший тип статичного аналізу, щоб відповісти на моє запитання?