Незалежність залишків в комп'ютерному експерименті / моделюванні?


17

Я провів комп'ютерну оцінку різних методів підгонки конкретного типу моделі, що використовується в науках про палео. У мене був великий навчальний набір, і тому я випадково (стратифікована випадкова вибірка) відклала тестовий набір. Я встановив різних методів до зразків навчальних наборів і за допомогою отриманих м моделей я передбачив відповідь для зразків тестового набору і обчислив RMSEP над зразками тестового набору. Це разовий пробіг .мм

Потім я повторював цей процес багато разів, кожен раз, коли я вибирав інший навчальний набір, випадковим чином відбираючи новий тестовий набір.

Зробивши це, я хочу дослідити, чи має будь-який із способів кращі чи гірші показники RMSEP. Я також хотів би зробити кілька порівнянь парних методів.м

Мій підхід полягав у встановленні лінійної моделі змішаних ефектів (LME) з єдиним випадковим ефектом для Run . Я використовував lmer()з пакету lme4, щоб відповідати моїй моделі та функціям з пакету мультикомплектів для виконання кількох порівнянь. Моя модель була по суті

lmer(RMSEP ~ method + (1 | Run), data = FOO)

де methodє фактор , який вказує , який метод був використаний для створення моделі передбачення для тестового набору , і Runє показником для кожного конкретного прогону мого «експерименту».

Моє запитання стосується залишків LME. Враховуючи єдиний випадковий ефект для Run, я припускаю, що значення RMSEP для цього запуску є певною мірою корельованими, але є некорельованими між прогонами, на основі індукованої кореляції, яку дає випадковий ефект.

Чи справедливе це припущення про незалежність між прогонами? Якщо немає, чи є спосіб пояснити це у моделі LME або я повинен шукати використовувати інший тип статичного аналізу, щоб відповісти на моє запитання?


Чи залежать залишки від передбачуваних випадкових ефектів або безумовні, а в моделюванні передбачені випадкові ефекти постійні чи змінюються. Пам'ятайте, намагайтеся зрозуміти це для методів моделювання за замовчуванням у LME4, і не зможете (але проект було скасовано, перш ніж я його розібрав).
Фанерон

Не впевнений, що я повністю дотримуюся, але різні етапи тренувального набору з жеребкування -> підходящі моделі -> обчислення RMSEP - все зроблено до LME. Випадковий ефект призначений для запуску, оскільки кожен запуск матиме різний перехоплення (RMSEP), оскільки обираються різні комбінації зразків тестових наборів, але це постійно в ході виконання. Щодо умовного / безумовного біта, я не впевнений / зрозумілий, що ви маєте на увазі. Дякую за коментар
Відновіть Моніку - Г. Сімпсон

Відповіді:


4

Ви, по суті , робите деяку форму перехресної перевірки тут для кожного з м методів , а потім хотіли б бачити , який метод виконуються краще. Результати між пробіжками, безумовно, залежатимуть, оскільки вони базуються на одних і тих же даних, і ви перетинаєтесь між наборами поїздів / тестів. Питання в тому, чи має це мати значення, коли ви приходите порівнювати методи.

Скажімо, ви б виконали лише один пробіг і виявили, що один метод кращий за інші. Тоді ви запитаєте себе - це просто пов'язано з конкретним вибором тестового набору? Ось чому ви повторюєте тест для багатьох різних поїздів / тестових наборів. Отже, для того, щоб визначити, що метод кращий, ніж інші методи, ви запускаєте багато разів і в кожному циклі порівнюєте його з іншими методами (у вас є різні варіанти перегляду помилки / рангу / тощо). Тепер, якщо ви виявите, що метод робить краще на більшості прогонів, результат такий, який він є. Я не впевнений, що корисно надати цьому значення р. Або, якщо ви хочете надати p-значення, запитайте себе, яка тут фонова модель?


Дякуємо за ваші думки. Я думаю, що ваші останні рядки підсумовують майже все, де я зараз. В очікуванні цього я маю подальші дії, де я запитую про відповідні способи аналізу цього типу даних. Мені також подобається ваша думка про "це те, що є"; що нещодавно закрутилося на краях моєї думки.
Відновіть Моніку - Г. Сімпсон

Одне з питань, що стосується "результату - це те, що є", - це те, що RMSEP є досить змінними від запуску до запуску. Отож, в середньому, один чи два методи кращі, але чи справді вони кращі, враховуючи мінливість у RMSEP? Отже, я спробував LME з випадковим ефектом для Run. Щоб змінити такий підхід, мені потрібно знати, хто корелює кожен набір даних. Здавалося б, будь-який статистичний тест, який я роблю, потребує такої модифікації. Отже, я все ще борюся з тим, як інтерпретувати засоби з 50-ти рунів для кожного методу, і чи можу я зробити якісь висновки ...?
Відновіть Моніку - Г. Сімпсон

1
Як я це бачу, оцінка ваших методів на всіх можливих розділах поїзних / тестових наборів ваших даних була б найбільш повною оцінкою. Оскільки це неможливо, ви оцінюєте це випадковими пробіжками. Скажімо, ви могли б оцінити всі поїздні / тестові секції - у вас все одно залишатиметься питання, як визначити, який метод краще. Отже, це більше питання про те, як ви визначаєте, що таке "добре". Чи означає це високий середній бал? Або це означає, що в багатьох запусках один метод отримує більшу оцінку, ніж інші (особисто я думаю, це була б краща версія)?
Побіт

1

Не може зрозуміти, що ви зробили, але

Для Run Я припускаю, що значення RMSEP для цього запуску в деякій мірі співвідносяться

Так, це відображає те, наскільки складним був тестовий набір під час виконання

але є некорельованими між прогонами

Ні, враховуючи те, як ви відібрали проби тестових наборів, деякі з них будуть більш перекритими, ніж інші (напевне, не незалежні реплікації)

Вам якось доведеться моделювати залежність на основі перекриття або проектувати оцінку, щоб прогони були незалежними. Я читав би статистику з перехресної перевірки ;-)


+1 Дякую за відповідь. Хм, я бачу, що ти маєш на увазі. Чим подібніші тестові набори, тим схожішими будуть їх значення RMSEP. Гаразд, кажучи, це так само, як якщо б дані були просторово або тимчасово співвіднесені. Те, як я генерую навчальні набори / тестові набори, має означати, що в середньому вони всі настільки ж несхожі один на одного. Я не впевнений, яке резюме приведе мене сюди - і я певно це роблю лише завдяки підходу до перестановки. Напевно, тоді запитаю ще один питання щодо вирішення реальної проблеми.
Відновіть Моніку - Г. Сімпсон

Я залишаю це відкритим до кінця виграшного періоду, щоб побачити, чи хтось інший кусає, але я ціную ваші думки тут і прийму та нагороду отримаю, якщо жодних інших відповідей не буде.
Відновіть Моніку - Г. Сімпсон,
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.