У мене є питання щодо належної техніки завантаження для використання з даними, де є сильна кластеризація.
Мені було доручено оцінити багатоваріантну модель прогнозування змішаних ефектів щодо даних страхових відшкодувань, оцінивши поточну базову модель на даних останніх претензій, щоб визначити, наскільки модель спрогнозує, які епізоди догляду містять найвищу частоту сеансів (верхня 95-й перцентиль). Чутливість, специфічність та позитивне прогнозне значення (PPV) будуть використані для оцінки ефективності моделі.
Запуск завантажень здається правильним шляхом для створення довірчих інтервалів для відсотків чутливості, специфічності та PPV. На жаль, наївне завантаження не є доцільним, враховуючи, що дані претензій 1) співвіднесені лікарем, 2) згруповані в епізоди догляду з частішими відвідуваннями протягом місяців раніше в епізоді догляду (тому існує деяка автокореляція). Чи буде тут варіантом техніка завантаження рухомих блоків?
Або, можливо, триступенева процедура завантаження буде працювати: 1) вибірка із заміною від різних постачальників даних, потім 2) вибірка із заміною з різних епізодів обслуговування з боку вибраних провайдерів, потім 3) вибірка із заміною різними претензіями в межах кожного вибраний епізод.
Дякую за будь-які пропозиції!