Правильна техніка завантаження для кластерних даних?


16

У мене є питання щодо належної техніки завантаження для використання з даними, де є сильна кластеризація.

Мені було доручено оцінити багатоваріантну модель прогнозування змішаних ефектів щодо даних страхових відшкодувань, оцінивши поточну базову модель на даних останніх претензій, щоб визначити, наскільки модель спрогнозує, які епізоди догляду містять найвищу частоту сеансів (верхня 95-й перцентиль). Чутливість, специфічність та позитивне прогнозне значення (PPV) будуть використані для оцінки ефективності моделі.

Запуск завантажень здається правильним шляхом для створення довірчих інтервалів для відсотків чутливості, специфічності та PPV. На жаль, наївне завантаження не є доцільним, враховуючи, що дані претензій 1) співвіднесені лікарем, 2) згруповані в епізоди догляду з частішими відвідуваннями протягом місяців раніше в епізоді догляду (тому існує деяка автокореляція). Чи буде тут варіантом техніка завантаження рухомих блоків?

Або, можливо, триступенева процедура завантаження буде працювати: 1) вибірка із заміною від різних постачальників даних, потім 2) вибірка із заміною з різних епізодів обслуговування з боку вибраних провайдерів, потім 3) вибірка із заміною різними претензіями в межах кожного вибраний епізод.

Дякую за будь-які пропозиції!

Відповіді:


14

Другий підхід, який ви пропонуєте, здається розумним, але виявляється, що краще завантажувати вибірку із заміною на найвищому рівні та без заміни на інших підрівнях під час завантаження ієрархічних даних. Це показано з симуляцій Ren et al (2010): http://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field & Welsh (2007) теоретично досліджували різні підходи для дворівневих наборів даних і виявили, що вибірки із заміною на обох рівнях не є геніальною ідеєю.
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

Автокореляція, яку ви згадуєте, є серйозною проблемою. З іншого боку, вибір без заміни з епізодів догляду дозволив би зберегти структуру автокореляції, тому, можливо, це не така велика проблема.


Цікаво, чи підходить наступне рішення:
Рафаель,

... вибачте, що не зміг закінчити свій попередній коментар. Ось це: ... Створіть код (id), який враховує кожен рівень кластеризації (наприклад, episoid1.claim1, episoid1.claim1, ..., episoid2.claim1, episoid2.claim2, ..., episoidn.claimp) , а потім використовуйте GEE, які дозволяють мати справу з автокореляцією. Десь я читав, що моделі GEE дають надійну оцінку навіть за наявності кластерних структур. Чи звучить це рішення розумним?
Рафаель
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.