Як я можу об'єднати завантажені р-значення у множинні імпульсованих наборів даних?


12

Мене хвилює проблема, що я хотів би завантажувати p-значення для оцінки з множини імпульсованих (MI) даних, але мені незрозуміло, як поєднувати р-значення для МІ-множин.θ

Для наборів даних ІМ стандартний підхід для досягнення загальної дисперсії оцінок використовує правила Рубіна. Дивіться тут огляд об’єднання наборів даних MI. Квадратний корінь загальної дисперсії служить стандартною оцінкою помилки . Однак для деяких оцінювачів загальна дисперсія не має відомої закритої форми або розподіл вибірки не є нормальним. Статистика може бути не розподілена t, навіть не асимптотично.thetas ; / и е ( & thetas ; )θθ/se(θ)

Отже, у випадку повних даних одним із альтернативних варіантів є завантаження статистики для пошуку дисперсії, p-значення та довірчого інтервалу, навіть якщо розподіл вибірки не є нормальним і його закрита форма невідома. У випадку MI є два варіанти:

  • Об'єднайте дисперсію завантаження в наборах даних MI
  • Об'єднайте межі p-значення або довіру в наборах даних MI

Перший варіант знову використовував би правила Рубіна. Однак я вважаю, що це проблематично, якщо має ненормований розподіл вибірки. У цій ситуації (або загалом, у всіх ситуаціях) завантажене p-значення може використовуватися безпосередньо. Однак у випадку MI це може призвести до декількох p-значень або довірчих інтервалів, які необхідно об'єднати через набори даних MI.θ

Отже, моє запитання: як я повинен об'єднати кілька завантажених p-значень (або довірчих інтервалів) для множення імпульованих наборів даних?

Я вітаю будь-які пропозиції щодо того, як діяти, дякую.


Можливо, корисно: відсутні дані, імпутація та завантажувальна програма (Efron 1992) statistics.stanford.edu/sites/default/files/BIO%2520153.pdf
DL Dahly

@DLDahly Хм, я не знайомий з цим документом, але, здається, ідея спочатку завантажитися , а потім виконати багаторазову імпутацію. ОП, схоже, оцінює завантаження даних із наборів даних MI.
чакраварти

@fgnu Дійсно, стандартною процедурою для досягнення загальної дисперсії оцінки за допомогою bootstrap було б завантажувати дисперсію у кожному наборі даних ІМ, а потім застосувати правила Рубіна для об'єднання дисперсії завантаження у всіх наборах даних MI.
tomka

Відповіді:


6

Я думаю, що обидва варіанти призводять до правильної відповіді. Взагалі, я вважаю за краще метод 1, оскільки він зберігає весь розподіл.

Для методу 1 завантажте параметр раз у межах кожного з MI рішень. Потім просто змішайте bootstrapped розподіли, щоб отримати остаточну щільність, тепер складається з зразків, що включають між-імпутаційну варіацію. Потім ставитесь до цього як до звичайного зразка завантажувальної програми, щоб отримати довірчі інтервали. Використовуйте байєсівський завантажувальний апарат для невеликих зразків. Я не знаю жодної імітаційної роботи, яка би досліджувала цю процедуру, і це насправді відкрита проблема, яку слід досліджувати.m m k × mkmmk×m

Для способу 2 використовуйте процедуру Ліхта-Рубіна. Див. Розділ Як отримати об'єднані p-значення на тестах, виконаних у кількох набірних наборах даних?


+1 - Якщо мета полягає в тому, щоб зрозуміти мінливість оцінок для наборів даних ІМ, я б завантажувався в кожному наборі даних ІМ і переглядав загальний та специфічний для МІ розподіл параметра.
DL Dahly

@ Stef-van-Buuren Здається, що DL Dahly пропонує еквівалентно об'єднанню прискореної дисперсії для МІ-наборів. Ви все ще віддасте перевагу своєму методу (додайте всі завантажені набори даних) над цим "непрямим" підходом?
tomka

@tomka. Я, безумовно, зробив би те саме, що і DL Dahly, і вивчив розподіл між імпутаціями та між ними. Щоб інтегрувати обидва типи дистрибутивів, нам потрібно їх певним чином поєднати. Моя пропозиція - просто їх змішати.
Стеф ван Бурен

6

Це не література, з якою я знайомий, але одним із способів наблизитись до цього може бути ігнорування факту, що це завантажені p-значення, і перегляд літератури про поєднання p-значень у множинні імпульсованих наборів даних.

У цьому випадку застосовуються Лі, Менг, Рагхунатан та Рубін (1991) . Процедура базується на статистиці кожного з імпутованих наборів даних, зваженій за допомогою вимірювання втрат інформації внаслідок імпутації. Вони стикаються з питаннями, пов’язаними з спільним розподілом статистики по імпутаціям, і роблять деякі спрощуючі припущення.

Спільний інтерес викликає Менг (1994) .

Оновлення

Процедура комбінування р-значень у множинні імпульсованих наборів даних описана в дисертації Крістін Ліхт, гл. 4 . Ідея, яку вона приписує Дон Рубіну, по суті полягає в перетворенні p-значень, які зазвичай розподіляються, які потім можуть бути об'єднані між наборами даних MI, використовуючи стандартні правила для комбінації z-статистики.


Якщо я розумію Лі та ін. працює правильно, це стосується статистичних даних, отриманих від кожного ІМ-набору. Наприклад, якщо ви отримуєте Pearson Chi² на кожному наборі, то їх правила можна застосувати, щоб поєднати його для висновку по множинам. Наприклад, можна також провести тест Вальда. Але у випадку завантажувальної програми ви не отримуєте статистику, яку б ви об'єднали (а лише р-значення). Тож я не впевнений, чи є щось у Лі та ін. що можна застосувати до завантаженого p.
tomka

1
@tomka Я оновив свою відповідь.
чакраварти
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.