У мене є велике опитування, в якому студенти запитували, серед іншого, рівень освіти їхньої матері. Деякі пропустили це, а деякі відповіли неправильно. Я це знаю, тому що там пізніше опитували підрозділ матері перших респондентів, і вони задали те саме питання. (Я впевнена, що існує якась менша кількість помилок, пов’язаних із реакціями матерів.)
Моя задача - вирішити, як найкращим чином скористатися цим другим, більш надійним джерелом даних. Принаймні, я можу використовувати його для того, щоб присвоювати дані, що пропущені, більш розумно, ніж я міг би, якби я міг покладатися лише на повні випадки. Але якщо 3/4 дітей, дані яких я можу перехресно перевірити, які відповідають "Моя мама ніколи не закінчувала початкову школу" суперечать відповіді матері, то, здавалося б, я повинен використовувати імпутацію для створення декількох наборів даних, щоб визначити там непевність. [Додано: Я сказав 3/4, щоб зробити точку, але тепер, коли я перевірив дані, я можу також сказати вам, що близько 40% не відповідають]
Я особисто буду використовувати мамину освіту як провісник у змішаній моделі, але якщо хтось має щось сказати про інші ситуації, я також хотів би дізнатися про них.
Мені б хотілося отримувати поради на широких ходах або в конкретних характеристиках. Дякую!
Оновлення : я поки що залишаю питання невирішеним, хоча я ціную відповіді Вілла та Conjugate_Prior, я сподіваюся на більш конкретні та технічні відгуки.
Приведений нижче розподіл дасть вам уявлення про те, як пов'язані дві змінні у 10000 випадках, коли обидві існують. Вони вкладені у понад 100 шкіл. Вони співвідносяться у 0,78, відповідь студента - означає: 5,12 sd = 2,05, відповідь мами, середня = 5,02, sd = 1,92 Відповідь студента відсутня приблизно у 15% випадків.