Імпутація для обліку систематичної помилки у відповідях опитування


9

У мене є велике опитування, в якому студенти запитували, серед іншого, рівень освіти їхньої матері. Деякі пропустили це, а деякі відповіли неправильно. Я це знаю, тому що там пізніше опитували підрозділ матері перших респондентів, і вони задали те саме питання. (Я впевнена, що існує якась менша кількість помилок, пов’язаних із реакціями матерів.)

Моя задача - вирішити, як найкращим чином скористатися цим другим, більш надійним джерелом даних. Принаймні, я можу використовувати його для того, щоб присвоювати дані, що пропущені, більш розумно, ніж я міг би, якби я міг покладатися лише на повні випадки. Але якщо 3/4 дітей, дані яких я можу перехресно перевірити, які відповідають "Моя мама ніколи не закінчувала початкову школу" суперечать відповіді матері, то, здавалося б, я повинен використовувати імпутацію для створення декількох наборів даних, щоб визначити там непевність. [Додано: Я сказав 3/4, щоб зробити точку, але тепер, коли я перевірив дані, я можу також сказати вам, що близько 40% не відповідають]

Я особисто буду використовувати мамину освіту як провісник у змішаній моделі, але якщо хтось має щось сказати про інші ситуації, я також хотів би дізнатися про них.

Мені б хотілося отримувати поради на широких ходах або в конкретних характеристиках. Дякую!

Оновлення : я поки що залишаю питання невирішеним, хоча я ціную відповіді Вілла та Conjugate_Prior, я сподіваюся на більш конкретні та технічні відгуки.

Приведений нижче розподіл дасть вам уявлення про те, як пов'язані дві змінні у 10000 випадках, коли обидві існують. Вони вкладені у понад 100 шкіл. Вони співвідносяться у 0,78, відповідь студента - означає: 5,12 sd = 2,05, відповідь мами, середня = 5,02, sd = 1,92 Відповідь студента відсутня приблизно у 15% випадків.

введіть тут опис зображення


З цікавості, чи був перший варіант відповіді на питання про освіту "Моя мама ніколи не закінчувала початкову школу"? Якщо так, я б переймався точністю решти результатів ваших тестів для тих, хто приймав тести.
Мішель

"Як далеко вона пішла в школу?" - 1) Восьмий клас чи менше
Єпископ Михайло

Напевно, у вас є підмножина тестувальників, які поставили галочку на перший варіант відповіді на кожне питання. Ви можете це перевірити?
Мішель

Цей сюжет дуже проникливий. Це виглядає досить симетрично, що не те, чого можна було б очікувати, якщо насправді купа дітей просто поставила першу відповідь. Якби це було так, то випадки, як правило, скупчуються уздовж нижнього ряду. Звичайно, «дивлячись» симетричні насправді не гарантують, що це є, але це приємний початок. Цьому співвідношенню є також сильна кореляція, яку ви спостерігаєте між реакцією матері та дитини.
Вілл

1
А-а-а. Розумію. Тоді я б теж (більше , ніж трохи) неохоче приписувати існуючі дані і рекомендував би це не було зроблено взагалі, не дивлячись на це свого роду аргумент: gking.harvard.edu/gking/files/measure.pdf
conjugateprior

Відповіді:


2

Перше, що слід зауважити, - це те, що ваші змінні: "що сказала студентка про освіту матері" та "що сказала студентська мати про освіту матері студента". Назвіть їх відповідно S і M і позначте небачений справжній рівень освіти матері як Т.

S і M мають і відсутні значення, і немає нічого поганого (модуль спостереження нижче), якщо M і S розміщувати в моделі імпутації, але лише використовувати одне з них у подальшому аналізі. Навпаки, завжди було б недоглядом.

Це окремо від трьох інших питань:

  1. Чи означає відсутність значення, що студенти не знають чи не хочуть так багато говорити про своїх матерів?
  2. Як використовувати S та M, щоб дізнатися про T?
  3. Чи є у вас правильний вид відсутності, щоб дозволити багаторазову імпутацію працювати?

Невігластво і безпам’ятність

Вас може зацікавити T, але вам це не потрібно: сприйняття навчальних досягнень (через S та, можливо, М) або відсутність знань студентів може бути більш причинно цікавим, ніж сам T. Імпутація може бути розумним маршрутом для першого, але може бути, а може і не бути для другого. Ви повинні вирішити.

Дізнатися про Т

Скажіть, вас насправді цікавить Т. За відсутності стандартного вимірювання золота (оскільки ви іноді сумніваєтесь у М), важко зрозуміти, як ви могли б без будь-яких випадків поєднати S і M, щоб дізнатися про Т. Якщо, з іншого боку, ви були готові ставитися до М як до правильного, коли він доступний, тоді ви можете використовувати S для передбачення М у моделі класифікації, яка містить іншу інформацію від студентів, а потім використовувати M, а не S у підсумковому аналізі. Стурбованість тут стосуватиметься упередженості відбору у випадках, коли ви навчалися, що призводить до третього питання:

Відсутності

Чи може працювати багаторазова імпутація, залежить від того, відсутні дані повністю випадково (MCAR) або відсутні випадковим чином (MAR). Чи S відсутній випадково (MAR)? Можливо, ні, оскільки школярі можуть соромитися відповідати про недостатню освіту матері та пропустити питання. Тоді саме значення визначає, чи воно не буде, і множинна імпутація тут не може допомогти. З іншого боку, якщо з низьким рівнем освіти є питання, про що запитують і частково відповідають у опитуванні, наприклад, якийсь показник доходу, то ПДР може бути більш розумним і багаторазова імпутація має щось впоратися. Чи відсутня М навмання? Стосовно ж міркувань.

Нарешті, навіть якщо вам цікаво T і застосовуєте класифікаційний підхід, ви все одно хочете приписатись, щоб відповідати цій моделі.


1

Якщо ви збираєтеся припустити, що "коефіцієнт протиріччя" однаковий для всієї вибірки, як і для підпробової групи, матері якої опитувались, тоді підпроба повинна була бути проведена випадковим чином. У вашому описі ви не говорите, тому я піднімаю це питання, тому що я вважаю, що це має важливе значення для того, як чи якщо ви можете використовувати цю інформацію з підпроби, щоб зробити висновки про всю вибірку студентів.

Мені здається, в цьому питанні суперечності є три аспекти.

1 - швидкість протиріччя. Чи дійсно так, що 3/4-х студентів відгадали неправильно?

2 - ступінь помилки - одне, що ви кажете, що ваша мама ніколи не закінчувала початкову школу, коли вона насправді закінчила її, але зупинилася там, і зовсім інше - сказати, що ніколи не закінчувала початкову школу, коли вона здобула науковий ступінь.

3 - частка вибірки, яку можна перехресно перевірити. Якщо ви робите ці висновки на підпробі 20, я б ставлю, що оцінки досить нестабільні і, мабуть, не варті великого.

Мені здається, що те, що ви робите, буде залежати від вашої відповіді на ці питання та від питання, яке я поставив спочатку. Наприклад, якщо 1 досить високий і 3 досить високий, я можу просто використати підпробову групу і зробити це з нею. Якщо 1 - високий, але 2 - низький, то питання, здається, не так вже й погано, і, знову ж таки, це не варто займатись.

Напевно, також варто знати, чи помилка є випадковою чи систематичною. Якщо учні схильні систематично оцінювати освіту своєї матері, то це більш проблематично, ніж якщо іноді вони просто розуміють це абсолютно неправильно.

Я зробив кілька імпутацій на папері, і, здається, я завжди створюю більше проблем для себе. Рецензенти, принаймні в моєму районі, часто не мають належних зусиль щодо методу, і тому підозрюють його використання. Я відчуваю, що іноді краще, з точки зору публікації, просто визнати проблему і рухатися далі. Але в цьому випадку ви насправді не "вводите відсутні дані", але вводите якусь передбачувану дисперсію помилок для змінної. Це дуже цікаве запитання, і, відкладаючи всі проблеми, я навіть не впевнений, як би я пішов з цим питанням, якби вирішив, що це найкращий шлях дій


1
Дякую Віл, я уточнив деякі речі у своєму початковому дописі. Підвибірка є випадковою. Я витягнув 3/4 стат з капелюха, щоб зробити крапку. Справжній стат менший. Я можу перехресно перевірити близько 10000 випадків. Я впевнений, що помилка не є чисто випадковою.
Михайло Єпископ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.