Обробка рівнів категорійних змінних "Не знаю / відмовлено"


9

Я моделюю прогноз діабету за допомогою логістичної регресії. Використовуваний набір даних - це система спостереження за поведінковим фактором ризику (BRFSS) Центру контролю захворювань (CDC). Однією з незалежних змінних є високий кров'яний тиск. Він категоричний з такими рівнями "Так", "Ні", "Не знаю / відмовляюся". Чи слід видаляти ці рядки за допомогою "Не знаю / Відмовлено" під час створення моделі? Яка різниця для збереження чи вилучення цих рядків із моделі?

Відповіді:


6

Мені було просто цікаво точно таке саме питання, аналізуючи останні дані Національного опитування лікарні . Кілька змінних мають істотні відсутні значення, такі як сімейний стан та тип процедури. Це питання мені припало до уваги, оскільки ці категорії показали сильні (і значні) ефекти в більшості логістичних регресійних аналізів, які я проводив.

Один схильний дивуватися, чомувказаний код, що відсутній. Що стосується сімейного стану, наприклад, правдоподібно, що ненадання цієї інформації може бути пов'язане з важливими факторами, такими як соціально-економічний статус чи тип захворювання. У випадку з високим кров'яним тиском, ми повинні запитати, чому б значення не було відомо чи відмовлено? Це може бути пов'язано з практикою в установі (можливо, що відображає слабкі процедури) або навіть з окремими людьми (наприклад, релігійними віруваннями). Ці характеристики в свою чергу можуть бути пов'язані з діабетом. Тому здається доцільним продовжувати так, як у вас є, а не кодувати ці значення як відсутні (тим самим виключаючи їх з аналізу) або намагаючись імпульсувати значення (що ефективно маскує інформацію, яку вони надають, і може змістити результати). Це дійсно не складніше зробити: ви просто повинні переконатися, що ця змінна трактується як категорична, і ви отримаєте ще один коефіцієнт у регресійному виході. Крім того, я підозрюю, що набори даних BRFSS досить великі, що вам не доведеться турбуватися про потужність.


2
Крім того, ДК може мати реальне значення, тобто ті люди не знають про здоров'я та можуть піддаватися ризику.
Брендон Бертелсен

2

Спершу потрібно продумати, чи відсутні дані повністю випадково (MCAR), відсутні випадково (MAR) або відсутні випадково (MNAR), оскільки видалення (іншими словами, повний аналіз випадку) може призвести до упереджених результатів. Альтернативами є зворотна ймовірність зважування, множинна імпутація, метод повної ймовірності та методи, що мають подвійну надійність. Багаторазова імпутація з ланцюговими рівняннями (MICE), якщо часто це найпростіший шлях.


Дякую тобі. Це дані опитування, і я не впевнений, чи це MAR чи MNAR. Наприклад, існує змінна, яка говорить 1) "у людини діабет чи ні?" та інша змінна (2) Чи приймає він інсулін? Я бачу, що змінна (2) має записи лише тоді, коли змінною (1) є "Так" (тобто людина діабетично). Інше (2) порожня. Додатково (2) як "так", "ні", "не знаю / відмовляюсь" як відповіді для діабетичного випадку. Тож як я обробляю порожні клітини та відповіді опитування "Не знаю / відмовляю"?
користувач3897

Я хотів би дізнатися про багаторазову імпутацію та шукав навчальний матеріал в Інтернеті. Не могли б ви запропонувати якийсь навчальний матеріал для ІМ?
користувач3897

0

Чи є у вас будь-які підстави думати, що досліджувані у хворих на діабет з більшою ймовірністю або меншою ймовірністю закінчилися відповіддю DK / R? Якщо ні (і я би дуже здивований, дізнавшись, що ви це зробили), включення цього передбачувача у модель без винятків цих випадків призведе до шуму. Тобто, ви закінчитеся з меншою точністю в оцінці того, як "так" проти "ні" впливає на прогнозовану ймовірність діабету (адже ви будете намагатися моделювати вплив або "так", або "ні" проти випадкових відповідей DK / R на відміну від просто "так" проти "ні"). Найпростіший варіант - виключити випадки з відповідями DK / R. Якщо припустити, що відповіді "так / ні" справді відсутні випадково, виключаючи їх, не буде зміщуватися ваша оцінка впливу "так" проти "ні." Такий підхід, однак, зменшить розмір вибірки і, таким чином, зменшить статистичну потужність стосовно інших прогнозів. Якщо у вас є велика кількість DK / R на цій змінній, ви, можливо, захочете присвоїти відповіді "так" / "ні" шляхом багаторазової імпутації (можливо, найбільш, може бути, лише оборонної стратегії введення пропущеного значення).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.