Мені було просто цікаво точно таке саме питання, аналізуючи останні дані Національного опитування лікарні . Кілька змінних мають істотні відсутні значення, такі як сімейний стан та тип процедури. Це питання мені припало до уваги, оскільки ці категорії показали сильні (і значні) ефекти в більшості логістичних регресійних аналізів, які я проводив.
Один схильний дивуватися, чомувказаний код, що відсутній. Що стосується сімейного стану, наприклад, правдоподібно, що ненадання цієї інформації може бути пов'язане з важливими факторами, такими як соціально-економічний статус чи тип захворювання. У випадку з високим кров'яним тиском, ми повинні запитати, чому б значення не було відомо чи відмовлено? Це може бути пов'язано з практикою в установі (можливо, що відображає слабкі процедури) або навіть з окремими людьми (наприклад, релігійними віруваннями). Ці характеристики в свою чергу можуть бути пов'язані з діабетом. Тому здається доцільним продовжувати так, як у вас є, а не кодувати ці значення як відсутні (тим самим виключаючи їх з аналізу) або намагаючись імпульсувати значення (що ефективно маскує інформацію, яку вони надають, і може змістити результати). Це дійсно не складніше зробити: ви просто повинні переконатися, що ця змінна трактується як категорична, і ви отримаєте ще один коефіцієнт у регресійному виході. Крім того, я підозрюю, що набори даних BRFSS досить великі, що вам не доведеться турбуватися про потужність.