80% відсутніх даних в одній змінній


12

Є одна змінна в моїх даних, яка містить 80% відсутніх даних. Дані відсутні через відсутність (тобто скільки банківської позики заборгувала компанія). Я наткнувся на статтю, в якій сказано, що метод коригування змінної манекена є рішенням цієї проблеми. Значить, мені потрібно перетворити цю суцільну змінну в категоричну?

Це єдине рішення? Я не хочу скидати цю змінну, як я думаю теоретично, це важливо для мого дослідницького питання.

Відповіді:


21

Чи є дані "відсутніми" у значенні невідомих чи це просто означає, що немає позики (тому сума позики дорівнює нулю)? Це звучить як останнє, і в цьому випадку вам потрібна додаткова двійкова манекенка, щоб вказати, чи є позика. Трансформація суми позики не потрібна (крім, можливо, від постійного повторного вираження, наприклад, кореневого чи розпочатого журналу, що може бути вказано в силу інших міркувань).

Це добре працює в регресії. Простий приклад - концептуальна модель форми

залежна змінна (Y) = сума позики (X) + константа.

З додаванням позикового показника ( ) регресійною є модельЯ

Y=βЯЯ+βХХ+β0+ϵ

з представляє випадкові помилки з нульовими очікуваннями. Коефіцієнти інтерпретуються як:ϵ

β0 - це очікування для ситуацій без позики, оскільки для них характерні і .YХ=0Я=0

βХ - гранична зміна щодо суми позики ( ).YХ

βЯ+β0 - перехоплення випадків з позиками.


2
Вони не вважатимуться відсутніми, вони підуть до оцінки вартості кредиту. Можливо, ви не взяли позику "NA", і тоді вам потрібно перекодувати їх до 0.
Іван

2
@John Дякую, саме це я рекомендую. Суть у тому, щоб виразити значення позики ( ) будь-яким способом (наприклад, журнал (сума + 1)) та встановити і для будь-якого випадку без позики. Це стандартна методика регресії, включаючи логістичну регресію. ХХ=0Я=1
whuber

3
@ lcl23 Якщо я правильно зрозумів ситуацію, імпутація не має сенсу: ваші "відсутні" дані не відсутні; вони вказують, що позику не брали.
whuber

1
Я(Х=1)Я(Х=0)

1
1βЯ0

1

Я думаю, ви неправильно зрозуміли пропозицію статті: головним чином через те, що пропозиція не має сенсу. Тоді у вас виникнуть дві проблеми: як перекодувати змінну та її значення все ще відсутні. Можливо, пропонувалося створити показник відсутності .

Дещо релевантним підходом до поводження з відсутніми даними, який слабко відповідає даному опису, є налаштування показника відсутності . Це, звичайно, простий і легкий підхід, але в цілому він упереджений. Упередження може бути необмеженим у своїй поганості. Ефективно це підходить дві моделі та порівнюють їх ефекти разом: перша модель - повністю умовна модель , друга - повна факторна модель. Повністю умовна модель - це повна модель випадку, в якій кожне спостереження видаляється, у якого відсутні значення. Таким чином, він підходить для 20% підмножини даних. Друга - це придатність на решта 80%, зовсім не коригуючи відсутність значення. Ця гранична модель оцінює ті ж ефекти, що і повна модель, коли немає невиміреної взаємодії, коли функція зв'язку є розбірною та коли дані відсутні у випадковому стані (MAR). Потім ці ефекти поєднуються за середньозваженим рівнем. Навіть в ідеальних умовах, без вимірюваних взаємодій та відсутніх повністю випадкових даних (MCAR) дані пропущеного індикатора призводять до упереджених ефектів, оскільки гранична модель та умовна модель оцінюють різні ефекти. Навіть прогнози у цьому випадку упереджені.

Набагато кращою альтернативою є просто використання багаторазової імпутації. Навіть коли коефіцієнт, що відсутній в основному, вимірюється при дуже низькій поширеності, ІМ виконує відносно хорошу роботу з генерування складних усвідомлень можливих значень. Єдине необхідне припущення тут - MAR.


Що означає "функція зв'язку згортається"?
Метью Друрі

1
@MatthewDrury, в основному, «збірність» означає, що коригування змінних, які прогнозують результат, але не головний ефект (и), підвищить точність, але не змінить оцінений ефект.
АдамО

Класно, дякую Адаму. Раніше не чув цієї термінології.
Метью Друрі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.