XGBoost може обробляти відсутні дані на етапі прогнозування


12

Нещодавно я переглянув алгоритм XGBoost і помітив, що цей алгоритм може обробляти відсутні дані (не вимагаючи імпутації) на етапі навчання. Мені було цікаво, чи може XGboost обробляти відсутні дані (не вимагаючи імпутації), коли він використовується для прогнозування нових спостережень або необхідно імпутувати відсутні дані.

Заздалегідь спасибі.

Відповіді:


14

xgboost у тренувальний час вирішує, чи будуть пропущені значення переходити у правий чи лівий вузол. Він вибирає, який мінімізувати втрати. Якщо під час тренування немає відсутніх значень, це за замовчуванням надсилає будь-які нові пропуски в потрібний вузол.

Якщо в розподілі ваших пропусків є сигнал, то це, по суті, відповідає моделі.

Будьте обережні, якщо у ваших даних за балами немає пропущених значень, розподілених інакше, ніж у ваших навчальних даних. Відсутнє поводження з xgboost є зручним, але не захищає від маскування.

Джерело: ця відповідь

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.