Моє питання спрямоване на методи боротьби з неповними даними під час навчання класифікатора / моделі / підгонки.
Наприклад, у наборі даних із кількома сотнями рядків, у кожному рядку якого, скажімо, п'ять вимірів та мітка класу як останній елемент, більшість точок даних виглядатиме так:
[0,74, 0,39, 0,14, 0,33, 0,34, 0]
Деякі можуть виглядати приблизно так:
[0,21, 0,68,?, 0,82, 0,58, 1]
Отже, саме ці типи точок даних є основою цього питання.
Моєю початковою причиною задавати це питання була проблема прямо переді мною; однак, перш ніж надсилати моє запитання, я вважав, що це може бути кориснішим, якщо я переформулюю його, щоб відповіді були корисні для більшої частини Спільноти.
Як простий евристик, давайте розділимо ці методи обробки даних на основі того, коли під час потоку обробки вони використовуються - перед введенням в класифікатор або під час (тобто, техніка знаходиться всередині класифікатора).
Найкращий приклад, який я можу придумати для останнього, - це розумна техніка «тристороннього розгалуження», яка використовується у Деревах рішень.
Без сумніву, колишня категорія набагато більша. Я знаю всіх методів, які потрапляють до однієї із груп нижче.
Нещодавно переглядаючи мої особисті замітки про "відсутність обробки даних", я помітив, що у мене досить вражаючий перелік методик. Я просто підтримую ці замітки для загального спокою, і якщо молодший колега запитає мене, як поводитися з відсутніми даними. Насправді я фактично не використовую жодного з них, крім останнього.
Імпутація : широка рубрика для набору методів, спільним знаменником яких (я вважаю) є те, що відсутні дані подаються безпосередньо тим самим набором даних - заміщення, а не оцінка / прогнозування.
Реконструкція : оцініть пропущені точки даних за допомогою автоасоціативної мережі (просто нейромережа, в якій розміри вхідного та вихідного шарів рівні - іншими словами, вихід має той же розмір, що і вхідний); Ідея тут полягає в тому, щоб навчити цю мережу повноцінними даними, а потім подати в неї неповні шаблони та прочитати пропущені значення з вихідних вузлів.
Запуск завантаження : (резюме не потрібно, я не повинен думати, враховуючи, що це використовується в іншому місці в статистичному аналізі).
Заперечення : тихо видаліть точки з відсутніми / пошкодженими елементами зі свого навчального набору і зробіть вигляд, що їх ніколи не було.
modern
методи? Спасибі
mice
є приємний вступний документ про JSS: jstatsoft.org/article/view/v045i03 . (Ви повинні вважати вступ корисним, навіть якщо ви не використовуєте R.) У пакеті R Amelia
є приємна віньєтка, яка входить до цього пакету. Ці два пакети відрізняються деталями, але обидва використовують багаторазову імпутацію.