Я ніколи не знаходив жодного хорошого тексту чи прикладів, як обробляти "неіснуючі" дані для входів до будь-якого класифікатора. Я багато читав про відсутні дані, але що можна зробити щодо даних, які не можуть або не існують стосовно багатовимірних входів. Я розумію, що це дуже складне запитання і буде змінюватися залежно від використовуваних методів навчання ...
Наприклад, якщо ви намагаєтеся передбачити пробіг для декількох бігунів з хорошими точними даними. Серед багатьох входів можливими змінними серед багатьох є:
- Змінна введення - Бігун першого разу (Y / N)
- Змінна введення - попередній час (0 - 500 секунд)
- Змінна введення - вік
- Вхідна змінна - висота. . . багато інших змінних вводу тощо
& Висновок прогнозування - прогнозований час (0 - 500 секунд)
'Відсутня змінна' для '2.Предокладний проміжок часу' може бути обчислена кількома способами, але '1. Бігун першого разу 'завжди дорівнював би N. Але для 'НЕ ІСНУЮЧИХ ДАНИХ' для вперше бігуна (де '1. Бігун першого разу' = Y) яке значення / лікування слід дати '2. Попередній час »?
Наприклад, призначення '2. Попередній час 'як -99 або 0 може різко перекрити розподіл і зробити його схожим на те, що новий бігун пройшов добре.
Мої сучасні методи навчання використовували логістичну регресію, SVM, NN та рішення рішень