Як обробити неіснуючі (не пропущені) дані?


11

Я ніколи не знаходив жодного хорошого тексту чи прикладів, як обробляти "неіснуючі" дані для входів до будь-якого класифікатора. Я багато читав про відсутні дані, але що можна зробити щодо даних, які не можуть або не існують стосовно багатовимірних входів. Я розумію, що це дуже складне запитання і буде змінюватися залежно від використовуваних методів навчання ...

Наприклад, якщо ви намагаєтеся передбачити пробіг для декількох бігунів з хорошими точними даними. Серед багатьох входів можливими змінними серед багатьох є:

  1. Змінна введення - Бігун першого разу (Y / N)
  2. Змінна введення - попередній час (0 - 500 секунд)
  3. Змінна введення - вік
  4. Вхідна змінна - висота. . . багато інших змінних вводу тощо

& Висновок прогнозування - прогнозований час (0 - 500 секунд)

'Відсутня змінна' для '2.Предокладний проміжок часу' може бути обчислена кількома способами, але '1. Бігун першого разу 'завжди дорівнював би N. Але для 'НЕ ІСНУЮЧИХ ДАНИХ' для вперше бігуна (де '1. Бігун першого разу' = Y) яке значення / лікування слід дати '2. Попередній час »?

Наприклад, призначення '2. Попередній час 'як -99 або 0 може різко перекрити розподіл і зробити його схожим на те, що новий бігун пройшов добре.

Мої сучасні методи навчання використовували логістичну регресію, SVM, NN та рішення рішень


Варто додати, що я відкидав нових бігунів як від даних про тренування, так і для прогнозування через властиву їм невизначеності, але буду вдячний за кращі методи, ніж "Ігнорувати"
osknows

Відповіді:


6

Замість того, щоб присвоїти спеціальне значення для неіснуючого попереднього часу бігуна першого кола, просто використовуйте термін взаємодії за попередній час на колінах із зворотним манекеном бігуна першого разу:

Yi=β0+β1ЖТRi+β2(NЖТRi)×ПLТi+...

тут

  • Yi
  • ...
  • ЖТRi
  • ПLТi
  • NЖТRiЖТRi=0

Тоді модель для перших бігунів буде:

Yi=(β0+β1)+...

і для не вперше бігунів:

Yi=β0+β2ПLТi+...

8

Для логістичної регресії, що відповідає максимальній вірогідності, якщо у вас є як (1), так і (2) в моделі, то незалежно від значення "за замовчуванням", яке ви даєте новим бігунам для (2), оцінка для (1) буде відповідно коригуватися.

Х1Х2

η=α+β1Х1+β2Х2+

Х2

η=α+β1+

тоді як для існуючого бігуна це буде:

η=α+β2Х2+

Х2

η=α+β1'-99β2+

β1'-99β2=β1

Звичайно, якщо ви не використовуєте максимальну ймовірність (тобто ви використовуєте якусь штрафну санкцію або попередньо за параметрами), ви отримаєте різні значення, якщо не відрегулювати пені / попередньо відповідно. І якщо модель нелінійна (наприклад, SVM, NN & Рішення), цей аргумент взагалі не працює.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.