Різниця між відсутніми даними та розрідженими даними в алгоритмах машинного навчання


20

Які основні відмінності між розрідженими даними та відсутніми даними? І як це впливає на машинне навчання? Більш конкретно, який вплив мають рідкісні та відсутні дані на алгоритми класифікації та тип регресії (прогнозування чисел) алгоритмів. Я говорю про ситуацію, коли відсоток відсутніх даних є значним, і ми не можемо скинути рядки, що містять відсутні дані.


4
Рідкі дані означають, що багато значень дорівнюють нулю, але ви знаєте, що вони дорівнюють нулю. Відсутні дані означають, що ви не знаєте, що таке деякі або багато значень.
Anna SdTC

Спасибі. Це я теж думав, але хотів підтвердити. Крім того , як зазначено в питанні, хотілося б знати , як, загалом, ці типи наборів даних обробляються в задачах машинного навчання ..
втомлений і нудьгуючий Dev

1
Я думаю, що ваше запитання трохи неясне. "Машинне навчання" включає широкий спектр методів та інструментів, тому відповідь залежить від того, що у вас є чи що ви хочете зробити. Тут вони обговорюють деякі методи поводження з відсутніми даними: stats.stackexchange.com/questions/103500/…
Anna SdTC

Спасибі. Мені відомо широкий спектр інструментів та типів алгоритмів мл. Але хотів дізнатися, чи є загальні підходи.
стомлений і нудний дев

Відповіді:


16

Для зручності розуміння опишу це на прикладі. Скажімо, ви збираєте дані з пристрою, який має 12 датчиків. І ви збирали дані протягом 10 днів.

Зібрані вами дані такі: введіть тут опис зображення

Це називається рідкісними даними, оскільки більшість виходів датчиків дорівнює нулю. Це означає, що ці датчики справно працюють, але фактичне зчитування дорівнює нулю. Хоча ця матриця має великі розмірні дані (12 осей), можна сказати, що вона містить менше інформації.

Скажімо, 2 датчика вашого пристрою несправні.
Тоді ваші дані будуть такими:введіть тут опис зображення

У цьому випадку ви бачите, що не можете використовувати дані Sensor1 та Sensor6. Або потрібно заповнити дані вручну, не впливаючи на результати, або доведеться повторити експеримент.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.