Різниця між відсутніми даними та розрідженими даними в алгоритмах машинного навчання

Які основні відмінності між розрідженими даними та відсутніми даними? І як це впливає на машинне навчання? Більш конкретно, який вплив мають рідкісні та відсутні дані на алгоритми класифікації та тип регресії (прогнозування чисел) алгоритмів. Я говорю про ситуацію, коли відсоток відсутніх даних є значним, і ми не можемо скинути рядки, що містять відсутні дані.

— втомлений і нудний дев
джерело

Рідкі дані означають, що багато значень дорівнюють нулю, але ви знаєте, що вони дорівнюють нулю. Відсутні дані означають, що ви не знаєте, що таке деякі або багато значень.

— Anna SdTC

Спасибі. Це я теж думав, але хотів підтвердити. Крім того , як зазначено в питанні, хотілося б знати , як, загалом, ці типи наборів даних обробляються в задачах машинного навчання ..

— втомлений і нудьгуючий Dev

Я думаю, що ваше запитання трохи неясне. "Машинне навчання" включає широкий спектр методів та інструментів, тому відповідь залежить від того, що у вас є чи що ви хочете зробити. Тут вони обговорюють деякі методи поводження з відсутніми даними: stats.stackexchange.com/questions/103500/…

— Anna SdTC

Спасибі. Мені відомо широкий спектр інструментів та типів алгоритмів мл. Але хотів дізнатися, чи є загальні підходи.

— стомлений і нудний дев

Для зручності розуміння опишу це на прикладі. Скажімо, ви збираєте дані з пристрою, який має 12 датчиків. І ви збирали дані протягом 10 днів.

Зібрані вами дані такі:

Це називається рідкісними даними, оскільки більшість виходів датчиків дорівнює нулю. Це означає, що ці датчики справно працюють, але фактичне зчитування дорівнює нулю. Хоча ця матриця має великі розмірні дані (12 осей), можна сказати, що вона містить менше інформації.

Скажімо, 2 датчика вашого пристрою несправні.
Тоді ваші дані будуть такими:

У цьому випадку ви бачите, що не можете використовувати дані Sensor1 та Sensor6. Або потрібно заповнити дані вручну, не впливаючи на результати, або доведеться повторити експеримент.

— Лахіру Карунаратне
джерело