Моє завдання «машинного навчання» - відокремити доброякісний Інтернет-трафік від шкідливого трафіку. У реальному сценарії більшість (скажімо, 90% або більше) Інтернет-трафіку є доброякісними. Таким чином, я відчув, що мені слід вибрати подібний параметр даних і для навчання моїх моделей. Але я натрапив на дослідницький документ або два (в моєму районі роботи), які застосовували підхід до даних "навчання врівноваження" для навчання моделей, маючи на увазі рівну кількість випадків доброякісного та зловмисного трафіку.
Взагалі, якщо я будую моделі машинного навчання, чи слід шукати набір даних, який є репрезентативним для реальної проблеми світу, або збалансований набір даних краще підходить для побудови моделей (оскільки деякі класифікатори не добре поводяться з дисбалансом класів, або через інші невідомі мені причини)?
Чи може хтось пролити більше світла на плюси і мінуси обох варіантів і як вирішити, який саме вибрати?