5
Чи варто шукати набір даних "збалансований" або "представник"?
Моє завдання «машинного навчання» - відокремити доброякісний Інтернет-трафік від шкідливого трафіку. У реальному сценарії більшість (скажімо, 90% або більше) Інтернет-трафіку є доброякісними. Таким чином, я відчув, що мені слід вибрати подібний параметр даних і для навчання моїх моделей. Але я натрапив на дослідницький документ або два (в моєму районі роботи), …