Припустимо, я хочу вивчити класифікатор, який передбачає, чи електронний лист є спамом. І припустимо, що лише 1% електронних листів - це спам.
Найпростіше зробити це - дізнатися тривіальний класифікатор, який говорить, що жоден з електронних листів не є спамом. Цей класифікатор дав би нам 99% точності, але він не дізнався би нічого цікавого та мав би 100% помилкових негативів.
Щоб вирішити цю проблему, люди сказали мені "пробити вибірку" або дізнатися на підмножині даних, де 50% прикладів є спамом, а 50% - не спамом.
Але я переживаю за такий підхід, оскільки як тільки ми створимо цей класифікатор і почнемо використовувати його на реальному корпусі електронних листів (на відміну від тестового набору 50/50), він може передбачити, що багато електронних листів спамуються, коли вони ' реально ні. Просто тому, що звично бачити набагато більше спаму, ніж насправді є в наборі даних.
То як ми можемо виправити цю проблему?
("Підвищення рівня", або повторення позитивних прикладів тренувань кілька разів, тому 50% даних є позитивними прикладами тренувань, схоже, страждають від подібних проблем.)