Перш за все, я хотів би описати деякі загальні схеми, якими користуються книги Data Mining, що пояснюють, як поводитися з незбалансованими наборами даних . Зазвичай основний розділ має назву Незбалансовані набори даних, і вони охоплюють ці два підрозділи: Методи класифікації та вибірки, що чутливі до витрат.
Схоже, що, зіткнувшись з проблемою з рідкісним класом, ви можете виконати як класифікацію, так і класифікацію, а також вибірку. Натомість я вважаю, що слід застосовувати чутливі до витрат методи, якщо рідкісний клас також є ціллю класифікації, а неправильна класифікація записів цього класу є дорогою.
З іншого боку, методи відбору зразків, такі як перевибір та недобір вибірки, є корисними, якщо ціль класифікації є загальною точністю, не орієнтуючись на конкретний клас.
Це переконання випливає з обґрунтування MetaCost, що є загальним способом зробити класифікатор чутливим до витрат: якщо хочеться зробити класифікатор чутливим до витрат, щоб покарати помилку помилкової класифікації рідкісного класу, він повинен переоцінити вибір іншого класу . Грубо кажучи, класифікатор намагається адаптуватися до іншого класу, і він стає специфічним для рідкісного класу.
Це протилежне перебірці вибірки рідкісного класу, тобто зазвичай пропонується вирішити цю проблему. Перевибір вибірки рідкісного класу або недостатня вибірка іншого класу корисні для підвищення загальної точності.
Будь ласка, було б чудово, якби ви підтвердили мої думки.
Зазначаючи це, поширене питання, що стоїть перед незбалансованим набором даних:
Чи варто спробувати отримати набір даних, який налічує стільки ж рідкісних записів, як інші?
Моя відповідь буде, якщо ви шукаєте точність: Гаразд. Ви можете виконати це або знайти більш рідкісні приклади класу, або видалити деякі записи іншого класу.
Якщо ви зосереджуєтесь на рідкісному класі, використовуючи технологію, що відрізняється від витрат, я відповів би: ви можете знайти лише більш рідкісний приклад класу, але не слід видаляти записи іншого класу. В останньому випадку ви не зможете дозволити класифікаторові пристосуватися до іншого класу, і помилка помилкової класифікації класифікаторів може збільшитися.
Що б ти відповів?