Чи відрізняється максимізація точності, коли надмірна / недостатня вибірка неврівноважених класів відрізняється від мінімізації витрат на помилкову класифікацію?


14

Перш за все, я хотів би описати деякі загальні схеми, якими користуються книги Data Mining, що пояснюють, як поводитися з незбалансованими наборами даних . Зазвичай основний розділ має назву Незбалансовані набори даних, і вони охоплюють ці два підрозділи: Методи класифікації та вибірки, що чутливі до витрат.

Схоже, що, зіткнувшись з проблемою з рідкісним класом, ви можете виконати як класифікацію, так і класифікацію, а також вибірку. Натомість я вважаю, що слід застосовувати чутливі до витрат методи, якщо рідкісний клас також є ціллю класифікації, а неправильна класифікація записів цього класу є дорогою.

З іншого боку, методи відбору зразків, такі як перевибір та недобір вибірки, є корисними, якщо ціль класифікації є загальною точністю, не орієнтуючись на конкретний клас.

Це переконання випливає з обґрунтування MetaCost, що є загальним способом зробити класифікатор чутливим до витрат: якщо хочеться зробити класифікатор чутливим до витрат, щоб покарати помилку помилкової класифікації рідкісного класу, він повинен переоцінити вибір іншого класу . Грубо кажучи, класифікатор намагається адаптуватися до іншого класу, і він стає специфічним для рідкісного класу.

Це протилежне перебірці вибірки рідкісного класу, тобто зазвичай пропонується вирішити цю проблему. Перевибір вибірки рідкісного класу або недостатня вибірка іншого класу корисні для підвищення загальної точності.

Будь ласка, було б чудово, якби ви підтвердили мої думки.

Зазначаючи це, поширене питання, що стоїть перед незбалансованим набором даних:

Чи варто спробувати отримати набір даних, який налічує стільки ж рідкісних записів, як інші?

Моя відповідь буде, якщо ви шукаєте точність: Гаразд. Ви можете виконати це або знайти більш рідкісні приклади класу, або видалити деякі записи іншого класу.

Якщо ви зосереджуєтесь на рідкісному класі, використовуючи технологію, що відрізняється від витрат, я відповів би: ви можете знайти лише більш рідкісний приклад класу, але не слід видаляти записи іншого класу. В останньому випадку ви не зможете дозволити класифікаторові пристосуватися до іншого класу, і помилка помилкової класифікації класифікаторів може збільшитися.

Що б ти відповів?


2
"Виявити" нові записи для рідкісних класів може бути неможливим. Я припускаю, що дані структуровані таким чином, оскільки створити більш рідкісні класи-події досить дорого (біоінформатика) або ризиковано (банківський кредит).
steffen

Звичайно, але це загальне запропоноване рішення. Однак це правда, що якщо ви зможете знайти більш рідкісні приклади класу, ви можете виявити й інші приклади. Тому що навчальний набір повинен бути репрезентативним зразком всесвіту записів. Отже, мені здається, це виглядає як надмірне відбір проб.
Симоне

Відповіді:


9

Це гарне запитання. Особисто я відповів би, що ніколи не має сенсу викидати дані (якщо це не з обчислювальних причин), оскільки чим більше у вас даних, тим кращою може бути ваша модель світу. Тому я б запропонував змінити функцію витрат відповідним чином для вашого завдання. Наприклад, якщо ви зацікавлені в одному конкретному рідкісному класі, ви можете зробити класифікації цього класу лише дорожчими; якщо вас цікавить збалансований показник, щось на зразок збалансованого рівня помилок (середнє значення помилок для кожного класу) або коефіцієнта корекції Меттьюса є відповідним; якщо вас цікавить лише загальна помилка класифікації, традиційна втрата 0-1 .

Сучасний підхід до проблеми полягає у використанні активного навчання. Наприклад, Hospedales et al (2011) «Пошук рідкісних класів: активне навчання за допомогою генеративних та дискримінаційних моделей, транзакцій IEEE з питань знань та інженерії даних (TKDE 2011) . Однак я вважаю, що ці підходи все ще відносно менш зрілі.


Цікавий показник Metthews один на випадок, коли потрібен був збалансований захід. Однак, враховуючи те, що ми не хочемо видаляти жодну запис, перш ніж виконувати будь-яку вибірку чи модифікацію функції витрат, ви б перебалансували набір даних, додаючи рідкісні приклади класів? Я думаю, що відповідь могла бути НІ. Тому що, поки ви знайдете рідкісні приклади класу, ви можете знайти інші приклади. Таким чином, для отримання більш врівноваженої міри або кращої міри продуктивності класу (наприклад, показник F) я б застосував методику (таку як вибірка або мод витрат) лише після фази збору даних. Ви згодні?
Сімоне

Погоджено, будь-які такі операції слід проводити після фази збору даних.
tdc
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.