Думки про перенапруження в цілому і зокрема алгоритм SMOTE [закритий]


18

Яка ваша думка щодо надмірного зразка в класифікації взагалі та алгоритму SMOTE зокрема? Чому б ми не просто застосували витрати / штрафи для коригування дисбалансу в даних про клас та будь-яку незбалансовану вартість помилок? Для моїх цілей точність прогнозування майбутнього набору експериментальних одиниць є кінцевим показником.

Для довідки, документ SMOTE: http://www.jair.org/papers/paper953.html


1
Одна з проблем перенапруження міноритарного класу в незбалансованому наборі даних полягає в тому, що ви в кінцевому підсумку вивчите занадто багато конкретних кількох прикладів, і це не вдасться узагальнити. SMOTE, як передбачається, вивчить топологічні властивості сусідства цих точок класу меншості, тому ви менше шансів на перевищення.
horaceT

2
Це чудова тема для запитання, але чи можете ви зробити це трохи більш зосередженим? "Яка ваша думка?" запрошує нескінченну дискусію, але ми, як правило, більш чітко фокусуємося на форматі запитання / відповіді.
Sycorax каже, що повернемо Моніку

Відповіді:


19

{1} подає перелік переваг та недоліків економічно чутливого навчання проти вибірки:

2.2 Відбір проб

Перевиконання та підкреслення можуть бути використані для зміни розподілу класів навчальних даних, і обидва методи були використані для боротьби з дисбалансом класів [1, 2, 3, 6, 10, 11]. Причиною того, що зміна розподілу класів даних про навчання допомагає навчанню з сильно перекошеними наборами даних, полягає в тому, що це ефективно покладає на неоднакові витрати на помилкову класифікацію. Наприклад, якщо хтось змінить розподіл класів навчального набору таким чином, щоб співвідношення позитивних до негативних прикладів переходило від 1: 1 до 2: 1, то фактично було призначено коефіцієнт помилкової класифікації 2: 1. Ця еквівалентність між зміною розподілу даних навчальних занять та зміною співвідношення витрат на помилкову класифікацію добре відома і була офіційно описана Елканом [9].

Відомі недоліки, пов’язані з використанням вибірки для впровадження чутливого до навчання. Недоліком субсемплірованія є те , що він відкидає потенційно корисні дані . З нашого погляду головним недоліком у випадку надмірного простору є те, що, якщо зробити точні копії наявних прикладів, це робить надмірне оснащення ймовірним . Насправді, при перебігу симпленування учень досить звичайний для створення класифікаційного правила, щоб охопити єдиний, повторний приклад. Другим недоліком надмірного зразка є те, що він збільшує кількість прикладів навчання, тим самим збільшуючи час навчання .

2.3 Навіщо використовувати вибірку?

Враховуючи недоліки вибірки, варто запитати, чому хтось використовуватиме її, а не алгоритм навчання, що відрізняється від витрат, для обробки даних із перекошеним розподілом класів та нерівномірними витратами на класифікацію. Для цього є кілька причин. Найбільш очевидною причиною є відсутність рентабельності реалізації всіх алгоритмів навчання, тому єдиний варіант вибіркового підходу з використанням вибірки є єдиним варіантом. Хоча це, безумовно, менш вірно сьогодні, ніж раніше, багато алгоритмів навчання (наприклад, C4.5) все ще не впорядковуються безпосередньо з витратами в процесі навчання.

Друга причина використання вибірки полягає в тому, що багато сильно перекошених наборів даних є величезними і розмір навчального набору повинен бути зменшений, щоб навчання було здійсненним. У цьому випадку підкреслення, здається, є розумною та справедливою стратегією. У цій роботі ми не розглядаємо необхідність зменшення розміру навчального набору. Однак ми хотіли б зазначити, що якщо вам потрібно відмовитись від деяких навчальних даних, все-таки може бути корисним відкинути деякі приклади більшості класів, щоб зменшити розмір навчального набору до необхідного розміру, а потім також використовувати витрати, чутливий алгоритм навчання, так що кількість викинутих навчальних даних мінімізується.

Кінцевою причиною, яка, можливо, сприяла використанню вибірки, а не алгоритму навчання, що відрізняється від витрат, є те, що витрати на помилкову класифікацію часто невідомі. Однак це не є вагомою причиною використання вибірки через алгоритм навчання з чутливим витратами, оскільки аналогічне питання виникає при вибірці - яким повинен бути розподіл класу підсумкових навчальних даних? Якщо ця інформація про витрати не відома, такий захід, як площа під кривою ROC, може бути використаний для вимірювання ефективності класифікатора, і обидва підходи можуть потім емпірично визначити правильне співвідношення витрат / розподіл класів.

Вони також провели ряд експериментів, що було непереконливо:

На основі результатів усіх наборів даних не існує остаточного переможця між чутливим до витрат навчанням, пересимплінг та недосимплінг

Потім вони намагаються зрозуміти, які критерії в наборах даних можуть натякати на те, яка методика краще підходить.

Вони також зазначають, що SMOTE може внести деякі покращення:

Люди покращили ефективність відбору проб. Деякі з цих удосконалень включають введення нових "синтетичних" прикладів при перепробовуванні [5 -> SMOTE], видаленні менш корисних прикладів мажоритарного класу при нижньому збиранні [11] та використанні декількох під зразків, коли нижня вибірка, така як кожен приклад, використовується щонайменше в одному підвибірка [3]. Незважаючи на те, що ці прийоми порівнюються із надмірним та недооціненим, вони, як правило, не порівнюються з алгоритмами навчання, що відрізняються від витрат. Це варто було б вивчити в майбутньому.


{1} Вайс, Гері М., Кейт Маккарті та Бібі Забар. "Навчання з урахуванням витрат та вибірки: що найкраще використовувати для неврівноважених класів із неоднаковими витратами на помилки?" DMIN 7 (2007): 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=uk&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf


2
Якщо ви говорите "алгоритм навчання, що відрізняється витратами", чи повинен мій мозок думати "карати класи з високими частотами виникнення і, можливо, надавати більше значення класам із низькими частотами"? Чи це поняття еквівалентне присвоєнню вагових класів?
Джарад
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.