Думки про перенапруження в цілому і зокрема алгоритм SMOTE [закритий]

Закрито . Це питання ґрунтується на думці . Наразі відповіді не приймаються.

Хочете вдосконалити це питання? Оновіть питання, щоб на нього можна було відповісти фактами та цитатами, відредагувавши цю публікацію .

Закрито 2 роки тому .

Яка ваша думка щодо надмірного зразка в класифікації взагалі та алгоритму SMOTE зокрема? Чому б ми не просто застосували витрати / штрафи для коригування дисбалансу в даних про клас та будь-яку незбалансовану вартість помилок? Для моїх цілей точність прогнозування майбутнього набору експериментальних одиниць є кінцевим показником.

Для довідки, документ SMOTE: http://www.jair.org/papers/paper953.html

machine-learning classification oversampling

— Дейв Куммінс
джерело

Одна з проблем перенапруження міноритарного класу в незбалансованому наборі даних полягає в тому, що ви в кінцевому підсумку вивчите занадто багато конкретних кількох прикладів, і це не вдасться узагальнити. SMOTE, як передбачається, вивчить топологічні властивості сусідства цих точок класу меншості, тому ви менше шансів на перевищення.

— horaceT

Це чудова тема для запитання, але чи можете ви зробити це трохи більш зосередженим? "Яка ваша думка?" запрошує нескінченну дискусію, але ми, як правило, більш чітко фокусуємося на форматі запитання / відповіді.

— Sycorax каже, що повернемо Моніку

{1} подає перелік переваг та недоліків економічно чутливого навчання проти вибірки:

2.2 Відбір проб

Перевиконання та підкреслення можуть бути використані для зміни розподілу класів навчальних даних, і обидва методи були використані для боротьби з дисбалансом класів [1, 2, 3, 6, 10, 11]. Причиною того, що зміна розподілу класів даних про навчання допомагає навчанню з сильно перекошеними наборами даних, полягає в тому, що це ефективно покладає на неоднакові витрати на помилкову класифікацію. Наприклад, якщо хтось змінить розподіл класів навчального набору таким чином, щоб співвідношення позитивних до негативних прикладів переходило від 1: 1 до 2: 1, то фактично було призначено коефіцієнт помилкової класифікації 2: 1. Ця еквівалентність між зміною розподілу даних навчальних занять та зміною співвідношення витрат на помилкову класифікацію добре відома і була офіційно описана Елканом [9].

Відомі недоліки, пов’язані з використанням вибірки для впровадження чутливого до навчання. Недоліком субсемплірованія є те , що він відкидає потенційно корисні дані . З нашого погляду головним недоліком у випадку надмірного простору є те, що, якщо зробити точні копії наявних прикладів, це робить надмірне оснащення ймовірним . Насправді, при перебігу симпленування учень досить звичайний для створення класифікаційного правила, щоб охопити єдиний, повторний приклад. Другим недоліком надмірного зразка є те, що він збільшує кількість прикладів навчання, тим самим збільшуючи час навчання .

2.3 Навіщо використовувати вибірку?

Враховуючи недоліки вибірки, варто запитати, чому хтось використовуватиме її, а не алгоритм навчання, що відрізняється від витрат, для обробки даних із перекошеним розподілом класів та нерівномірними витратами на класифікацію. Для цього є кілька причин. Найбільш очевидною причиною є відсутність рентабельності реалізації всіх алгоритмів навчання, тому єдиний варіант вибіркового підходу з використанням вибірки є єдиним варіантом. Хоча це, безумовно, менш вірно сьогодні, ніж раніше, багато алгоритмів навчання (наприклад, C4.5) все ще не впорядковуються безпосередньо з витратами в процесі навчання.

Друга причина використання вибірки полягає в тому, що багато сильно перекошених наборів даних є величезними і розмір навчального набору повинен бути зменшений, щоб навчання було здійсненним. У цьому випадку підкреслення, здається, є розумною та справедливою стратегією. У цій роботі ми не розглядаємо необхідність зменшення розміру навчального набору. Однак ми хотіли б зазначити, що якщо вам потрібно відмовитись від деяких навчальних даних, все-таки може бути корисним відкинути деякі приклади більшості класів, щоб зменшити розмір навчального набору до необхідного розміру, а потім також використовувати витрати, чутливий алгоритм навчання, так що кількість викинутих навчальних даних мінімізується.

Кінцевою причиною, яка, можливо, сприяла використанню вибірки, а не алгоритму навчання, що відрізняється від витрат, є те, що витрати на помилкову класифікацію часто невідомі. Однак це не є вагомою причиною використання вибірки через алгоритм навчання з чутливим витратами, оскільки аналогічне питання виникає при вибірці - яким повинен бути розподіл класу підсумкових навчальних даних? Якщо ця інформація про витрати не відома, такий захід, як площа під кривою ROC, може бути використаний для вимірювання ефективності класифікатора, і обидва підходи можуть потім емпірично визначити правильне співвідношення витрат / розподіл класів.

Вони також провели ряд експериментів, що було непереконливо:

На основі результатів усіх наборів даних не існує остаточного переможця між чутливим до витрат навчанням, пересимплінг та недосимплінг

Потім вони намагаються зрозуміти, які критерії в наборах даних можуть натякати на те, яка методика краще підходить.

Вони також зазначають, що SMOTE може внести деякі покращення:

Люди покращили ефективність відбору проб. Деякі з цих удосконалень включають введення нових "синтетичних" прикладів при перепробовуванні [5 -> SMOTE], видаленні менш корисних прикладів мажоритарного класу при нижньому збиранні [11] та використанні декількох під зразків, коли нижня вибірка, така як кожен приклад, використовується щонайменше в одному підвибірка [3]. Незважаючи на те, що ці прийоми порівнюються із надмірним та недооціненим, вони, як правило, не порівнюються з алгоритмами навчання, що відрізняються від витрат. Це варто було б вивчити в майбутньому.

{1} Вайс, Гері М., Кейт Маккарті та Бібі Забар. "Навчання з урахуванням витрат та вибірки: що найкраще використовувати для неврівноважених класів із неоднаковими витратами на помилки?" DMIN 7 (2007): 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=uk&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf

— Франк Дернонкур
джерело

Якщо ви говорите "алгоритм навчання, що відрізняється витратами", чи повинен мій мозок думати "карати класи з високими частотами виникнення і, можливо, надавати більше значення класам із низькими частотами"? Чи це поняття еквівалентне присвоєнню вагових класів?

— Джарад