Чи підтримує векторний апарат підтримки врівноважений набір даних?


14

Чи обробляє SVM незбалансований набір даних? Це будь-які параметри (наприклад, C або вартість помилкової класифікації), що обробляють незбалансований набір даних?


1
Що робить набір даних "незбалансованим"?
whuber

1
@whuber набір даних про класифікацію з значною мірою різною поширеністю класів часто називають незбалансованим.
Marc Claesen

1
@Marc Це може бути правдою в цілому, але це нечітка концепція. Наскільки "значною мірою змінюється"? Чому це має бути важливим, окрім певних особливих обставин? Я вважаю, що нам важливо дізнатися, що означає пропонувач цього питання під "незбалансованим", а не приймати розумну здогадку кого-небудь щодо наміченого сенсу.
whuber

@whuber незбалансовані набори даних є загальною концепцією в машинному навчанні. Що стосується додатків через напр. Виявлення спаму тощо. Можливо, через перевагу алгоритмів, націлених на помилку помилкової класифікації, а не на ймовірність. Це в свою чергу робить зважування помилки проблематичним.
seanv507

2
Дякую, @seanv, за роз’яснення. Термінологічна проблема насправді полягає в тому, що "ручки" не посилаються на "можуть бути застосовані", а мають на увазі параметр, в якому (1) існує клас, який є в такій меншості, на його прогнозовані показники може сильно вплинути наявність інших класів, тоді як (2) точний прогноз для класу меншин представляє інтерес. У цьому сенсі "незбалансований набір даних" є досить неповним описом проблеми, але оскільки термін, начебто, придбав певну валюту, скаржитися здається безглуздим.
whuber

Відповіді:


18

Для незбалансованих наборів даних ми зазвичай змінюємо штраф за неправильну класифікацію за клас. Це називається SV-зваженим SVM, що мінімізує наступне:

minw,b,ξi=1Nj=1Nαiαjyiyjκ(xi,xj)+CposiPξi+CnegiNξi,s.t.yi(j=1Nαjyjκ(xi,xj)+b)1ξi,i=1Nξi0,i=1N

де і N являють собою позитивні / негативні випадки навчання. У стандартному SVM у нас є лише одне значення C , тоді як зараз у нас є 2. Покарання за неправильну класифікацію для класу меншості обрано таким, що є більшим, ніж для класу більшості.PNC

Цей підхід був запроваджений досить рано, він згадується, наприклад, у документі 1997 року:

Едгар Осуна, Роберт Фройнд та Федеріко Жиросі. Підтримка векторних машин: Навчання та програми. Технічний звіт AIM-1602, 1997 р. ( Pdf )

По суті це еквівалентно пересимплінації класу меншин: наприклад, якщо це цілком еквівалентно навчанню стандартного SVM з C = C n e g після включення кожного позитивного два рази у навчальний набір.Cpos=2CnegC=Cneg


Класно, дякую! На додаток до цього, чи відповідає логістична регресія, Navie Bayes, дерево рішень таким дисбалансом?
RockTheStar

Логістична регресія, безумовно, робить, ви просто зважуєте ймовірність позитивних зразків та негативних зразків по-різному.
Дікран Марсупіал

Логістична регресія та SVM забезпечують внутрішні шляхи. Я не знаю напам'ять для всіх цих інших методів, але перенапруження класу меншин працює майже для кожного методу (хоча це не зовсім математично елегантно).
Marc Claesen

1
Класно, дякую @Dikran. Марк: так, просте надмірне моделювання працює загалом. Однак це залежить від ситуації. Що трапляється, це те, що ви додаєте "ваги" до даних меншин, коли ви переоцінюєте меншість (повторюючи точки меншості знову і знову на одних і тих же місцях). Це по суті допомагає покращити "врахування" прикладу меншин. Однак межа прийняття рішення в класифікації потім стане досить напруженою (недостатньо загальною), тобто може виникнути перенавантаження). Тому нам, можливо, доведеться розглянути деякі ймовірнісні методи відбору проб, як SMOTE.
RockTheStar

10

SVM можуть працювати з наборами даних з незбалансованими частотними класами. Багато реалізацій дозволяють мати різну величину штрафного покарання (С) для позитивних та негативних класів (що асимптотично еквівалентно зміні частоти класу). Я рекомендую встановити значення цих параметрів, щоб максимізувати продуктивність узагальнення на тестовому наборі, де частоти класів є тими, які ви очікуєте побачити в оперативному використанні.

Я був одним із багатьох людей, які писали з цього приводу документи, ось моє , я побачу, чи зможу я знайти щось більш недавнє / краще. Спробуйте Веропулос, Кемпбелл і Кріштіаніні (1999).


Дікран, чому він лише асимптотично еквівалентний ... безумовно, це рівнозначно зваженню різних помилок класу по-різному?
seanv507

Це рівнозначно зваженню помилок класу, але це не те саме, що перекомпонувати дані (для початку ваги постійно змінюються, але дані дискретні). Це один з асимптотичних результатів очікування (який не здається особливо корисним у більшості випадків).
Дікран Марсупіал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.