тренінгові підходи для сильно незбалансованого набору даних


16

У мене сильно незбалансований набір даних тесту. Позитивний набір складається з 100 випадків, тоді як негативний - 1500 випадків. Що стосується тренінгу, у мене є більший пул кандидатів: позитивний навчальний набір має 1200 випадків, а негативний навчальний набір - 12000 випадків. Для подібного сценарію у мене є кілька варіантів:

1) Використання зваженого SVM для всього навчального набору (P: 1200, N: 12000)

2) Використовуючи SVM на основі вибіркового навчального набору (P: 1200, N: 1200), 1200 негативних випадків відбираються з 12000 випадків.

Чи є теоретичні вказівки щодо вирішення того, який підхід кращий? Оскільки набір даних тесту є сильно незбалансованим, чи слід використовувати і незбалансований навчальний набір?


1
будь ласка, ознайомтеся з наступними питаннями: Контрольоване навчання з "рідкісними" подіями та Найкращий спосіб обробляти незбалансований набір даних багаторівневих класів з SVM . Чи допомагає це? Чесно кажучи, ваші запитання звучать досить схоже;).
steffen

Відповіді:



0

Логістична регресія, що розширюється в парі, навчання на основі ROC, підсилення та перенесення (агрегування Bootstrap), ансамбль кластерів на основі посилань (LCE), Байєсова мережа, Найближчі центральні класифікатори, Байєсова техніка, Зважений грубий набір, k-NN

і багато методів вибірки для усунення дисбалансу.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.