Чому ви хочете тут використовувати CNN? Чи розглядали ви інші моделі, які фактично обробляють незбалансовані дані?
Наприклад, я виявив, що наступні два методи спрацювали для мене дуже добре:
Випадкові ліси з / з SMOTE Підвищення : Використовуйте гібрид, SMOTE
який підкреслює вибір мажоритарного класу та переоцінює вибір класу меншин за допомогою регульованих відсотків. Виберіть ці відсотки залежно від розподілу змінної вашої відповіді у навчальному наборі. Подайте ці дані у вашу модель РФ. Завжди перехресне підтвердження / виконання сітки для пошуку оптимальних параметрів параметрів для ваших радіочастотних сигналів.
Оптимізація XGBoost з гіпер-параметрами : Знову ж, перехресне підтвердження або пошук по пошуку, щоб знайти найкращі параметри параметрів для моделі. Крім того, xgboost
дозволяє збалансувати позитивні та негативні ваги класів за допомогою scale_pos_weight
. Повний список знайдеться в документації з параметрами .
Я також повинен додати, що набір даних, над якими я працював, мав однаковий відсоток перекосу, і я зміг отримати показник чутливості 0,941 і специфічність 0,71 з xgboost
, що означає, що модель досить точно прогнозує справжні позитиви, і це буде добре для мене.
(Вибачте, я не можу залишити коментар, недостатньо репутації, і мені дуже хотілося знати, чому ви вибрали CNN)