Ми вже мали кілька питань про незбалансоване даних при використанні логістичної регресії , SVM , дерева рішень , упаковки в пакети і ряд інших подібних питань, що робить його дуже популярною темою! На жаль, кожне з питань, схоже, відповідає алгоритму, і я не знайшов загальних рекомендацій щодо поводження з незбалансованими даними.
Цитуючи одну з відповідей Марка Клайсена , що стосується незбалансованих даних
(...) сильно залежить від методу навчання. Більшість підходів загального призначення мають один (або кілька) способів вирішити це.
Але коли саме ми повинні турбуватися про незбалансовані дані? Які алгоритми на нього найбільше впливають і які здатні з цим боротися? За якими алгоритмами нам знадобиться збалансувати дані? Я знаю, що обговорення кожного з алгоритмів було б неможливим на такому веб-сайті з питань запитання, я шукаю загальні рекомендації щодо того, коли це може бути проблемою.