Я маю справу з проблемою виявлення шахрайства (як кредитно-рахунковий). Як такий, існує сильно незбалансований зв’язок між шахрайськими та не шахрайськими спостереженнями.
http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html надає чудовий огляд різних класифікаційних показників. Precision and Recall
або kappa
обидва здаються хорошим вибором:
Одним із способів обґрунтувати результати таких класифікаторів є порівняння їх з результатами базових класифікаторів та показ, що вони справді кращі, ніж передбачення випадкових випадків.
Наскільки я розумію, тут kappa
може бути дещо кращий вибір, оскільки враховується випадковий шанс . З капи Коена на звичайній англійській мові я розумію, що kappa
йдеться про концепцію отримання інформації:
[...] Спостережена точність у 80% набагато менш вражає, якщо очікувана точність 75% порівняно з очікуваною точністю 50% [...]
Тому мої запитання будуть:
- Чи правильно вважати,
kappa
що це краща класифікаційна метрика для цієї проблеми? - Чи просто використання
kappa
запобігає негативному впливу дисбалансу на алгоритм класифікації? Чи все-таки потрібне повторне (вниз / вгору) -пробоване навчання або навчання на основі витрат (див. Http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )?