Якщо у вас є такий великий набір даних, ви можете грати з будь-якою із методик моделювання статистичного та машинного навчання, що дуже рекомендується. Як і інші поради, я також рекомендую взяти з даних кілька мільйонів випадкових вибірок і пограти з цим. Оскільки це проблема класифікації, я б спершу застосував прості методи класифікації, а потім пішов з більш складними. Логістичний регрес чудово починати.
Я хотів додати, що генеративні моделі також повинні бути випробувані. Класифікатор Naive Bayes - один із найпростіших імовірнісних класифікаторів, і він перевершує багато складних методів, таких як підтримка векторних машин у багатьох завданнях. Ви можете подивитися на цю просту реалізацію NB та це посиланням для порівняння NB логістичної регресії.
Можна створити класифікатор Naive bayes (NB) як базову модель, а потім застосувати будь-яку техніку машинного навчання, наприклад, машини підтримки вектора (SVM) або багатошарові перцептрони (MLP). Тут можна сказати, що NB обчислювально дешевше, ніж MLP, тому бажані кращі показники від MLP.
До вашого точного запиту: Глибоке вивчення та збільшення градієнтного дерева є дуже потужними методами, які можуть моделювати будь-які відносини в даних. Але що робити, якщо у вашому випадку проста логістична регресія або NB надає бажану точність. Тому завжди краще спершу спробувати прості прийоми та мати базову продуктивність. Тоді можна перейти до складних моделей і порівняти з базовою лінією.