Довга коротка історія : зробіть те, що сказав @untitledprogrammer, спробуйте обидві моделі та перехресне підтвердження, щоб допомогти вибрати її.
Як дерева рішень (залежно від реалізації, наприклад, C4.5), так і логістична регресія повинні мати можливість добре обробляти безперервні та категоричні дані. Для логістичної регресії вам доведеться ввести код ваших категоричних змінних .
Як зазначав @untitledprogrammer, важко апріорі знати, яка методика буде краще базуватися просто на тих типах функцій, які ви маєте, безперервні чи інші. Це дійсно залежить від вашої конкретної проблеми та даних, які ви маєте. (Див. Теорему про безкоштовний обід )
Ви хочете мати на увазі, що модель логістичної регресії шукає єдину лінійну межу рішення у вашому просторі функцій, тоді як дерево рішення по суті розділяє ваш простір функцій на півпробіри, використовуючи лінійні межі рішення, орієнтовані на осі . Чистий ефект полягає в тому, що у вас є нелінійна межа рішення, можливо, більше однієї.
Це приємно, коли ваші дані даних не легко розділити однією гіперпланою, але, з іншого боку, дерева рішень настільки гнучкі, що вони можуть бути схильні до надмірного розміщення. Для боротьби з цим можна спробувати обрізку. Логістичний регрес, як правило, менш сприйнятливий (але не застрахований!) До надмірного пристосування.
х уху
Отже, ви повинні запитати себе:
- яка межа рішення має більше сенсу у вашій конкретній проблемі?
- як ви хочете збалансувати зміщення та дисперсію?
- чи є взаємодія між моїми функціями?
Звичайно, завжди добре спробувати обидві моделі та зробити перехресну перевірку. Це допоможе вам з’ясувати, хто з них має більшу помилку узагальнення.