Дерево рішень чи логістична регресія?


14

Я працюю над проблемою класифікації. У мене є набір даних, що містить рівну кількість категоричних змінних і безперервних змінних. Як я дізнаюся, яку техніку використовувати? між деревом рішення та логістичною регресією?

Чи правильно вважати, що логістична регресія буде більш придатною для безперервної змінної, а дерево рішення буде більш придатним для безперервної + категоріальної змінної?


Чи можете ви додати більше деталей, таких як кількість рядків, кількість стовпців (також скільки категоричних / безперервних)?
Нітеш

Привіт @Nitesh, у мене є 32 вхідні змінні + 1 цільова змінна. Записи близькі до 2,5 лак за даними тренувань, і близько 1 лак даних тестування. Дані тестування застаріли.
Арун

Відповіді:


22

Довга коротка історія : зробіть те, що сказав @untitledprogrammer, спробуйте обидві моделі та перехресне підтвердження, щоб допомогти вибрати її.

Як дерева рішень (залежно від реалізації, наприклад, C4.5), так і логістична регресія повинні мати можливість добре обробляти безперервні та категоричні дані. Для логістичної регресії вам доведеться ввести код ваших категоричних змінних .

Як зазначав @untitledprogrammer, важко апріорі знати, яка методика буде краще базуватися просто на тих типах функцій, які ви маєте, безперервні чи інші. Це дійсно залежить від вашої конкретної проблеми та даних, які ви маєте. (Див. Теорему про безкоштовний обід )

Ви хочете мати на увазі, що модель логістичної регресії шукає єдину лінійну межу рішення у вашому просторі функцій, тоді як дерево рішення по суті розділяє ваш простір функцій на півпробіри, використовуючи лінійні межі рішення, орієнтовані на осі . Чистий ефект полягає в тому, що у вас є нелінійна межа рішення, можливо, більше однієї.

Це приємно, коли ваші дані даних не легко розділити однією гіперпланою, але, з іншого боку, дерева рішень настільки гнучкі, що вони можуть бути схильні до надмірного розміщення. Для боротьби з цим можна спробувати обрізку. Логістичний регрес, як правило, менш сприйнятливий (але не застрахований!) До надмірного пристосування.

хуху

Отже, ви повинні запитати себе:

  • яка межа рішення має більше сенсу у вашій конкретній проблемі?
  • як ви хочете збалансувати зміщення та дисперсію?
  • чи є взаємодія між моїми функціями?

Звичайно, завжди добре спробувати обидві моделі та зробити перехресну перевірку. Це допоможе вам з’ясувати, хто з них має більшу помилку узагальнення.


Рівно @Victor.
без

@Victor Дякую за дуже детальне пояснення.
Арун

6

Спробуйте використовувати як регресію, так і дерева рішень. Порівняйте ефективність кожної методики, використовуючи крос-валідацію в 10 разів. Дотримуйтесь тієї, що має більшу ефективність. Важко буде судити про те, який метод краще підходить, лише знаючи, що ваш набір даних є постійним та категоричним.


1

Це дійсно залежить від структури основного розподілу ваших даних. Якщо у вас є вагомі підстави вважати, що дані приблизні до розподілу Бернуллі, мультиноміальна логістична регресія буде добре працювати і даватиме інтерпретаційні результати. Однак якщо в базовому розподілі існують нелінійні структури, слід серйозно розглянути непараметричний метод.

Хоча ви можете використовувати дерево рішень як свій непараметричний метод, ви також можете розглянути питання про генерацію випадкового лісу - це, по суті, генерує велику кількість індивідуальних дерев рішень із підмножини даних, а кінцева класифікація - це агломероване голосування всіх дерев. . Випадковий ліс допомагає дати уявлення про частку кожної змінної передбачувача, що сприяє реагуванню.

Ще один фактор, про який слід пам’ятати, - інтерпретація. Якщо ви просто намагаєтеся класифікувати дані, то вам, ймовірно, не байдужі основні зв'язки між змінними пояснень та відповідями. Однак, якщо ви взагалі зацікавлені в інтерпретації, мультиноміальну логістичну регресію набагато простіше інтерпретувати, параметричні методи взагалі, оскільки вони роблять припущення про базовий розподіл, розповідають про більш інтуїтивно зрозумілі відносини.


0

Щоб використовувати Дерево рішень, вам слід перетворити безперервну змінну в категоричну.

Ще одне, що логістична регресія зазвичай використовується для прогнозування результату відповідно до ймовірності.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.