Чи завжди оцінювачі дерев упереджені?


9

Я роблю домашнє завдання з «Дерева рішень», і одне з питань, на яке я маю відповісти, - «Чому оцінювачі побудовані з дерев упереджено, і як мішок допомагає зменшити їх відмінність?».

Тепер я знаю, що переоснащені моделі, як правило, мають дуже низький ухил, оскільки вони намагаються вмістити всі точки даних. І у мене був сценарій в Python, який підходив до дерева до деякого набору даних (з однією функцією. Це був просто синусоїд, з деякими відключеними точками, малюнок нижче). Отже, я замислювався: "добре, якщо я реєтифікую надмірні дані, чи можу я отримати зміщення до нуля?" І виявилося, що навіть при глибині 10000 все ще є деякі точки, через які крива не проходить.

введіть тут опис зображення

Я намагався шукати чому, але я не зміг знайти пояснення. Я здогадуюсь, що можуть бути якісь дерева, які б ідеально пройшли через усі пункти, і що ті, що я отримали, були просто «невдачами». Або, можливо, інший набір даних міг би дати мені неупереджений результат (можливо, ідеальний синусоїд?). Або навіть це, можливо, скорочення, зроблені на початку, унеможливили подальше скорочення повністю розділити всі точки.

Отже, беручи до уваги цей набір даних (оскільки це може бути різним для інших), моє запитання таке: чи можна переобладнати дерево до точки, коли ухил переходить до нуля, чи завжди буде якийсь ухил, навіть якщо насправді маленький? І якщо завжди є хоч якісь упередження, чому це відбувається?

PS Я не знаю, чи це може бути актуально, але я використовував функцію DecisionTreeRegressorвід, sklearnщоб пристосувати модель до даних.


3
Ласкаво просимо на наш сайт! Зауважте, що у запитанні не потрібно додавати "заздалегідь подяку", найкраще висловити подяку - почекати, поки ви отримаєте кілька відповідей, і прийміть (зелений галочок) той, хто вам найбільше допоміг! Якщо ви ще цього не зробили, чому б не заглянути в наш тур, щоб побачити, як працює цей сайт?
Срібляста рибка

3
Розглянемо функцію y = 0, і ти намагаєшся помістити y = f (x), де x приймає деякі випадкові значення. Чи упереджений оцінювач дерева рішень у цьому загальноприйнятому кутовому випадку?
jbowman

Відповіді:


10

Модель дерева рішень не завжди є упередженою, ніж будь-яка інша модель навчання.

Для ілюстрації розглянемо два приклади. ДозволяєX бути випадковою рівномірною змінною на [0,1]. Тут можливі статистичні процеси

Істина 1: Y дано X є індикаторною функцією X плюс плюс шум:

YXI<.5(X)+N(0,1)

Істина 2: Y дано X є лінійною функцією X, плюс шум:

YXX+N(0,1)

Якщо ми вписуємося дерево рішень в обох ситуаціях, модель ООН є упередженим в першій ситуації, але буде зміщена в секунду. Це тому, що одне роздвоєне двійкове дерево може відновити справжню базову модель даних у першій ситуації. По-друге, найкраще, що може зробити дерево, - це наближення лінійної функції, перемішуючи кроки через все більш точні проміжки часу - дерево кінцевої глибини може лише наблизитися до цього.

Якщо ми підходимо до лінійної регресії в обох ситуаціях, модель є упередженою у першій ситуації, але упередженою у другій.

Отже, щоб знати, чи є модель упередженою, потрібно знати, що є справжнім базовим механізмом даних. У реальних життєвих ситуаціях ви просто ніколи цього не знаєте, тому ви ніколи не можете сказати, чи є модель у реальному житті упередженою чи ні. Іноді ми вважаємо, що давно ми маємо абсолютно рацію, але тоді упередження виникає з глибшим розумінням (гравітація Ньютона до тяжкості Ейнштейна - принаймні апокрифний приклад).

У певному сенсі ми очікуємо, що більшість реальних процесів світу (за деякими винятками) є настільки незрозумілими, що достатньо розумним наближенням істини є те, що всі наші моделі упереджені. Я дещо сумніваюся, що це запитання вимагає глибокої філософської дискусії про сутнісну марність моделювання складного статистичного процесу, але цікаво думати.


0

Той факт, що деякі моменти у ваших даних все ще не прогнозуються, може бути наслідком чогось, що називається непридатною помилкою. Теорія полягає в тому, що в машинному навчанні є приводиться помилка і невідправна помилка. Ідея невиправної помилки полягає в тому, що якою б хорошою не була ваша модель, вона ніколи не буде ідеальною. Це пов’язано з кількома причинами. По-перше, якими б надійними не були ваші тренувальні функції, завжди буде якась прихована функція, що впливає на результат, який не містять ваші навчальні дані. Ще одна причина полягає в тому, що майже у всіх даних неодмінно існують певні люди. Ви завжди можете намагатися зробити свої моделі максимально надійними для людей, що не дожили, але як би ви не старалися, люди, що існують, завжди будуть існувати. (Це не означає, що вам не слід думати про випускників під час створення своїх моделей). І остання деталь - це те, що ти не робиш

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.