Чи потрібно нормалізувати дані, будуючи дерева рішень за допомогою R?

Отже, наш набір даних цього тижня має 14 атрибутів, і кожен стовпець має дуже різні значення. Один стовпець має значення нижче 1, а інший - у трьох-чотирьох цілих цифр.

Ми дізналися про нормалізацію минулого тижня, і, здається, ви повинні нормалізувати дані, коли вони мають дуже різні значення. Чи стосується дерев рішень?

Я не впевнений у цьому, але чи нормалізація вплине на дерево рішень, що випливає з того ж набору даних? Здається, не так, як слід, але ...

r beginner

— Джі
джерело

На найбільш поширені типи дерев рішень, з якими ви стикаєтесь, не впливає жодна монотонна трансформація. Отже, доки ви зберігаєте орде, дерева рішень однакові (очевидно, за тим самим деревом тут я розумію ту саму структуру рішення, а не однакові значення для кожного тесту у кожному вузлі дерева).

Причина, чому це відбувається, полягає в тому, як працюють звичайні домішки. Для того, щоб знайти найкращий розділ, він шукає в кожному вимірі (атрибуті) точку розбиття, яка в основному є клавіше if, яке групує цільові значення, відповідні екземплярам, які мають тестове значення менше, ніж розділене значення, а праворуч значення більше, ніж рівне. Це трапляється для числових атрибутів (на мою думку, це ваш випадок, тому що я не знаю, як нормалізувати номінальний атрибут). Тепер ви можете відзначити, що критерії менші або більші за. Що означає, що реальна інформація з атрибутів для того, щоб знайти розкол (і все дерево) - це лише порядок значень. Що означає, що поки ви трансформуєте свої атрибути таким чином, щоб оригінальне впорядкування було зарезервоване, ви отримаєте те саме дерево.

Не всі моделі нечутливі до такого роду перетворень. Наприклад, моделі лінійної регресії дають однакові результати, якщо ви помножите атрибут на щось інше, ніж нуль. Ви отримаєте різні коефіцієнти регресії, але передбачуване значення буде однаковим. Це не той випадок, коли ви приймаєте журнал перетворення. Так, наприклад, для лінійної регресії нормалізація марна, оскільки вона дасть той же результат.

Однак це не так з пеналізованою лінійною регресією, як регресія хребта. У пенізованих лінійних регресіях застосовується обмеження на коефіцієнти. Ідея полягає в тому, що обмеження застосовується до суми функції коефіцієнтів. Тепер, якщо ви надуєте атрибут, коефіцієнт буде спущений, а значить, врешті-решт пеналізація для цього коефіцієнта буде штучно модифікована. У такій ситуації ви нормалізуєте атрибути, щоб кожен коефіцієнт був обмежений "справедливо".

Сподіваюся, це допомагає

— rapaio
джерело