Чи важливо зробити нормалізацію для SVM та Random Forest?


Відповіді:


29

Відповідь на ваше запитання залежить від того, яку функцію подібності / відстані ви плануєте використовувати (у SVM). Якщо це проста (не зважена) евклідова відстань, то якщо ви не нормалізуєте свої дані, мимоволі надаєте деяким функціям більше значення, ніж інші.

Наприклад, якщо ваш перший вимір становить від 0-10, а другий - від 0-1, різниця 1 у першому вимірі (лише десята частина діапазону) вносить стільки ж в обчислення відстані, скільки два диво різні значення в другий вимір (0 і 1). Отже, роблячи це, ви перебільшуєте невеликі відмінності в першому вимірі. Можна, звичайно, придумати спеціальну функцію відстані або зважити свої розміри за оцінками експерта, але це призведе до безлічі настроюваних параметрів залежно від розмірності ваших даних. У цьому випадку нормалізація - це простіший шлях (хоча і не обов'язково ідеальний), оскільки можна принаймні почати роботу.

Нарешті, все ж для SVM, ще одна річ, яку ви можете зробити, - це створити функцію подібності, а не функцію відстані, і підключити її до ядра (технічно ця функція повинна генерувати позитивні визначені матриці). Ця функція може бути побудована будь-яким способом, який вам подобається, і може враховувати невідповідність діапазонів функцій.

З іншого боку, для випадкових лісів, оскільки одна особливість ніколи не порівнюється з іншими ознаками, діапазони не мають значення. Це лише діапазон однієї функції, яка розділяється на кожному етапі.


12

Випадковий Ліс інваріантний монотонним перетворенням індивідуальних рис. Переклади або масштабування за ознаками нічого не змінить для Випадкового лісу. SVM, ймовірно, зробить краще, якщо ваші функції мають приблизно однакову величину, якщо ви не знаєте, що деякі особливості набагато важливіші за інші, і в цьому випадку це нормально, щоб вона мала більшу величину.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.