Який тип нормалізації даних слід використовувати з KNN?


9

Я знаю, що існує більше двох типів нормалізації.

Наприклад,

1- Трансформація даних за допомогою z-оцінка або t-оцінка. Зазвичай це називається стандартизацією.

2- Розміщення даних для значень між 0 і 1.

Питання зараз, чи потрібно мені нормалізувати

Який тип нормалізації даних слід використовувати з KNN? і чому?

Відповіді:


11

Для k-NN я б запропонував нормалізувати дані між і 1 .01

k-NN використовує евклідову відстань як свій засіб порівняння прикладів. Для того, щоб розрахувати відстань між двома точками і х 2 = ( F 1 2 , F 2 2 , . . . , Е M 2 ) , де f i 1 - значення ix1=(f11,f12,...,f1M)x2=(f21,f22,...,f2M)f1ii-та особливість :x1

d(x1,x2)=(f11f21)2+(f12f22)2+...+(f1Mf2M)2

Щоб усі функції мали однакове значення при обчисленні відстані, функції повинні мати однаковий діапазон значень. Це досягається лише шляхом нормалізації.

Якщо вони не були нормалізовані і, наприклад, функція мала діапазон значень [ 0 , 1 ), тоді як f 2 мав діапазон значень у [ 1 , 10 ) . При обчисленні відстані другий доданок був би в 10 разів важливішим за перший, змушуючи k-NN більше покладатися на другу особливість, ніж на перший. Нормалізація забезпечує те, що всі функції відображаються в однаковому діапазоні значень.f1[0,1f2[1,10)10

З іншого боку, стандартизація має багато корисних властивостей, але не може гарантувати, що функції відображаються в одному діапазоні. Хоча стандартизація може бути найкращим чином підходить для інших класифікаторів, це не стосується k-NN або будь-якого іншого класифікатора на основі відстані.


4
Чи відповідь ваша буде однаковою, якщо я замість евклідової відстані використовував іншу відстань (наприклад, Манхеттенська відстань чи інша відстань, навіть дробова відстань)? Також якщо діапазон змінних приблизно близький один до одного.
jeza

7
f1[0,1)f2[0,1.2)f220%f1. Я забув зазначити одне, що стандартизація, очевидно, набагато краще, ніж не виконувати масштабування будь-яких функцій; це просто гірше, ніж нормалізація.
Djib2011

А, бачу. "це просто гірше, ніж нормалізація" !?
jeza
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.