Вибір оптимального K для КНН


15

Я здійснив 5-кратне резюме, щоб вибрати оптимальний K для KNN. І здається, що чим більший K отримує, тим менша помилка ...

введіть тут опис зображення

Вибачте, у мене не було легенди, але різні кольори представляють різні випробування. Всього їх 5, і, здається, між ними мало варіацій. Помилка завжди здається зменшуватися, коли K стає більше. Тож як я можу вибрати кращий К? Чи буде K = 3 хорошим вибором тут, оскільки рівень графіка вимикається після K = 3?


Що ти будеш робити з кластерами, як тільки знайдеш їх? Зрештою, це те, що ви збираєтеся робити з кластерами, створеними алгоритмом кластеризації, що допоможе визначити, чи варто використовувати більше кластерів для отримання невеликої помилки.
Брайан Борчерс

Я хочу високу прогностичну силу. У такому випадку ... чи варто йти з K = 20? Оскільки він має найнижчу помилку. Однак я насправді побудував помилки для K до 100. І 100 має найнижчу помилку з усіх ... тому я підозрюю, що помилка зменшиться зі збільшенням K. Але я не знаю, що таке хороша точка відсічення.
Адріан

Відповіді:


12

ккккк ніж менший, якщо різниця в помилках їх резюме незначна.

Якщо помилка CV не починає зростати знову, це, ймовірно, означає, що атрибути не є інформативними (принаймні для цієї метрики відстані), а надання постійних результатів - це найкраще, що може зробити.



0

Чи є за кількістю кластерів фізичний чи природний сенс? Якщо я не помиляюся, цілком природно, що в міру збільшення К похибка зменшується - на кшталт переоснащення. Замість того, щоб ловити на оптимальний K, його, мабуть, краще вибрати K на основі знань про домен чи певної інтуїції?


Я думаю, що ця відповідь буде більш підходящою для кластеризації k-засобів, а не k-nn класифікації чи регресії.
Дікран Марсупіал

Якщо k занадто великий, ви недооцінюєте його, тоді помилка знову зросте.
Джеймс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.