VC-розмір k-найближчого сусіда


10

Що таке VC-розмір алгоритму k-найближчого сусіда, якщо k дорівнює кількості використовуваних навчальних балів?


Контекст: Це питання мені задавали в ході я взяв курс, і відповідь дано було 0. Я все ж не розумію, чому це так. Моя інтуїція полягає в тому, що VC-розмір повинен бути 1, тому що слід мати можливість вибору двох моделей (тобто наборів навчальних балів), щоб кожна точка була позначена як належність до одного класу відповідно до першої моделі та як належність до іншого класу згідно з другою моделлю, таким чином, слід мати можливість розбити одну точку. Де помилка в моїх міркуваннях?

Відповіді:


2

Ви кажете, що алгоритм: k-найближчий алгоритм сусіда з k = кількість використаних навчальних балів. Я визначаю це як jms-k-найближчий-сусід .

Оскільки розмір ВК - це найбільша кількість навчальних точок, які можуть бути зруйновані алгоритмом з помилкою поїзда 0, то розмір VC jms-k-найближчий-сусід може бути лише k або 0.

1 навчальний екземпляр => k = 1: Під час навчання jms-1-найближчий-сусід зберігає саме цей екземпляр. Під час застосування на абсолютно одному навчальному наборі один екземпляр є найближчим до збереженого навчального екземпляра (оскільки вони однакові), тому помилка тренування дорівнює 0.

Тож я згоден, розмір ВК - принаймні 1.

2 навчальних екземпляра => k = 2: Проблема може виникнути лише в тому випадку, якщо мітки відрізняються. У цьому випадку питання полягає в тому, як приймається рішення для етикетки класу. Більшість голосів не призводить до результату (VC = 0?), Якщо ми використовуємо мажоритарний голос, зважений у зворотному відстані, розмір VC дорівнює 2 (якщо припустити, що не дозволяється мати один і той же навчальний екземпляр двічі з різними мітками, у тому, що у випадку, коли розмір VC всіх алгоритмів буде 0 (я думаю).

Немає стандартного k-найближчого алгоритму сусіда, це більше сімейство з однаковою базовою ідеєю, але різними смаками, що стосується деталей реалізації.

Використовувані ресурси: слайди розмірної напруги Ендрю Мура


Дякую, це було дуже корисно. Я не знав, що випадки, за якими ви оцінюєте модель, повинні бути такими ж, як ті, що використовуються для тренування її параметрів. Мені доведеться трохи подумати над вашою відповіддю і згодом прийняти її.
Джуліус Максиміліан Стін
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.