Методи ядра можуть бути використані для проблем, що контролюються і не контролюються. Добре відомими прикладами є векторна машина підтримки та спектральне кластеризація ядра відповідно.
Методи ядра забезпечують структурований спосіб використання лінійного алгоритму в трансформованому просторі функцій, для якого перетворення, як правило, нелінійне (і до простору більш високого розміру). Основна перевага цього так званого фокусу ядра полягає в тому, що нелінійні візерунки можна знайти за розумною обчислювальною ціною.
Зауважимо, що я сказав, що обчислювальна вартість є розумною, але не незначною. Методи ядра зазвичай будують матрицю ядра з кількістю навчальних екземплярів. Отже, складність методів ядра є функцією кількості навчальних екземплярів, а не кількості вхідних розмірів. Наприклад, підтримуючі векторні машини мають складну підготовку між і . Для проблем з дуже великим ця складність наразі є надмірною.K∈RN×NNO(N2)O(N3)N
Це робить методи ядра дуже цікавими з обчислювальної точки зору, коли кількість розмірів велике і кількість зразків порівняно невелике (скажімо, менше 1 мільйона).
Пов'язане: Лінійне ядро та нелінійне ядро для підтримуючої векторної машини?
SVM для великих масштабних проблем
Для дуже високих задач щодо розмірів, таких як 10000
розміри, про які ви згадуєте у запитанні, часто не потрібно відображати простір вищих розмірних характеристик. Вхідний простір вже досить хороший. Для таких проблем лінійні методи набирають порядок швидше з майже однаковими прогнозними показниками. Приклади цих методів можна знайти в LIBLINEAR або Vowpal Wabbit .
Лінійні методи особливо цікаві, коли у вас є багато зразків у просторі вхідного простору. Якщо у вас всього зразків, використання методу нелінійного ядра також буде дешевим (оскільки малий). Якби у вас було, скажімо, зразків у розмірах , методи ядра були б нездійсненними.500N5.000.00010.000
Для низькомірних задач з багатьма навчальними екземплярами (так звані великі малих задач) лінійні методи можуть дати низьку точність прогнозування. Для таких проблем ансамблеві методи, такі як EnsembleSVM, забезпечують нелінійні межі рішення при значно знижених обчислювальних витратах порівняно зі стандартними SVM.Np
RBF
ядроlibsvm
, воно завжди переозброєне, класифікатор досягає високої точності, але низької точності в тестовому наборі. І якщо я знижую розмір перед класифікатором, а зменшені розміри наближаються до кількості навчальних зразків, класифікатор, можливо, досягну непоганого прибутку між навчальним і тестовим набором. Чи відповідають результати найбільш емпіричним результатам? Дякую.