Я думаю, що ключ до магії - це гладкість. Моя довга відповідь, яка випливає, - просто пояснити цю гладкість. Це може бути, а може і не бути відповіддю, якого ви очікуєте.
Коротка відповідь:
Враховуючи позитивне певне ядро , існує відповідний йому простір функцій . Властивості функцій визначаються ядром. Виявляється, якщо - ядро Гаусса, функції в дуже гладкі. Отже, засвоєна функція (наприклад, регресійна функція, основні компоненти в RKHS як у PCA ядра) дуже гладка. Зазвичай припущення про гладкість є розумним для більшості наборів даних, з якими ми хочемо вирішити. Це пояснює, чому ядро Гаусса магічне.H k HkHkH
Довга відповідь, чому ядро Гаусса дає гладкі функції:
Позитивне певне ядро визначає (неявно) внутрішній продукт
для векторного функції побудованого з вашого вводу , а
- простір Гільберта. Позначення
означає внутрішній продукт між та . Для нашої мети ви можете уявити звичайним евклідовим простором, але, можливо, з нескінченною кількістю вимірів. Уявіть звичайний вектор, який нескінченно довгий, якдо ( х , у ) = ⟨ ф ( х ) , ф ( у ) ⟩ Н ф ( х ) х Н ⟨ ф ( х ) , ф ( у ) ⟩ ф ( х ) ф ( у ) H ϕ ( x ) = ( ϕ 1 ( x)k(x,y)k(x,y)=⟨ϕ(x),ϕ(y)⟩Hϕ(x)xH⟨ϕ(x),ϕ(y)⟩ϕ(x)ϕ(y)H Н е ( х ) = ⟨ F , φ ( хϕ(x)=(ϕ1(x),ϕ2(x),…). У методах ядра - це простір функцій, що називається відтворенням простору Гільберта ядра (RKHS). У цьому просторі є особливе властивість, яке називається `` відтворює властивість '', тобто . Це говорить про те, що для оцінки спочатку ви побудуєте вектор функції (нескінченно довгий, як згадувалося) для . Тоді ви будуєте свій вектор функцій для позначеного (нескінченно довгий). Оцінка дається шляхом взяття внутрішнього добутку двох. Очевидно, що на практиці ніхто не сконструює нескінченно довгий вектор. Оскільки ми дбаємо лише про його внутрішній продукт, ми просто безпосередньо оцінюємо ядроHf(x)=⟨f,ϕ(x)⟩f(x)fxϕ(x)f(x)k. Обхід обчислення явних особливостей і безпосередньо обчислення його внутрішнього продукту відомий як "хитрість ядра".
Які особливості?
Я продовжував говорити функції не вказуючи, що вони є. З огляду на ядро , функції не унікальні. Але
визначається однозначно. Для пояснення плавності функцій розглянемо функції Фур'є. Припустимо, інваріантне ядро перекладу , що означає
тобто ядро залежить лише від різниці двох аргументів. Ядро Гаусса має цю властивість. Нехай позначає перетворення Фур'є в .ϕ1(x),ϕ2(x),…k⟨ϕ(x),ϕ(y)⟩kk(x,y)=k(x−y)k^k
У цій точці зору Фур'є функції
задаються . Це говорить про те, що представлення функції вашої функції
задається її перетворенням Фур'є, поділеним на перетворення Фурера ядра . Представлення функції , яке є
є
де . Можна показати, що властивість відтворюючої властивості (вправа для читачів).ff:=(⋯,f^l/k^l−−√,⋯)fkxϕ(x)(⋯,k^l−−√exp(−ilx),⋯)i=−1−−−√
Як і в будь-якому просторі Гільберта, всі елементи, що належать до простору, повинні мати кінцеву норму. Розглянемо норму квадрата :f∈H
∥f∥2H=⟨f,f⟩H=∑∞l=−∞f^2lk^l.
Отже, коли ця норма є кінцевою, тобто належить до простору? Це коли падає швидше, ніж так що сума сходить. Тепер перетворення Фур'є ядра Гауссаff^2lk^l k(x,y)=exp(−∥x−y∥2σ2)
є ще одним Гауссом, де зменшується експоненціально швидко з . Отже, якщо має бути в цьому просторі, його перетворення Фур'є повинно падати навіть швидше, ніж . Це означає, що ця функція ефективно матиме лише декілька низькочастотних компонентів з великою вагою. Сигнал із лише низькочастотними компонентами не дуже «махає». Це пояснює, чому ядро Гаусса дає вам плавну функцію.k^llfk
Додатково: Що з ядром Лапласа?
Якщо розглядати ядро Лапласа ,
його перетворення Фур'є є розподілом Коші, яке падає набагато повільніше, ніж експонентне функція в перетворенні Фур'є ядра Гаусса. Це означає, що функція матиме більше високочастотних компонентів. Як результат, функція, яку надає ядро Лапласа, є "більш грубою", ніж функція, отримана ядром Гаусса.k(x,y)=exp(−∥x−y∥σ)f
Яка властивість ядра Гаусса, якого не мають інші ядра?
Незалежно від ширини Гаусса, одна властивість полягає в тому, що ядро Гаусса є `` універсальним ''. Інтуїтивно це означає, що враховуючи обмежену безперервну функцію (довільна), існує функція така, що і
близькі (у значенні аж до необхідної точності. В основному, це означає, що ядро Гаусса надає функції, здатні довільно наближати "приємні" (обмежені, безперервні) функції. Ядра Гаусса та Лапласа універсальні. Поліноміальне ядро, наприклад, не є.gf∈Hfg∥⋅∥∞)
Чому ми не ставимо норму через, скажімо, Кош-PDF і не очікуємо однакових результатів?
Загалом, ви можете робити все, що завгодно, до тих пір, поки отриманий
буде позитивним. Позитивна визначеність визначається як
для всіх , і всіх
(набір натуральних чисел) . Якщо не є позитивно визначеним, то воно не відповідає внутрішньому простору продукту. Весь аналіз порушується, оскільки у вас навіть немає простору функцій
як згадувалося. Тим не менш, це може працювати емпірично. Наприклад, гіперболічне дотичне ядро (див. Номер 7 на цій сторінці )k∑Ni=1∑Nj=1k(xi,xj)αiαj>0αi∈R{xi}Ni=1N∈NkH
k(x,y)=tanh(αx⊤y+c)
який призначений для імітації сигмоїдних активаційних одиниць в нейронних мережах, є лише позитивним певним для деяких параметрів і . Ще повідомлялося, що це працює на практиці.αc
А як щодо інших видів функцій?
Я сказав, що особливості не унікальні. Для ядра Гаусса ще один набір функцій надає розширення Mercer . Дивіться розділ 4.3.1 відомої книги про Гаусса . У цьому випадку ознаками є поліноми Герміта, оцінені на .ϕ(x)x