Розуміння параметрів функції Гаусса Базиса, що використовуються в лінійній регресії


12

Я хотів би застосувати функцію бази Гаусса в реалізації лінійної регресії. На жаль, мені важко зрозуміти пару параметрів у базовій функції. Зокрема μ і σ .

Мій набір даних - матриця 10 000 х 31. 10 000 зразків та 31 особливість. Я читав, що "Кожна основна функція перетворює вхідний вектор x у скалярне значення". Тож я припускаю, що х - 1 зразок, тому 1 х 31 вектор. Звідси я розгублений. Що саме є параметром μj ? Я читав, що це регулює розташування базових функцій. Так це не означає щось? Мене також відкидає підрядник j ( μ і ϕ ), це змушує мене думати j-й ряд. Але це, здається, не має сенсу. Чи μj вектор? Тепер для σщо "керує просторовою шкалою". Що саме це? Я бачив деякі реалізації, які намагаються використовувати такі параметри, як .1, .5, 2.5 для цього параметра. Як обчислюються ці значення? Я займався дослідженнями і шукав приклади, з яких можна навчитися, але поки що не зміг знайти жодного. Будь-яка допомога чи напрямок дуже вдячні! Дякую.

Відповіді:


11

Оскільки ви плутаєтесь, дозвольте мені почати з констатації проблеми та вирішення ваших питань по черзі. У вас є розмір вибірки 10000, і кожен зразок описується функціональним вектором . Якщо ви хочете виконати регресію за допомогою функцій радіальної бази Гаусса, тоді шукайте функцію вигляду f ( x ) = j w jg j ( x ; μ j , σ j ) , j = 1 .. m, де г яxR31

f(x)=jwjgj(x;μj,σj),j=1..m
giваші базові функції. В Зокрема, вам потрібно знайти ваги ж J так , що для заданих параметрів М J і сг J мінімізувати помилку між у і відповідним прогнозом у = ф ( х ) - як правило , ви будете мінімізувати помилку найменших квадратів.mwjμjσjyy^f(x^)

Що саме є параметром Mu індексу j?

Вам потрібно знайти базисні функції g j . (Ще потрібно визначити число m ) Кожна базисна функція матиме μ j та σ j (також невідомо). Підписка j коливається від 1 до m .mgjmμjσjj1m

Чи вектор?μj

Так, це точка в . Іншими словами, це точка десь у вашому просторі функцій, і μ має визначатися для кожної з m базових функцій.R31μm

Я читав, що це регулює розташування базових функцій. Так це не означає щось?

jthμj

Тепер для сигми, яка "керує просторовою шкалою". Що саме це?

σ

R1R2R1σσσσσ

R1xgj(x)gj(x)gj(x)

Кожна основна функція перетворює вхідний вектор x у скалярне значення

xR31

exp(xμj222σj2)

У результаті ви отримуєте скаляр. Скалярний результат залежить від відстані точки від центру заданогоі скаляр .xμjxμjσj

Я бачив деякі реалізації, які намагаються використовувати такі параметри, як .1, .5, 2.5 для цього параметра. Як обчислюються ці значення?

Звичайно, це один із цікавих і складних аспектів використання функцій радіальної основи Гаусса. якщо здійснити пошук в Інтернеті, ви знайдете багато пропозицій щодо визначення цих параметрів. Я дуже просто викладу одну можливість, засновану на кластеризації. Ви можете знайти цю та кілька інших пропозицій в Інтернеті.

Почніть з кластеризації 10000 зразків (ви можете спочатку використовувати PCA для зменшення розмірів, після чого кластеризується k-Means). Ви можете дозволити - кількість кластерів, які ви знайдете (як правило, використовуючи перехресну перевірку для визначення найкращого ). Тепер створіть радіальну функцію для кожного кластеру. Для кожної радіальної функції нехай буде центром кластера (наприклад, середнім, центроїдом тощо). Нехай відображає ширину кластера (наприклад, радіус ...) Тепер продовжуйте і виконайте свою регресію (цей простий опис - лише огляд - для цього потрібно багато роботи на кожному кроці!)mmgjμjσj

* Звичайно, крива дзвінка визначається від - до тому матиме значення скрізь на лінії. Однак значення, далекі від центру, незначні


Гарна відповідь! Однак, шукаючи , чи не закінчимося з регресією машинного вектора підтримки (з гауссовим ядром)? μ
O_Devinyak

@ O_Devinyak - Багато методів розширення бази вимагають певної оцінки параметрів. Є багато способів знайти тому я не думаю, що це обов'язково означає, що ми зводимо проблему до SVR. Якщо чесно, я не фахівець з SVR, але функція втрат, яка зведена до мінімуму, безумовно, відрізняється, і я впевнений, що багато функцій ігноруються - ось спосіб підтримки вектора. За допомогою базових функцій ми використовуємо всі функції для оцінки, але, на щастя, компактна підтримка означає, що багато базових функцій повертають незначні або нульові значення. У будь-якому разі, на цьому форумі було б гарне запитанняμ
мартіно

Навіщо нам потрібна шкала а не коваріаційна матриця, яка б зробила базову функцію схожою на експоненціальну частину багатоваріантного Гаусса? σj
стік потоку

1

Дозвольте спробувати дати просте пояснення. У такому позначенні може бути номером рядка, але може бути і номером функції. Якщо ми запишемо то позначає номер функції, - стовпець-вектор, - скалярний, а - стовпець -вектор. Якщо ми запишемо то позначає номер рядка, - скалярний, - стовпець-вектор, а - вектор-рядок. Позначення, де позначає рядок, а позначає стовпець, є більш поширеним, тому скористаємося першим варіантом.jy=β0+j=1:31βjϕj(x)jyβjϕj(x)yj=βϕj(x)jyjβϕj(x)ij

Введення базисної функції Гаусса в лінійну регресію, (скалярна) тепер залежить не від числових значень ознак (вектор), а від відстаней між та центром усіх інших точок . Таким чином, не залежить від того, чи є величина ї характеристики -го спостереження високою чи малою, але залежить від того, чи -ве значення функції близьке чи далеко від середнього для цієї -події . Отже не є параметром, оскільки його неможливо настроїти. Це лише властивість набору даних. Параметрx i x i μ i y i j i j j μ i j μ j σ 2 y y σ 2yixixiμiyijijjμijμjσ2є скалярним значенням, воно контролює плавність і може бути налаштоване. Якщо вона невелика, невеликі зміни відстані матимуть великий ефект (згадайте крутий гаусс: усі точки, розташовані вже на невеликій відстані від центру, мають крихітні значення ). Якщо вона велика, невеликі зміни відстані матимуть низький ефект (пам’ятайте плоский гаусс: зменшення при збільшенні відстані від центру повільне). Оптимальне значення слід шукати (воно зазвичай зустрічається з перехресною валідацією).yyσ2


0

Функції основи Гаусса у багатоваріантних налаштуваннях мають багатоваріантні центри. Якщо припустити, що ваш , то також . Gaussian повинен бути багатовимірними, тобто , де є коваріаційна матриця. Індекс не є складовою вектора, це просто й вектор. Аналогічно, - -та матриця. μ jR 31 e ( x - μ j ) Σ - 1 j ( x - μ j ) Σ jR 31 × 31 j j Σ j jxR31μjR31e(xμj)Σj1(xμj)ΣjR31×31jjΣjj

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.