Розуміння регресії Гауссова процесу через нескінченний розмірний вигляд функції


14

Часто говорять, що регресія гауссового процесу відповідає (GPR) байєсовій лінійній регресії з (можливо) нескінченною кількістю базових функцій. Зараз я намагаюся детально зрозуміти це, щоб зрозуміти, які моделі я можу виразити за допомогою GPR.

  1. Ви вважаєте, що це хороший підхід, щоб спробувати зрозуміти GPR?

У книзі Гауссових процесів машинного навчання Расмуссена та Вільямса показано, що сукупність гауссових процесів, описаних параметризованим експоненціальним квадратним ядром можна рівнозначно охарактеризувати як байєсівську регресію з попередньою вірою на ваги і нескінченну кількість базових функцій форма Таким чином, параметризація ядра могла б повністю перевестись у параметризацію бази функції.wN(0,σ 2 p I)ϕc(x;l)=exp(-(x-c)2

к(х,х';л)=σp2досвід(-(х-х)22л2)
шN(0,σp2Я)
ϕc(х;л)=досвід(-(х-c)22л2)
  1. Чи може параметризація диференційованого ядра завжди переводитися на параметризацію попередньої та базової функцій чи є диференційовані ядра, де, наприклад, кількість базових функцій залежить від конфігурації?

Поки я розумію, що для функції фіксованого ядра k (x, x ') теорема Мерсера говорить нам, що можна виразити як де є функцією або в числових числах, або в складних числах. Таким чином, для даного ядра відповідна байєсова регресійна модель має попередній та базові функції . Таким чином, кожен GP може навіть сформулюватися як байєсова модель лінійної регресії з діагональною попередньою. Однак якщо ми зараз використовуємо теорему мерсерів для кожної конфігурації параметризованого ядра що диференціюється у кожномук(х,х')

к(х,х')=i=1λiϕi(х)ϕi(х')
ϕiшN(0,діагностувати([λ12,]))ϕiк(х,х',θ)θ відповідні власні значення та власні функції можуть відрізнятися для кожної конфігурації.

Наступне моє запитання - про обернену теорему про найманців.

  1. Які набори базових функцій призводять до дійсних ядер?

І розширення

  1. Які набори параметризованих базових функцій призводять до дійсних диференційованих ядер?

Відповіді:


1

Ось кілька зауважень. Можливо, хтось ще може заповнити деталі.

1) Основні уявлення - це завжди хороша ідея. Важко уникнути їх, якщо ви хочете насправді зробити щось обчислювальне зі своєю функцією коваріації. Розширення бази може дати вам наближення до ядра та з чим працювати. Сподіваємось, що ви зможете знайти основу, яка має сенс для проблеми, яку ви намагаєтеся вирішити.

θθ

Зазвичай кількість базових функцій буде (незмінно) нескінченним, тому число не буде змінюватися залежно від параметра, якщо тільки деякі значення не призведуть до виродження ядра.

шN(0,гiаг[λ12,])шгiаг[λ12,]

3) Який набір базових функцій утворює дійсні ядра? Якщо ви думаєте про власну основу, то функції повинні бути ортогональними щодо певної міри. Є дві проблеми. 1) Отримане ядро ​​повинно бути певним ... і це нормально, якщо позитивні. І 2) розширення має сходитися. Це залежатиме від , які потрібно досить швидко затухати, щоб забезпечити конвергенцію виразу. Конвергенція також буде залежати від області 'sλiλiх

Якщо основні функції не є ортогональними, то буде складніше показати, що визначена від них коваріація є позитивно визначеною. Очевидно, що в цьому випадку ви маєте справу не з власним розширенням, а з іншим способом наближення функції, що цікавить.

Однак я не думаю, що люди зазвичай починають з купки функцій, а потім намагаються створити з них ядро ​​коваріації.

RE: Диференціальність ядра та диференційованість базових функцій. Насправді я не знаю відповіді на це питання, але я б запропонував таке зауваження.

Функціональний аналіз відбувається шляхом апроксимації функцій (з нескінченного просторового простору) кінцевими сумами більш простих функцій. Щоб зробити цю роботу, все залежить від типу зближення. Як правило, якщо ви працюєте над компактним набором із сильними властивостями конвергенції (рівномірна конвергенція або абсолютна сукупність) на цікавлять вас функції, то ви отримуєте такий інтуїтивний результат, який шукаєте: властивості простих функцій переходять на гранична функція - наприклад, якщо ядро ​​є диференційованою функцією параметра, то функції розширення повинні бути диференційованими функціями того ж параметра, і навпаки. За слабших властивостей конвергенції або некомплектних областей цього не відбувається. На моєму досвіді, є контр-приклад кожної "розумної" ідеї, яку можна придумати.

Примітка. Щоб запобігти можливим плутанинам читачів цього питання, зауважте, що розширення точки 1 Гаусса не є прикладом власного розширення точки 2.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.