Що таке розподіл по функціях?


15

Я читаю підручник Гауссовий процес для машинного навчання CE Расмуссена та CKI Williams, і у мене виникають проблеми з розумінням того, що означає розподіл за функціями . У підручнику наводиться приклад того, що слід уявити функцію як дуже довгий вектор (насправді вона повинна бути нескінченно довгою?). Тому я уявляю, що розподіл по функціях - це розподіл ймовірностей, проведений "вище" таких векторних значень. Тоді чи буде ймовірність, що функція прийме саме це значення? Або це буде ймовірність того, що функція прийме значення, яке знаходиться в заданому діапазоні? Або розподіл по функціях є ймовірністю, призначеною цілій функції?

Цитати з підручника:

Глава 1: Вступ, сторінка 2

Гауссовий процес - це узагальнення розподілу ймовірностей Гаусса. Якщо розподіл ймовірностей описує випадкові величини, які є скалярами або векторами (для багатоваріантних розподілів), стохастичний процес регулює властивості функцій. Залишаючи вбік математичної витонченості, можна вільно мислити функцію як дуже довгий вектор, кожен запис у векторі вказує значення функції f (x) на конкретному вході x. Виявляється, хоча ця ідея трохи наївна, вона напрочуд близька тому, що нам потрібно. Дійсно, питання про те, як ми обчислювально поводимося з цими нескінченними розмірними об'єктами, є найприємнішим вирішенням, яке можна уявити: якщо ви запитаєте лише властивості функції в кінцевій кількості точок,

Глава 2: Регресія, сторінка 7

Існує кілька способів інтерпретації регресійних моделей Гаусса (ГП). Гауссовий процес можна думати як визначення розподілу по функціях , а висновок, що відбувається безпосередньо в просторі функцій, вигляд простору функцій.


З початкового питання:

Я зробив цю концептуальну картину, щоб спробувати уявити це для себе. Я не впевнений, чи таке пояснення, яке я зробив для себе, є правильним.

введіть тут опис зображення


Після оновлення:

Після відповіді Гійса я оновив картину, щоб бути концептуально більш подібним:

введіть тут опис зображення


3
перевірити це для інтуїтивного пояснення jgoertler.com/visual-exploration-gaussian-process
bicepjai

Відповіді:


11

Поняття трохи абстрактніше, ніж звичайне розповсюдження. Проблема полягає в тому, що ми звикли до поняття розподілу по , як правило, показаного у вигляді рядка, а потім розгорнемо його на поверхню і так далі до розподілів по . Але простір функцій не може бути представлений у вигляді квадрата, лінії чи вектора. Це не злочин думати про це так, як ви, але теорія, яка працює в , що стосується відстані, мікрорайонів тощо (це відома як топологія простору), є не однакові в просторі функцій. Тож малювання його як квадрата може дати вам неправильну інтуїцію щодо цього простору.RR2RнRн

Ви можете просто уявити простір функцій як велику колекцію функцій, можливо, сумку речей, якщо хочете. Розподіл тут надає вам ймовірність складання підмножини цих речей. Розподіл скаже: ймовірність того, що ваш наступний розіграш (функції) знаходиться в цьому підмножині, становить, наприклад, 10%. У випадку Гауссового процесу на функції у двох вимірах, ви можете запитати, xзадавши -координату та інтервалy-значення, це невеликий відрізок вертикальної лінії, яка ймовірність, що через цю малу лінію пройде (випадкова) функція? Це буде позитивною ймовірністю. Отже, процес Гаусса визначає розподіл (вірогідність) по простору функцій. У цьому прикладі підмножиною простору функцій є підмножина, яка проходить через відрізок лінії.

Інша заплутана умова іменування тут полягає в тому, що розподіл зазвичай визначається функцією щільності , наприклад, формою дзвіночка з нормальним розподілом. Там область під функцією розподілу говорить вам, наскільки вірогідний інтервал. Однак це не працює для всіх дистрибутивів, і, зокрема, у випадку функцій (не як у звичайних дистрибутивах), це взагалі не працює. Це означає, що ви не зможете записати цей розподіл (як зазначено в процесі Гаусса) як функцію щільності.R


1
Дякую, щоб уточнити, це не розподіл за значеннями однієї функції, а натомість розподіл над колекцією функцій, правда? Ще одне питання, яке ви маєте: ви сказали, що це буде ймовірність того, що випадкова функція пройде через певний інтервал, тому в прикладі GPR це була б випадкова функція, але з певного "сімейства" функцій, заданих коваріаційне ядро?
camillejr

2
Так, це розподіл по колекції функцій. Приклад проходження через інтервал застосовується, якщо у вас є процес Гаусса. Ядро коваріації буде фактично задавати процес Гаусса. Отже, якщо ви знаєте коваріаційне ядро, ви можете обчислити ймовірність випадкової функції, що проходить через певний інтервал.
Gijs

@Gijs, будь ласка, погляньте на це , я шукаю інтуїцію на коваріаційній матриці і як різні умови кореляції все-таки призводять до подібних результатів з GP
GENIVI-LEARNER

14

Ваше запитання вже було задано і чудово відповіли на сайті Mathematics SE:

/math/2297424/extending-a-distribution-over-samples-to-a-distribution-over-functions

Здається, що ви не знайомі з поняттями Гауссових заходів щодо нескінченномірних просторів , лінійних функціоналів, прискорених заходів тощо, тому я постараюся зробити це максимально просто.

Ви вже знаєте, як визначити ймовірності за реальними числами (випадковими змінними) та над векторами (знову ж таки, випадковими змінними, навіть якщо ми їх зазвичай називаємо випадковими векторами). Тепер ми хочемо ввести міру ймовірності над нескінченномірним векторним простором: наприклад, простір квадратно-інтегруваних функцій над . Тепер речі ускладнюються, тому що коли ми визначали ймовірність на або , нам допомогло те, що міра Лебега визначається на обох просторах. Однак не існує міри Лебега щодоL2([0,1])Я=[0,1]RRнL 2L2(або будь-який нескінченномірний простір Банаха для цього питання). Існують різні рішення цієї головоломки, більшість з яких потребує хорошого ознайомлення з функціональним аналізом.

Однак є також простий "трюк", заснований на теоремі про розширення Колмогорова , який в основному є способом введення стохастичних процесів у більшості імовірнісних курсів, які не мають великої теоретичної міри. Зараз я буду дуже ручно хвилястим і нежорстким і обмежуватимусь випадками Гауссових процесів. Якщо ви хочете більш загальне визначення, ви можете прочитати вищевказану відповідь або переглянути посилання Вікіпедія. Теорема розширення Колмогорова, застосована до конкретного випадку використання, констатує більш-менш таке:

  • припустимо, що для кожного кінцевого набору точок , має багатовимірний розповсюдженняSн={т1,,тн}Яхн=(х(т1),,х(тн))
  • припустимо, що для всіх можливих , відповідні функції розподілу ймовірностей і є послідовними , тобто якщо я інтегрую щодо змінних, які знаходяться в але не в , то отриманий pdf є :Sн,Sм,SнSмfSн(х1,,хн)fSм(х1,,хн,хн+1,,хм)fSмSмSнfSн

Rн-м+1fSм(х1,,хн,хн+1,,хм)гхн+1гхм=fSн(х1,,хн)

  • тоді існує стохастичний процес , тобто випадкова величина на просторі функцій , така що для кожного кінцевого безлічі розподіл ймовірності цих точок є багатовимірним гауссовим.ХL2Sнн

Фактична теорема набагато більш загальна, але я думаю, це саме те, що ви шукали.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.