Чому середня функція в Гауссовому процесі нецікава?


28

Я щойно почав читати про GPs і аналогічно регулярному розподілу Гаусса, він характеризується середньою функцією та коваріаційною функцією або ядром. Я був на розмові, і доповідач сказав, що середня функція зазвичай досить нецікава, і всі висновки витрачаються на оцінку правильної функції коваріації.

Чи може хтось мені пояснити, чому так має бути?

Відповіді:


33

Я думаю, що я знаю, до чого виступав спікер. Особисто я не повністю згоден з нею / ним, і є багато людей, які цього не роблять. Але, щоб бути справедливим, є також багато хто робить :) Перш за все, зауважте, що визначення функції коваріації (ядра) означає уточнення попереднього розподілу по функціях. Просто змінюючи ядро, реалізація Гауссового процесу різко змінюється від дуже гладких, нескінченно диференційованих функцій, породжених ядром «Квадратне Експоненціа».

введіть тут опис зображення

до "колючих" недиференційованих функцій, що відповідають експоненціальному ядру (або ядра Матерна з )ν=1/2

введіть тут опис зображення

Інший спосіб бачити це - записувати середнє значення прогнозування (середнє значення прогнозів Гауссового процесу, отримане кондиціонуванням GP у навчальних балах) у тестовий пункт , у найпростішому випадку нульової середньої функції:x

y=kT(K+σ2I)1y

де - вектор коваріацій між тестовою точкою та навчальними точками , - матриця коваріації навчальних точок, - термін шуму (просто встановлено якщо ваша лекція стосувалася безшумних прогнозів, тобто інтерполяції Гауссового процесу), а - вектор спостережень у навчальному наборі. Як бачите, навіть якщо середнє значення попереднього GP дорівнює нулю, середнє значення прогнозування взагалі не дорівнює нулю, і залежно від ядра та кількості навчальних балів, це може бути дуже гнучка модель, здатна навчитися надзвичайно складні візерунки.x x 1 ,, x n Kσσ=0 y =( y 1 ,, y n )kxx1,,xnKσσ=0y=(y1,,yn)

Більш загально, саме ядро ​​визначає властивості узагальнення GP. Деякі ядра мають властивість універсального наближення , тобто вони, в принципі, здатні наближати будь-яку безперервну функцію на компактному підмножині до будь-якого заздалегідь заданого максимального допуску з урахуванням достатньої кількості балів.

Тоді навіщо взагалі дбати про середню функцію? Перш за все, проста середня функція (лінійна або ортогональна полінома) робить модель набагато більш зрозумілою, і цю перевагу не слід недооцінювати для моделі, такої гнучкої (таким чином, складної), як GP. По-друге, якимось чином нульове середнє значення (або, що варто, також постійне середнє) GP-тип відсмоктує передбачення далеко від даних тренувань. Багато стаціонарних ядер (крім періодичних ядер) такі, що дляdist ( x i , x ) y 0k(xix)0dist(xi,x). Ця конвергенція до 0 може статися напрочуд швидко, особливо з ядром Squared Exponential, і особливо, коли коротка довжина кореляції необхідна, щоб добре підходити до тренувального набору. Таким чином, GP з нульовою середньою функцією незмінно прогнозує як тільки ви вийдете з навчального набору.y0

Тепер це може мати сенс у вашій заявці: зрештою, часто погана ідея використовувати модель, керовану даними, для виконання прогнозів подалі від набору точок даних, які використовуються для підготовки моделі. Дивіться тут багато цікавих та цікавих прикладів, чому це може бути поганою ідеєю. У цьому відношенні нульовий середній GP, який завжди сходить на 0 від навчального набору, є більш безпечним, ніж модель (наприклад, багатоваріантна ортогональна поліноміальна модель високого ступеня), яка з радістю зніме шалено великі прогнози, як тільки ви відволікаєтесь від даних про навчання.

В інших випадках, однак, можливо, ви хочете, щоб ваша модель мала певну асимптотичну поведінку, яка не повинна сходитися до постійної. Можливо, фізичний розгляд скаже вам, що для достатньої ваша модель повинна стати лінійною. У такому випадку вам потрібна лінійна середня функція. Загалом, коли глобальні властивості моделі представляють інтерес для вашої програми, то вам доведеться звернути увагу на вибір середньої функції. Якщо вас цікавить лише локальна (близька до навчальних балів) поведінка вашої моделі, то нульового або постійного середнього GP може бути більш ніж достатньо.x


Дельта, чи знаєте ви, що було б хорошою середньою функцією?
Старий чоловік у морі.

1
@Anoldmaninthesea це багато що залежить від програми. Як я пояснив, якщо вам не потрібна інтерпретаційна модель, або ви не зацікавлені в прогнозах "далеко" від вашого навчального набору, було б, ймовірно, краще сконцентрувати свої зусилля на вдосконаленні функції коваріації, а не на середній функції
DeltaIV

1
Дельта, в моєму випадку мені потрібно спробувати зробити деякі прогнози, які можуть бути далеко від спостережуваних даних ... Я задав це питання тут stats.stackexchange.com/questions/375468/…
Старий у море.

6

Ми не можемо говорити від імені людини, яка читала лекцію; можливо, оратор мав на увазі іншу думку, коли доповідач зробив це твердження. Однак у випадку, якщо ви намагаєтеся побудувати передні прогнози з GP, функція постійного середнього має рішення закритої форми, яке можна точно обчислити. Однак, у випадку більш загальної середньої функції, ви повинні вдатися до приблизних методів, наприклад моделювання.

Крім того, функція коваріації контролює, наскільки швидко (і де) відбуваються відхилення від середньої функції, тому часто трапляється так, що більш гнучка / жорстка коваріаційна функція може бути "достатньо хорошою" для наближення більш багато прикрашеної середньої функції - яка знову надає доступ до зручних властивостей функції постійного середнього.


Дякую за пояснення. Так, я не міг задати своє питання і цікавився, чи є в цьому принципова причина.
Лука

6

Я дам вам пояснення, яке, мабуть, не малося на увазі оратором. У деяких програмах засоби завжди нудні. Наприклад, скажімо, що ми прогнозуємо продажі за допомогою авторегресивної моделі . Середня тривалість очевидно є . Цікаво? E [ y t ] μ = cyt=c+γyt1+etE[yt]μ=c1γ

Це залежить від вашої мети. Якщо ви після оцінки магазину, то це говорить про те , що ви повинні збільшити або зменшити збільшити значення магазина , так як значення визначається за формулою: , де є коефіцієнт знижки. Отже, середина явно цікава.γ V = μcγ r

V=μr
r

Якщо ви зацікавлені в ліквідності, тобто у вас є достатньо грошових коштів для покриття витрат в найближчі пару місяців, то це значення майже не має значення. Ви дивитесь на прогноз готівки наступного місяця: Тож продажі цього місяця зараз є фактором.y 0

y1=c+γy0
y0

6

Ну і дуже вагомою причиною є те, що середня функція може не жити в просторі функцій, які ви хочете моделювати. кожна точка входу, , може мати відповідне заднє середнє значення, . Однак ці задні середні точки - це очікування, перш ніж ви побачите будь-які інші дані. Тому є багато випадків, коли жодна ситуація, коли майбутні дані не створюють цю функцію. μ ( x i )xiμ(xi)

Простий приклад: Уявіть, що відповідає функції синуса з невідомим зміщенням, але відомим періодом та амплітудою. Попереднє середнє значення дорівнює нулю для всіх але постійна лінія не живе в просторі заданих нами функцій. Функція коваріації дає нам додаткову структурну інформацію.x


0

Простіше кажучи, середня функція домінує над коваріаційною функцією для входів «далеко» від спостережень.
Це спосіб ввести свої попередні знання в макродинаміку вашої системи.


1
Я не розумію вашої відповіді. Не могли б ви уточнити?
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.