Я думаю, що я знаю, до чого виступав спікер. Особисто я не повністю згоден з нею / ним, і є багато людей, які цього не роблять. Але, щоб бути справедливим, є також багато хто робить :) Перш за все, зауважте, що визначення функції коваріації (ядра) означає уточнення попереднього розподілу по функціях. Просто змінюючи ядро, реалізація Гауссового процесу різко змінюється від дуже гладких, нескінченно диференційованих функцій, породжених ядром «Квадратне Експоненціа».
до "колючих" недиференційованих функцій, що відповідають експоненціальному ядру (або ядра Матерна з )ν=1/2
Інший спосіб бачити це - записувати середнє значення прогнозування (середнє значення прогнозів Гауссового процесу, отримане кондиціонуванням GP у навчальних балах) у тестовий пункт , у найпростішому випадку нульової середньої функції:x∗
y∗=k∗T(K+σ2I)−1y
де - вектор коваріацій між тестовою точкою та навчальними точками , - матриця коваріації навчальних точок, - термін шуму (просто встановлено якщо ваша лекція стосувалася безшумних прогнозів, тобто інтерполяції Гауссового процесу), а - вектор спостережень у навчальному наборі. Як бачите, навіть якщо середнє значення попереднього GP дорівнює нулю, середнє значення прогнозування взагалі не дорівнює нулю, і залежно від ядра та кількості навчальних балів, це може бути дуже гнучка модель, здатна навчитися надзвичайно складні візерунки.x ∗ x 1 ,…, x n Kσσ=0 y =( y 1 ,…, y n )k∗x∗x1,…,xnKσσ=0y=(y1,…,yn)
Більш загально, саме ядро визначає властивості узагальнення GP. Деякі ядра мають властивість універсального наближення , тобто вони, в принципі, здатні наближати будь-яку безперервну функцію на компактному підмножині до будь-якого заздалегідь заданого максимального допуску з урахуванням достатньої кількості балів.
Тоді навіщо взагалі дбати про середню функцію? Перш за все, проста середня функція (лінійна або ортогональна полінома) робить модель набагато більш зрозумілою, і цю перевагу не слід недооцінювати для моделі, такої гнучкої (таким чином, складної), як GP. По-друге, якимось чином нульове середнє значення (або, що варто, також постійне середнє) GP-тип відсмоктує передбачення далеко від даних тренувань. Багато стаціонарних ядер (крім періодичних ядер) такі, що дляdist ( x i , x ∗ ) → ∞ y ∗ ≈ 0k ( xi- х∗) → 0dist( хi, х∗) → ∞. Ця конвергенція до 0 може статися напрочуд швидко, особливо з ядром Squared Exponential, і особливо, коли коротка довжина кореляції необхідна, щоб добре підходити до тренувального набору. Таким чином, GP з нульовою середньою функцією незмінно прогнозує як тільки ви вийдете з навчального набору.у∗≈ 0
Тепер це може мати сенс у вашій заявці: зрештою, часто погана ідея використовувати модель, керовану даними, для виконання прогнозів подалі від набору точок даних, які використовуються для підготовки моделі. Дивіться тут багато цікавих та цікавих прикладів, чому це може бути поганою ідеєю. У цьому відношенні нульовий середній GP, який завжди сходить на 0 від навчального набору, є більш безпечним, ніж модель (наприклад, багатоваріантна ортогональна поліноміальна модель високого ступеня), яка з радістю зніме шалено великі прогнози, як тільки ви відволікаєтесь від даних про навчання.
В інших випадках, однак, можливо, ви хочете, щоб ваша модель мала певну асимптотичну поведінку, яка не повинна сходитися до постійної. Можливо, фізичний розгляд скаже вам, що для достатньої ваша модель повинна стати лінійною. У такому випадку вам потрібна лінійна середня функція. Загалом, коли глобальні властивості моделі представляють інтерес для вашої програми, то вам доведеться звернути увагу на вибір середньої функції. Якщо вас цікавить лише локальна (близька до навчальних балів) поведінка вашої моделі, то нульового або постійного середнього GP може бути більш ніж достатньо.х∗