Я використовую Гауссовий процес (GP) для регресії.
У моїй проблемі досить часто два або більше точок даних бути близькими один до одного, відносно масштабів довжини проблеми. Також спостереження можуть бути надзвичайно галасливими. Для прискорення обчислень та підвищення точності вимірювання здається природним об'єднання / інтеграція кластерів точок, близьких одна до одної, доки я дбаю про прогнози на більшій шкалі довжини.
Цікаво, що це швидкий, але напів принциповий спосіб цього зробити.
Якщо дві точки даних були ідеально перекриваються, , а шум спостереження (тобто ймовірність) є гауссовим, можливо, гетерокедастичним, але відомим , природний спосіб протікання здається об'єднанням їх в єдине ціле точка даних з:
, приk=1,2.
Спостережене значення - середнє значення спостережуваних значень y ( 1 ) , y ( 2 ), зважене на їх відносну точність: ˉ y = σ 2 y ( → x ( 2 ) ).
Шум, пов'язаний зі спостереженням, рівний: .
Однак як я повинен об'єднати дві точки, які є близькими, але не перетинаються?
Перш ніж продовжувати, я задумався, чи вже там щось є; і якщо це здається розумним способом провадження, або є кращі швидкі методи.
Найбільш близьким, що я міг знайти в літературі, є цей документ: Е. Снелсон і З. Гахрамані, Розріджені Гауссові процеси за допомогою псевдо входів , NIPS '05; але їх метод (відносно) задіяний, вимагаючи оптимізації для пошуку псевдо-входів.