Моделі процесів Гаусса, як правило, чудові з великими розмірними наборами даних (я використовував їх із даними мікромасив тощо). Основне значення полягає у виборі хороших значень для гіперпараметрів (які ефективно контролюють складність моделі аналогічним чином, як це робить регуляризація).
Рідкі методи та методи псевдо введення скоріше скористаються наборами даних з великою кількістю зразків (> приблизно 4000 для мого комп'ютера), а не великою кількістю функцій. Якщо у вас є достатньо потужний комп'ютер для виконання розбиття Чолеського матриці коваріації (n на n, де n - кількість зразків), вам, ймовірно, не потрібні ці методи.
Якщо ви користувач MATLAB, то я настійно рекомендую інструментарій GPML та книгу Расмуссена та Вільямса як хороші місця для початку.
ЗАРАЗ, якщо вас цікавить вибір функцій, то я б уникав лікарів загальної практики. Стандартний підхід до вибору функцій з GP - це використовувати ядро автоматичного визначення відповідності (наприклад, covSEard в GPML), а потім досягти вибору функції шляхом настройки параметрів ядра для максимальної граничної ймовірності. На жаль, цілком ймовірно, що в кінцевому підсумку перекриття граничної ймовірності і закінчення моделі, яка виконує (можливо, набагато гірше), ніж модель з простою сферичною радіальною базовою функцією (covSEiso в GPML).
В даний час моя фокус на дослідженні лежить на надмірному підборі у виборі моделі, і я виявив, що це стільки проблема для максимізації доказів у ГП, скільки для перехресної перевірки на основі оптимізації гіперпаралетів у моделях ядра, для деталей дивіться цей документ , і цей .
Вибір особливостей для нелінійних моделей дуже складний. Часто ви отримуєте кращі показники, дотримуючись лінійної моделі та використовуючи підходи типу регуляризації типу L1 (сітка Лассо / ЛАРС / Еластична сітка тощо) для досягнення рідкості чи випадкових лісових методів.