Чому моделі Гаусса називають непараметричними?


26

Я трохи розгублений. Чому процеси Гаусса називають непараметричними моделями?

Вони припускають, що функціональні значення або їх підмножина мають гауссовий пріоритет із середнім значенням 0 і коваріаційною функцією, заданою як функція ядра. Ці самі функції ядра мають деякі параметри (тобто, гіперпараметри).

То чому їх називають непараметричними моделями?


1
Я знаю декілька визначень "Гауссових процесів", тому не очевидно, що насправді задає ваше запитання. Але коли ви розглядаєте, як це можна уточнити, запитайте себе так: як би ви параметризували процес Гаусса, який ви маєте на увазі? Якщо ви не можете зробити це природним шляхом із обмеженою кількістю реальних параметрів, то це слід вважати непараметричним.
whuber

@whuber. AFAIK, основними параметрами гауссових процесів є середня та коваріаційна функції. Але ми продовжуємо додавати точки даних, вони постійно збільшуються. Тож воно постійно збільшується. Це чому гауссові процеси називають непараметричними?
користувач34790

@whuber Якщо у мене є мільйони балів даних тренувань, то мій GP f ~ N (m, k) буде багатомісним гамірським розподілом на мільйон. Хіба це не занадто велико? Я маю на увазі, що з новими навчальними даними вони стають все більшими та більшими. Чи не породжує це обчислювальна проблема?
користувач34790

1
"Параметричні" проти "непараметричні" - це терміни, які не стосуються конкретних процесів: вони застосовуються до всього сімейства процесів, які могли б бути придатними до даних. Хоча я досі не знаю, яку родину ви маєте на увазі, це звучить як, хоча кількість параметрів може бути скінченною за будь-яких обставин, немає обмежень у кількості параметрів, які можуть з’являтися серед членів родини : ergo, проблема є непараметричним.
whuber

Відповіді:


20

Я виступлю із цим, кажучи, що не завжди зрозуміло, що означає «непараметричний» або «напівпараметричний» і т. Д. У коментарях, мабуть, певне формальне визначення має на увазі Уубер (можливо, щось на зразок вибору моделі з якоїсь сім'ї де нескінченно розмірна), але я буду досить неформальною. Деякі можуть стверджувати, що непараметричний метод - це той, де ефективна кількість використовуваних параметрів збільшується разом із даними. Я думаю, що на videolectures.net є відео, де (я думаю) Пітер Орбанц дає чотири чи п’ять різних прийомів, як ми можемо визначити "непараметричні". { M θ : θ Θ } ΘMθ{Mθ:θΘ}Θ

Оскільки я думаю, що я знаю, про які речі ви маєте на увазі, для простоти я припускаю, що ви говорите про використання Гауссових процесів для регресії типовим чином: у нас є дані тренувань і нам цікаво моделювати умовне середнє . Ми пишемо і, можливо, ми настільки сміливі, що припускаємо, що є iid і нормально поширюється, . буде одновимірним, але все переноситься на більш високі розміри.E ( Y | X = x ) : = f ( x ) Y i = f ( X i ) + ϵ i ϵ i ϵ iN ( 0 , σ 2 ) X i(Yi,Xi),i=1,...,nE(Y|X=x):=f(x)

Yi=f(Xi)+ϵi
ϵiϵiN(0,σ2)Xi

Якщо наш може приймати значення в континуумі, то можна розглядати як параметр (незліченно) нескінченного виміру. Отже, в тому сенсі, що ми оцінюємо параметр нескінченного виміру , наша проблема є непараметричною. Це правда, що байєсівський підхід має деякі параметри, що плавають тут і там. Але насправді це називається непараметричним, оскільки ми оцінюємо щось нескінченне вимір. Приори GP, які ми використовуємо, присвоюють масу кожному району кожної безперервної функції, тому вони можуть довільно оцінювати будь-яку безперервну функцію. f ( )Xif()

Те , що в ковариационной функції відіграє роль , аналогічні параметри згладжують в звичайних оцінках - частотних для того , щоб проблеми не бути абсолютно безнадійними , ми повинні припустити , що існує деяка структура , яку ми очікуємо побачити експоната. Байєси досягають цього, використовуючи пріоритет на просторі безперервних функцій у вигляді Гауссового процесу. З байєсівської точки зору, ми кодуємо переконання про , вважаючи, що почерпнуто від GP з такою і такою коваріаційною функцією. Попереднє фактично штрафує оцінки за те, що вони занадто складні.f f fffff

Редагування для обчислювальних питань

Більшість (усе?) Цього матеріалу є у книзі «Процес Гаусса» Расмуссена та Вільямса.

Проблеми з обчисленнями складні для лікарів загальної практики. Якщо ми будемо вести себе нівельно, нам знадобиться пам'ять розміру просто для проведення матриці коваріації та операцій для її інвертування. Є кілька речей, які ми можемо зробити, щоб зробити речі більш здійсненими. Один варіант - зазначити, що хлопець, який нам справді потрібен, - , рішення де - матриця коваріації. Метод спряжених градієнтів вирішує це саме в обчисленнях , але якщо ми задовольнимо себе наближеним рішенням, ми могли б припинити алгоритм спряженого градієнта після кроків і зробити це вO ( N 3 ) v ( K + σ 2 I ) v = Y K O ( N 3 ) k O ( k N 2 ) KO(N2)O(N3)v(K+σ2I)v=YKO(N3)kO(kN2)обчислення. Нам також не обов’язково потрібно зберігати всю матрицю відразу.K

Таким чином, ми перейшли від до , але це все ще квадратично масштабується в , тому ми можемо не бути щасливими. Наступне найкраще - працювати замість підмножини даних, скажімо, розміру де інвертування та зберігання матриці не так вже й погано. Звичайно, ми не хочемо просто викидати решту даних. Підмножина регресорів підходу зазначає, що ми можемо отримати заднє середнє значення нашого GP як регресія наших даних на залежних від даних функцій, визначених нашою функцією коваріації; тому ми відкидаємо всі, окрім цих, і переходимо до обчислень .O(N3)O(kN2)Nmm×mYNmO(m2N)

Існує пара інших потенційних варіантів. Ми могли б побудувати наближення низького рангу , і безліч , де є і рангу ; Виходить інвертуванням в цьому випадку може бути зроблено замість инвертирования . Іншим варіантом є вибір функції коваріації для розрідження та використання методів спряжених градієнтів - якщо матриця коваріації дуже рідка, це може значно прискорити обчислення.K = Q Q T Q n × q q K + σ 2 I Q T Q + σ 2 IKK=QQTQn×qqK+σ2IQTQ+σ2I


8

Взагалі кажучи, «непараметрична» в байєсівській непараметриці відноситься до моделей з нескінченною кількістю (потенційних) параметрів. На відеоlectures.net ( як ця ) є багато справді приємних навчальних посібників та лекцій з цієї теми, які дають хороші огляди цього класу моделей.

Зокрема, процес Гаусса (GP) вважається непараметричним, оскільки GP представляє функцію (тобто нескінченний розмірний вектор). Зі збільшенням кількості точок даних (пар ((x, f (x))) збільшується кількість параметрів моделі (обмежує форму функції). На відміну від параметричної моделі, де кількість параметрів залишається фіксованою щодо розміру даних, у непараметричних моделях кількість параметрів зростає з кількістю точок даних.


Це саме те, що я припускав. Тож моє припущення є правильним, гадаю. Але моє питання, чи є у мене мільйон балів (спостережувані дані). Тоді мій f також буде мати мільйонний вимір. Так не було б у мене обчислювальних проблем. Крім того, моя коваріаційна матриця також буде розміром 1 мільйон х 1 мільйон. То що мені робити в цьому випадку?
користувач34790

@ user34790 так, у вас виникнуть проблеми з обчисленнями. Обчислювальні завдання - це досить велика справа для лікарів загальної практики. У Расмуссена та Вільямса є книга про лікарів із цілою главою, присвячена цьому, і якщо ви досить серйозно переглядаєте Google, ви можете знайти її безкоштовно в Інтернеті. Дивіться мій оновлений пост, щоб отримати деякі мінімальні деталі.
хлопець

1

Параметри, які ви назвали гіперпараметрами, не є фізично мотивованими параметрами і звідси назва. Вони використовуються для параметризації функції ядра. Для прикладу в ядрі Гаусса:

K(xi,xj)=h2exp((xixj)2λ2)

і є гіперпараметрамі , але вони не пов'язані з величинами , такі як температура, концентрація забруднення і т.д., які можуть виникнути в справжньої параметричної моделі.hλ

Це питання було розглянуто і в цій лекції , що може допомогти краще зрозуміти.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.