Я (спробую) відповісти на це трьома кроками: спочатку давайте визначимо, що саме ми розуміємо під одномірною гладкою. Далі ми опишемо багатоваріантну гладку (конкретно, гладку з двох змінних). Нарешті, я спробую описати тензорний виріб гладко.
1) Уніваріантний гладкий
Скажімо, у нас є деякі дані відповіді які ми передбачаємо, є невідома функція змінної предиктора плюс деяка помилка . Модель буде:f x εyfxε
y=f(x)+ε
Тепер, щоб відповідати цій моделі, ми повинні визначити функціональну форму . Ми робимо це шляхом виявлення базових функцій, які накладені для того, щоб представити функцію у повному обсязі. Дуже простий приклад - лінійна регресія, в якій функціями є лише і , перехоплення. Застосовуючи розширення бази, ми маємоf β 2 x β 1ffβ2xβ1
y=β1+β2x+ε
У матричній формі ми мали б:
Y=Xβ+ε
Якщо - вектор стовпців n-на-1, - матриця моделі n-by-2, - вектор стовпців коефіцієнтів моделі 2 на 1, а - вектор помилок стовпця n-by-1 . є два стовпчики, оскільки в нашому розширенні бази є два терміни: лінійний член і перехоплення.X β ε XYXβεX
Цей самий принцип застосовується і для розширення бази в MGCV, хоча основні функції значно складніші. Зокрема, окремі базові функції не повинні визначатися для повної області незалежної змінної . Таке часто трапляється при використанні баз на основі вузлів (див. "Приклад на основі вузла"x). Потім модель представляється як сума базових функцій, кожна з яких оцінюється при кожному значенні незалежної змінної. Однак, як я вже згадував, деякі з цих базових функцій приймають значення нуля поза заданого інтервалу і, таким чином, не сприяють розширенню бази за межами цього інтервалу. Як приклад, розглянемо кубічну сплайн-основу, в якій кожна базисна функція симетрична щодо різного значення (вузла) незалежної змінної - іншими словами, кожна базисна функція виглядає однаково, але просто зміщена по осі незалежної змінної (це надмірне спрощення, оскільки будь-яка практична основа також буде включати перехоплення та лінійний термін, але, сподіваємось, ви зрозумієте цю ідею).
Якщо бути ясним, базове розширення виміру може виглядати так:i−2
у= β1+ β2x + β3f1( x ) + β4f2( х ) + . . . + βifi - 2( x ) + ε
де кожна функція є, можливо, кубічною функцією незалежної змінної .xfх
Матричне рівняння все ще може використовуватися для представлення нашої моделі. Єдина відмінність полягає в тому, що тепер є матрицею n-by-i; тобто він містить стовпчик для кожного терміна в розширенні бази (включаючи перехоплюючий та лінійний член). Оскільки процес розширення бази дозволив нам представити модель у вигляді матричного рівняння, ми можемо використовувати лінійні найменші квадрати, щоб відповідати моделі та знаходити коефіцієнти . X βY= Xβ + εХβ
Це приклад неосвоєної регресії, і однією з головних сильних сторін MGCV є оцінка її гладкості за допомогою штрафної матриці та параметра згладжування. Іншими словами, замість:
β =( XТХ)- 1ХТY
ми маємо:
β =( XТХ+ λ S)- 1ХТY
де - квадратична матриця штрафу -by- а - параметр скалярного згладжування. Я не буду заглиблюватися в специфікацію штрафної матриці тут, але слід досить сказати, що при будь-якій заданій основі розширення якоїсь незалежної змінної та визначення квадратичного покарання "химерність" (наприклад, покарання другого похідного), один можна розрахувати штраф матриці .i i λ SSiiλS
MGCV може використовувати різні засоби оцінки оптимального параметра згладжування . Я не буду займатися цією темою, оскільки моя мета тут полягала в тому, щоб дати широкий огляд того, як будується універсальна гладка, що я вважаю, що я зробив.λ
2) Багатоваріантний гладкий
Наведене пояснення можна узагальнити до кількох вимірів. Повернемося до нашої моделі, яка дає відповідь як функцію предикторів і . Обмеження до двох незалежних змінних не дозволить захаращувати пояснення таємними позначеннями. Тоді модель:f x zуfхz
y=f(x,z)+ε
Тепер повинно бути інтуїтивно очевидно, що ми будемо представляти з розширенням бази (тобто, суперпозицією базових функцій), як ми це робили в універсальному випадку вище. Слід також бути очевидним, що принаймні одна, і майже напевно багато інших, цих базових функцій повинні бути функціями як і (якщо цього не було, то неявно було б відокремленим таким, що ). Візуальна ілюстрацію багатовимірної сплайн основи можна знайти тут . Повне двовимірне розширення розміру може виглядати приблизно так:f ( x ) xf(x,z)f(x)xf f ( x , z ) = f x ( x ) + f z ( z ) i - 3zff(x,z)=fx(x)+fz(z)i−3
y=β1+β2x+β3z+β4f1(x,z)+...+βifi−3(x,z)+ε
Я думаю, що цілком зрозуміло, що ми все ще можемо представити це в матричній формі за допомогою:
Y=Xβ+ε
просто оцінюючи кожну базову функцію при кожній унікальній комбінації і . Рішення все ще:zxz
β=(XTX)−1XTY
Обчислення другої похідної матричної штрафної матриці є майже такою ж, як і в універсаріальному випадку, за винятком того, що замість того, щоб інтегрувати другу похідну кожної базисної функції відносно однієї змінної, ми інтегруємо суму всіх інших похідних (включаючи частки) стосовно до всіх незалежних змінних. Деталі вищесказаного не особливо важливі: справа в тому, що ми все ще можемо побудувати штрафну матрицю і використати той же метод, щоб отримати оптимальне значення параметра згладжування , а враховуючи, що параметр згладжування, вектор коефіцієнтів все ще:λSλ
β=(XTX+λS)−1XTY
Тепер ця двовимірна гладка має ізотропний штраф: це означає, що єдине значення застосовується в обох напрямках. Це чудово працює, коли і і знаходяться приблизно в одному масштабі, наприклад, просторовому застосуванні. Але що робити, якщо замінити просторову змінну тимчасовою змінною ? Одиниці можуть бути набагато більшими або меншими, ніж одиниці , і це може скинути інтеграцію наших других похідних, тому що деякі з цих похідних будуть сприяти непропорційно загальній інтеграції (наприклад, якщо виміряти в наносекундах і x z zλxzzt x t x t x xttxtxу світлові роки інтеграл другої похідної відносно може бути набагато більшим, ніж інтеграл другої похідної щодо , і, таким чином, «хиткість» уздовж напрямку може в значній мірі залишатися невикористаною). Слайд 15 "гладкої панелі інструментів", з якою я пов’язаний, має більш детальну інформацію щодо цієї теми.txx
Варто зазначити, що ми не розкладали базові функції на граничні основи та . Звідси випливає, що багатоваріантні гладкі повинні бути побудовані з баз, що підтримують декілька змінних. Як я пояснюю нижче, тензорний продукт розгладжує підтримку побудови багатоваріантних баз з одновимірних граничних основ.zxz
3) Тензорний продукт розгладжує
Продукт Tensor згладжує проблему моделювання відповідей на взаємодію декількох входів з різними одиницями. Припустимо, у нас є відповідь яка є функцією просторової змінної і тимчасової змінної . Наша модель тоді:f x tyfxt
y=f(x,t)+ε
Що ми хотіли б зробити, це побудувати двовимірну основу для змінних і . Це буде набагато простіше, якщо ми можемо представити як:t fxtf
f(x,t)=fx(x)ft(t)
В алгебраїчному / аналітичному сенсі це не обов'язково можливо. Але пам’ятайте, ми дискретизуємо області і (уявіть двовимірну «решітку», визначену розташуванням вузлів на осях і ), так що «справжня» функція представлена суперпозицією базових функцій . Так само, як ми припускали, що дуже складна одноваріантна функція може бути апроксимована простою кубічною функцією на певному інтервалі її області, ми можемо припустити, що нероздільна функція може бути апроксимована добутком простіших функцій іt x txtxtff(x,t)fx(x)ft(t) на інтервалі - за умови, що наш вибір базових розмірів робить ці інтервали достатньо маленькими!
Наше розширення бази, з урахуванням -вимірної основи в і -вимірної основи в , буде виглядати так:ixjt
y=β1+β2x+β3fx1(x)+β4fx2(x)+...+βifx(i−3)(x)+βi+1t+βi+2tx+βi+3tfx1(x)+βi+4tfx2(x)+...+β2itfx(i−3)(x)+β2i+1ft1(t)+β2i+2ft1(t)x+β2i+3ft1(t)fx1(x)+βi+4ft1(t)fx2(x)+...+β2ift1(t)fx(i−3)(x)+…+βijft(j−3)(t)fx(i−3)(x)+ε
Що може трактуватися як тензорний добуток. Уявіть , що ми оцінювали кожну базисну функцію в і , конструюючи таким чином п-по-я і п-по-J моделі матриць і , відповідно. Тоді ми могли б обчислити добуток -by- тензорного добутку з цих двох модельних матриць та реорганізувати у стовпці, щоб кожен стовпчик представляв унікальну комбінацію . Нагадаємо, що матриці граничної моделі мали відповідно і стовпчики. Ці значення відповідають їхнім базовим розмірам. Наша нова двозмінна основа повинна мати розмірністьxtXTn2ij X⊗Tijijij, а отже, однакова кількість стовпців у матриці його моделі.
ПРИМІТКА: Я хотів би зазначити, що оскільки ми явно побудували функції основи тензорного продукту, взявши продукти граничних функцій бази, бази тензорних виробів можуть бути побудовані з граничних основ будь-якого типу. Їм не потрібно підтримувати більше однієї змінної, на відміну від багатоваріантної гладкості, обговореної вище.
Насправді, цей процес призводить до загальної основі розширення розмірності , так як повне множення включає в себе множення кожного базис функції по й-перехоплення (таким чином , ми віднімаємо ), а також множення кожного функція через t-перехоплення (так ми віднімаємо ), але ми повинні додати перехоплення назад в себе (тому ми додаємо 1). Це відомо як застосування обмеження для ідентифікації.t β xij−i−j+1tβx1jxβt1i
Тож ми можемо представити це як:
y=β1+β2x+β3t+β4f1(x,t)+β5f2(x,t)+...+βij−i−j+1fij−i−j−2(x,t)+ε
Де кожна з багатоваріантних базових функцій є добутком пари граничних функцій основи і . Знову ж таки, досить зрозуміло, побудувавши цю основу, що ми все ще можемо представити це за допомогою матричного рівняння:fxt
Y=Xβ+ε
Яке (досі) має рішення:
β=(XTX)−1XTY
Там, де матриця має стовпці. Що стосується штрафних матриць та , вони будуються окремо для кожної незалежної змінної наступним чином:i j - i - j + 1 J x J tXij−i−j+1JxJt
Jx=βTIj⊗Sxβ
і,
Jt=βTSt⊗Iiβ
Це дає можливість загального анізотропного (різного в кожному напрямку) покарання (Примітка: штрафи за другою похідною додаються на кожен вузол на осі , і навпаки). Параметри згладжування та тепер можуть бути оцінені приблизно так само, як єдиний параметр згладжування був для одновимірної та багатоваріантної гладкості. Результат полягає в тому, що загальна форма гладкого тензорного виробу інваріантна масштабуванню його незалежних змінних.t λ x λ txtλxλt
Я рекомендую прочитати всі віньєтки на веб-сайті MGCV, а також " Узагальнені моделі добавок: та введення з R ". Хай живе Саймон Вуд.