Який взаємозв'язок між фільтром Кальмана та поліноміальною регресією?


56

Який взаємозв'язок між фільтруванням Кальмана і (повторною, якщо необхідно) повторною поліноміальною регресією найменших квадратів?


Одразу ж у миші, при фільтрації з кальманом ми не маємо доступу до майбутніх значень (отже, і передбачуваної частини), тоді як в полі підгонці ми маємо весь набір даних перед собою, щоб найкраще підходити до даних. Все-таки велике питання! +1.
Спейсі

@Mohammad: Де ви бачите вимогу подавати два способи різних (підмножини) точок даних?
hotpaw2

Поліномальна регресія @Mohammad МОЖЕ екстраполювати і, отже, можна використовувати для майбутнього прогнозування.
Діпан Мехта

@DipanMehta / @ hotpaw2 Хм, я, мабуть, не знав про це. AFAIK для poly нам потрібно мати доступ до всього набору даних до того, щоб обчислити якнайкраще. (офлайн-обробка). Хоча зараз, коли я думаю про це, я вважаю, що он-лайн версія також може спрацювати ... ми б вирішували для найкращого варіанту все заново кожен раз, коли з'явиться новий зразок. Але де було б "передбачення"?
Спейсі

@ Мохаммед не заглиблюється в математику - але в основному це стосується будь-якої регресії. Підтримка у вас навчального вектора і ви застосували і відкрили параметри моделі тепер у вас є ще один який знаходиться на екстрапольованій довжині, ви можете отримати найкращу оцінку застосовуючи ту ж модель, що вище, що є не що інше, як прогноз. Коли ви фактично вимірюєте на основі помилки, у вас є шанс оновити / вдосконалити модель. Y t α [ i ] X k Y K Y KXtYtα[i]XkYKYK
Діпан Мехта

Відповіді:


49

1. Існує Різниця з точки зору критеріїв оптимальності

Фільтр Кальмана - лінійний оцінювач Це лінійний оптимальний оцінювач - тобто виводить параметри моделі, що цікавлять, з непрямих, неточних і невизначених спостережень.

Але оптимальне в якому сенсі? Якщо весь шум гауссова, фільтр Калмана мінімізує середню квадратичну помилку оцінюваних параметрів. Це означає, що коли основний шум НЕ є Гауссом, обіцянка більше не виконується. У разі нелінійної динаміки добре відомо, що проблема оцінки стану стає важкою. У цьому контексті жодна схема фільтрації явно не перевершує всі інші стратегії. У такому випадку нелінійні оцінки можуть бути кращими, якщо вони зможуть краще моделювати систему з додатковою інформацією. [Див. Посилання 1-2]

Поліноміальна регресія - це форма лінійної регресії, в якій зв'язок між незалежною змінною x та залежною змінною y моделюється як поліном n-го порядку.

Y=a0+a1x+a2x2+ϵ

Зауважимо, що, хоча поліноміальна регресія підходить до нелінійної моделі до даних, всі ці моделі лінійні з точки зору оцінки, оскільки функція регресії є лінійною з точки зору невідомих параметрів . Якщо ми трактуємо як різні змінні, поліноміальна регресія також може трактуватися як множинна лінійна регресія . x , x 2a0,a1,a2x,x2

Поліноміальні регресійні моделі зазвичай підходять за допомогою методу найменших квадратів. У методі найменших квадратів також ми мінімізуємо середню помилку квадрата. Метод найменших квадратів мінімізує дисперсію неупереджених оцінок коефіцієнтів в умовах теореми Гаусса-Маркова . Ця теорема стверджує, що звичайні найменші квадрати (OLS) або лінійні найменші квадрати є найкращим лінійним неврівноваженим оцінювачем (BLUE) за таких умов:

а. коли помилки мають нуль очікування, тобто b. мають однакові відхилення, тобто c. а помилки некорельовані, тобтоV a r i a n c e ( e i ) = σ 2 < c o v ( e i , e j ) = 0E(ei)=0
Variance(ei)=σ2<
cov(ei,ej)=0

ПРИМІТКА: тут помилки не повинні бути гауссовими і не повинні бути IID. Це потрібно лише не співвідносити.

2. Фільтр Кальмана - це еволюція оцінок від найменшого квадрата

У 1970 році HW Sorenson опублікував статтю IEEE Spectrum під назвою «оцінка найменших квадратів. Від Гаусс до Кальмана » [Див реф 3.] Це насіннєвих документ , який забезпечує велику уявлення про те , як Гаусса оригінальній ідеї найменших квадратів сьогоднішніх сучасних такі оцінки, як Кальман.

Робота Гаусса не тільки представила найменші квадратні рамки, але фактично була однією з найбільш ранніх робіт, яка використовувала ймовірнісний погляд. Хоча найменші квадрати еволюціонували у вигляді різних методів регресії, була ще одна критична робота, яка принесла теорію фільтрів використовувати як оцінювач.

Теорія вибору, що використовується для оцінки стаціонарних часових рядів, була побудована Норбертом Вінером у 1940-х роках (під час Другої світової війни) та опублікована у 1949 р., Яка сьогодні відома як фільтр Вінера. Робота була зроблена набагато раніше, але була класифікована до другого часу після Другої світової війни. Дискретний часовий еквівалент роботи Вінера був виведений незалежно Колмогоровим і опублікований у 1941 р. Звідси цю теорію часто називають теорією фільтрації Вінера-Колмогорова .

Традиційно фільтри розраховані на потрібну частотну характеристику. Однак у випадку фільтра Вінера він зменшує кількість шуму, присутнього в сигналі, порівняно з оцінкою бажаного безшумного сигналу. Фільтр Вайнера - це фактично оцінювач. Однак у важливій роботі Левінсон (1947) [Див. Посилання 6] показав, що за дискретний час усю теорію можна звести до мінімуму квадратів, і це було математично дуже просто. Див. Перегляд 4

Таким чином, ми бачимо, що робота Вайнера дала новий підхід до проблеми оцінки; еволюція від використання найменших квадратів до іншої добре сформованої теорії фільтрів. Однак критичним обмеженням є те, що фільтр Вінера передбачає, що входи нерухомі. Можна сказати, що фільтр Кальмана - це наступний крок в еволюції, який знижує стаціонарні критерії. У фільтрі Кальмана модель простору стану може динамічно адаптуватися для роботи з нестаціонарним характером сигналу або системи.

Фільтри Калмана засновані на лінійних динамічних системах у дискретному часовій області. Отже, він здатний працювати з сигналом, який змінюється часом, на відміну від Вінера. Як робота Соренсона проводиться паралельно між найменшими квадратами Гаусса і фільтром Калмана як

... отже, бачимо, що основні припущення Гаусса та Кальмана однакові, за винятком того, що згодом дозволяє державі змінюватися від одного разу до іншого. Різниця вносить нетривіальну модифікацію проблеми Гаусса, але таку, яку можна розглядати в межах найменших квадратів.

3. Вони однакові, що стосується напрямку причинності прогнозування; крім ефективності впровадження

Іноді сприймається, що фільтр Кальмана використовується для прогнозування майбутніх подій на основі даних минулих часів, коли регресія або найменші квадрати згладжуються в точці від кінця до кінця. Це насправді не так. Читачі повинні зауважити, що і оцінювачі (і майже всі оцінювачі, про які ви можете придумати) можуть виконувати будь-яку роботу. Ви можете застосувати фільтр Kalman, щоб застосувати згладжування Kalman .

Аналогічно, регресійні моделі також можуть використовуватися для прогнозування. Зважаючи на навчальний вектор, і ви застосували і відкрили параметри моделі тепер для іншого зразка ми можемо екстраполювати на основі моделі.Y tXtYtα0...aKXkYK

Отже, обидва способи можна використовувати у вигляді згладжування або пристосування (позапричинного), а також для майбутніх прогнозів (причинний випадок). Однак критичною відмінністю є реалізація, яка є суттєвою. У випадку поліноміальної регресії - з усім процесом потрібно повторюватись, а отже, можливо, можливо здійснити каузальну оцінку, але це може бути обчислювально дорого. [Хоча я впевнений, що зараз мають бути деякі дослідження, щоб зробити речі ітеративними].

З іншого боку, фільтр Кальмана за своєю суттю є рекурсивним. Отже, використовувати його для прогнозування на майбутнє лише використання на минулих даних буде дуже ефективним.

Ось ще одна гарна презентація, яка порівнює декілька методів: Ref 5

Список літератури

  1. Найкраще введення у фільтр Кальмана - Ден Саймон Калман, який фільтрує програмування вбудованих систем, червень 2001, сторінка 72

  2. Презентація: Ліндсей Кліман Розуміння та застосування фільтрації Кальмана

  3. Оцінка HW Sorenson Найменших квадратів: від Гаусса до спектра IEEE Калмана , липень 1970. С. 63-68.

  4. Примітка лекції MIT Курсовий посуд

  5. Презентація Simo Särkkä від лінійної регресії до фільтра Кальмана та за межами Хельсінкського технологічного університету

  6. Левінсон, Н. (1947). "Критерій помилки Wiener RMS в дизайні та прогнозуванні фільтра." Дж. Мат. Фіз., Т. 25, с. 261–278.


Дуже приємна поломка!
Спейсі

1
Посилання "Розуміння та застосування фільтра Кальмана" порушено. Я думаю , що ця посилання працює: cs.cmu.edu/~motionplanning/papers/sbp_papers/integrated3 / ...
Винод

Яка чудова відповідь. Ось чому цей сайт настільки чудовий!
Royi

Фантастична відповідь, іноді важко знайти відповіді на прості, але основоположні питання, такі як цей
ZiglioUK

6

Різниця досить велика, оскільки це дві абсолютно різні моделі, які можна використовувати для вирішення однієї і тієї ж проблеми. Давайте зробимо швидкий підсумок.

Поліноміальна регресія - це спосіб наближення функції. Ми маємо набір даних форми і бажаємо визначити функціональне співвідношення, яке часто виражається шляхом оцінки щільності ймовірності . Зважаючи на те, що цей є гауссовим, ми отримуємо рішення найменшого квадрата як максимальну оцінку ймовірності.{xi,zi}p(z|x)p

Фільтрування Кальмана - це особливий спосіб висновку в лінійній динамічній системі. LDS - це особливий випадок моделей простору станів, в якому ми припускаємо, що спостережувані дані генеруються шляхом застосування лінійного перетворення на наступні кроки ланцюга Маркова над випадковими змінними Гаусса. Таким чином, ми насправді робимо модель , яка є ймовірністю часового ряду. Процес фільтрації Кальмана полягає в тому, щоб передбачити наступне значення часового ряду, наприклад, максимізувати . Але та сама модель може бути використана для висновку про згладжування, інтерполяцію та багато іншого.p(x1:T)p(xt+1|x1:t)

Таким чином: поліноміальна регресія функціонує наближенням, фільтрація Кальмана робить передбачення часових рядів. Дві абсолютно різні речі, але передбачення часових рядів є особливим випадком наближення функції. Також обидві моделі ґрунтуються на досить різних припущеннях на даних, які вони спостерігають.


Які різні припущення щодо спостережуваних даних?
hotpaw2

1
@ hotpaw2, PR: дані генеруються поліномом з додатковим гауссовим шумом. LDS: дані породжуються неспостережуваним ланцюгом Маркова з розподілених змінних Гаусса, що лінійно відноситься до спостережуваних даних.
байєр

5

Не є експертом у фільтрах кальмана, проте я вважаю, що традиційна фільтрація Кальмана передбачає лінійну залежність між спостережуваними даними та даними, які ви хочете зробити, на відміну від більш складних, таких як фільтри Extended Kalman, які можуть приймати нелінійні відносини.

Зважаючи на це, я вважаю, що для традиційного фільтра Кальмана он-лайн лінійна регресія була б схожа на Калман за своїми показниками. Однак поліноміальна регресія також може бути використана, яка передбачає нелінійну залежність, яку традиційний Калман може не в змозі захопити.


4

Фільтрування Кальмана дає кілька прогнозів для наступного стану, де екстраполяція регресії не буде.

Фільтри Калмана також зосереджені на включенні факторів шуму (засновані на гауссових розподілах).


Багаторазові прогнози? Або єдиний багатовимірний вектор прогнозування? (Яка багатовимірна лінійна чи поліноміальна регресія могла забезпечити?)
hotpaw2

Кілька прогнозів для кожного виміру / змінної (разом із впевненістю, що прогноз є правильним). Це пов'язано зі способом включення шуму в передбачення.
Geerten

Не зовсім правда. PR також дає вам розповсюдження, він просто не використовується. Крім того, якщо ви використовуєте поліноміальну регресію з найменшими квадратами для прогнозування часових рядів, це точно та сама модель шуму, що і для фільтра Калмана.
байєр

3

Багато вже сказаного, дозвольте мені додати кілька коментарів:

Фільтри Калмана - це застосування байєсівської теорії ймовірностей, що означає, що "апріорну інформацію" або "попередню невизначеність" можна (і потрібно) вказати. Як я розумію, це не так у традиційному розміщенні найменших квадратів. Незважаючи на те, що спостереження (дані) можна зважити з ймовірністю при встановленні LSQ, попереднє знання рішення не може бути легко враховано.

Якщо підсумовувати, рішення, знайдене КФ, залежатиме від

а) модель надання "прогнозів"

б) вимірювання, які є "спостереженнями"

в) невизначеність прогнозів та спостережень

г) апріорні знання рішення.

"попередні знання" вказуються як відхилення від початкової здогадки, але не є релевантними або використовуються в однаковій мірі в кожній програмі.

Як уже згадувалося раніше, загальне використання КФ - це зменшення шуму в спостереженнях у реальному часі. Порівняння спостережень із прогнозами моделі може допомогти оцінити "справжнє вимірювання", позбавлене шуму. Ця поширена програма, тому KF називається фільтром.

Початковою здогадкою в цьому прикладі було б припущене рішення в нульовий час, з якого починається КФ, з пов'язаною з цим "попередньою невизначеністю". Часто у вас є якісь невідомі параметри в прогностичній моделі, але які можуть бути обмежені вимірюваннями, тобто є "спостережуваними". КФ покращить свої оцінки як цих параметрів, так і «істинних вимірювань» в міру руху даних за часовим рядом даних. У цьому випадку початковий стан часто задається для того, щоб просто призвести до послідовної продуктивності фільтрації: визначається як фактичні помилки оцінки, що знаходяться в межах меж невизначеності, які КФ забезпечує своїм рішенням. У цьому прикладі попередня невизначеність щодо початкового стану може бути визначена як велика, що дає КФ можливість виправити будь-які помилки, які вона містить. Також можуть бути визначені невеликі значення,

Ця область проектування КФ може включати випробування та помилки, або інженерне судження, щоб придумати значення початкового стану та його невизначеності, які призводять до хороших показників. З цієї причини цей та інші аспекти конструкції фільтра KF, які передбачають уточнення невизначеностей для отримання хороших показників роботи (будь то числова, оцінка, прогнозування ...), часто називають "настроюванням фільтру".

Але в інших програмах може бути прийнятий більш жорсткий і корисний підхід до попередніх невизначеностей. Попередній приклад стосувався оцінки в режимі реального часу (для фільтрації шуму з невизначених вимірювань). Початковий стан та його дисперсія (попередня невизначеність) є майже необхідним злом для ініціалізації фільтра на ранньому терміні, після чого початковий стан стає все більш неважливим, оскільки майбутні спостереження використовуються для покращення оцінок. Розглянемо тепер фільтр Кальмана, застосований для вимірювань та прогнозування моделей на певний час t_s. У нас є невизначені спостереження, невизначена модель, але ми також маємо деякі попередні знання про рішення, яке ми шукаємо. Скажімо, ми знаємо його гауссовий PDF: середнє значення та відхилення. У цьому випадку рішення може дуже сильно залежати від попередньої невизначеності, тобто пункту d) вище,

Ця особливість, яка є основоположною для байєсівської теорії, дозволяє КФ вирішувати стохастичні проблеми, враховуючи всі види невизначеності / інформації, які зазвичай є. Оскільки КФ розроблявся та застосовувався десятиліттями, його основні ознаки не завжди докладно описані. З мого досвіду, багато робіт і книг зосереджуються на оптимальності та лінеаризації (розширений КФ, нерозважений КФ тощо). Але я знайшов чудові описи зв’язків між теорією Байєса та К. Ф., читаючи вступні статті та тексти про «фільтри частинок». Це ще одна і пізніша реалізація байєсівської оцінки, знайдіть їх, якщо вам цікаво!


1
Чи можна отримати подібний байєсівський ефект оновлення (надається за допомогою фільтра Калмана), додавши кілька попередньо визначених априорі / прогнозованих / здогаданих (середніх та дисперсійних) точок даних перед реальними даними, а потім за допомогою ітеративної поліноміальної регресії найменших квадратів до оновити прогноз (та коефіцієнт дисперсії чи регресії) у міру надходження реальних даних?
hotpaw2

Хоча можна підсунути функцію, придатну до "апріорних" даних (яка нічим не відрізнятиметься від будь-яких інших даних, окрім назви, яку ми їм надаємо), правильний спосіб поєднання невизначеностей у умовному середовищі (апріорі + спостереження = a posteriori) визначено в баєсівській теорії. Я не кажу, що неможливо відтворити байєсівський результат іншими способами, але приведення даних і байєсівська теорема - це різні речі, і лише остання була задумана для отримання правильної статистики. Я думаю, що є різниця між додаванням спостережень та обчисленням умовних ймовірностей.
Барт Ван Хоув

Це рішення зосереджується на використанні, тому я його збільшив.
rrogers

Цієї нитки StackExchange вам також може бути цікавою, питання дуже схоже на ваше, але порівнює поліноміальну підгонку із загальним байєсівським висновком, прикладом якого є фільтр Калмана. stats.stackexchange.com/questions/252577/…
Барт Ван Хоув

Щоб надати ще декілька контекстів: фільтри Калмана - це особливий метод вирішення загальних байєсівських проблем і особливо підходить для проблем, пов'язаних із тимчасовими рядами даних (наприклад, онлайн-оцінка). Тема, яку я пов’язувала вище, розглядає загальне байєсівське лікування проблеми регресії, де всі дані використовуються одразу, що більше схоже на поліноміальну підгонку, ніж онлайн-фільтрування Калмана, про що було сказано у кількох відповідях тут.
Барт Ван Хоув
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.