Поступове оновлення MLE як потоку нових спостережень у


15

Загальне запитання

Скажімо, у нас є потокові дані x1 , , ... . Ми хочемо рекурсивно обчислити максимальну оцінку ймовірності . Тобто, обчисливши \ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ in \ mathbb {R} ^ p} {\ arg \ max} \ prod_ { i = 1} ^ {n-1} f (x_i \, | \, \ boldsymbol {\ theta}), ми спостерігаємо новий x_n і бажаємо якось поступово оновити нашу оцінку \ hat {\ boldsymbol {\ theta}} _ {n-1}, \, x_n \ to \ hat {\ boldsymbol {\ theta}} _ {n} без необхідності починати з нуля. Чи є для цього загальні алгоритми?x2f(x|θ)θ

θ^n1=argmaxθRpi=1n1f(xi|θ),
xnθ п - 1 ,
θ^н-1,хнθ^н

Приклад іграшки

Якщо , , ... , то тому х1х2N(x|μ,1)μ п - 1 = 1

μ^n1=1n1i=1n1xiandμ^n=1ni=1nxi,
μ^n=1n[(n1)μ^n1+xn].


6
Не забувайте про зворотну проблему: оновлення оцінювача у міру видалення старих спостережень.
Hong Ooi

Рекурсивні найменші квадрати (RLS) є (дуже відомим) рішенням для одного конкретного примірника цієї проблеми, чи не так? Як правило, я вважаю, що література про стохастичну фільтрацію може бути корисною для розгляду.
Джин

Відповіді:


13

Дивіться поняття достатності та, зокрема, мінімально достатньої статистики . У багатьох випадках вам потрібен цілий зразок для обчислення оцінки за заданим розміром вибірки, не маючи тривіального способу оновлення з вибірки на один розмір менший (тобто немає зручного загального результату).

Якщо розподіл є експоненціальним сімейством (а в деяких інших випадках, крім того, уніформа є чітким прикладом), є приємна достатня статистика, яка може у багатьох випадках оновлюватися способом, який ви шукаєте (тобто, з низкою часто використовуваних розподілів було б швидке оновлення).

Один із прикладів, яким я не знаю жодного прямого способу обчислення або оновлення, - це оцінка місця розподілу Коші (наприклад, з одиничною шкалою, щоб зробити проблему простою однопараметричною задачею). Однак, можливо, буде швидше оновлення, яке я просто не помітив - я не можу сказати, що я дійсно зробив більше, ніж переглянув це для розгляду справи оновлення.

З іншого боку, для MLE, отриманих методами чисельної оптимізації, попередня оцінка в багатьох випадках була б чудовою відправною точкою, оскільки, як правило, попередня оцінка була б дуже близькою до оновленої оцінки; в цьому сенсі, принаймні, часто повинно бути можливим швидке оновлення. Навіть це не загальний випадок, хоча - з функціями мультимодальної правдоподібності (знову ж див. Приклад Коші), нове спостереження може призвести до того, що найвищий режим буде деяким відстанню від попереднього (навіть якщо розташування кожного з кількох найбільших режимів не змінилося багато, який найвищий міг цілком змінити).


1
Спасибі! Точка щодо можливості перемикання режимів MLE середнього потоку особливо корисна для розуміння того, чому це було б важко в цілому.
jcz

1
Ви можете переконатися в цьому за допомогою наведеної вище одиничної моделі Коші та даних (0,1,0.11,0.12,2,91,2,921,2,933). Імовірність логарифмічного розташування мод близька до 0,5 та 2,5, а (трохи) вищий пік - близько 0,5. Тепер зробіть наступне спостереження 10, і режим кожної з двох вершин ледве рухається, але другий пік зараз значно вищий. Спуск градієнта не допоможе тобі, коли це станеться, це майже як починати знову. Якщо ваше населення є сумішшю двох підгруп однакового розміру з різними локаціями, такі обставини можуть статися -. ...
ctd

ctd ... навіть у відносно великій вибірці. У правильній ситуації перемикання режимів може відбуватися досить часто.
Glen_b -Встановіть Моніку

Умовою, що перешкоджає мультимодальності, є те, що ймовірність має бути увігнутим wrt вектором параметра для всіх . Однак це означає обмеження для моделі. н
Ів

Так, правильно; Я обговорював із собою питання, чи варто обговорювати це у відповіді.
Glen_b -Встановити Моніку

4

У машинному навчанні це називається онлайн-навчанням .

Як зазначав @Glen_b, є особливі випадки, коли MLE можна оновлювати, не потребуючи доступу до всіх попередніх даних. Як він також зазначає, я не вірю, що існує загальне рішення для пошуку ПН.

Досить загальний підхід для пошуку приблизного рішення полягає у використанні чогось типу стохастичного градієнтного спуску. У цьому випадку, коли відбувається кожне спостереження, ми обчислюємо градієнт щодо цього окремого спостереження і переміщуємо значення параметрів дуже невеликої кількості в цьому напрямку. За певних умов ми можемо показати, що це з великою часткою ймовірності сходиться до мікрорайону MLE; сусідство стає жорсткішим і жорсткішим, оскільки ми зменшуємо розмір кроку, але для зближення потрібно більше даних. Однак загалом ці стохастичні методи вимагають набагато більшої якості, щоб отримати хороші показники, ніж, скажімо, оновлення закритої форми.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.