Визначення та конвергенція ітеративно обтяжених найменших квадратів


16

Я використовував ітеративно перезавантажені найменші квадрати (IRLS), щоб мінімізувати функції наступної форми,

J(m)=i=1Nρ(|xim|)

де N - кількість екземплярів xiR , mR є надійною оцінкою, яку я хочу, і ρ є відповідною надійною функцією покарання. Скажімо, вона опукла (хоча і не обов'язково суворо) і наразі відрізняється. Хорошим прикладом такого ρ є функція втрат Губера .

Те, що я роблю, - це розмежування J(m) стосовноm (і маніпулювання) для отримання,

dJdm=i=1Nρ(|xim|)|xim|(xim)

і ітераційно вирішуючи це, встановлюючи його рівним 0 і фіксуючи ваги при ітерації k to wi(k)=ρ(|xim(k)|)|xim(k)|(зауважимо, що сприйнята сингулярність приxi=m(k)- це дійсно знімна сингулярність у всіхρ-х, про які я можу хвилюватись). Тоді я отримую,

i=1Nwi(k)(xim(k+1))=0

і я вирішую для отримання, m(k+1)=i=1Nwi(k)xii=1Nwi(k) .

Я повторюю цей алгоритм з фіксованою точкою до «зближення». Зауважу, що якщо ви дістанетесь до фіксованої точки, ви оптимальні, оскільки ваша похідна дорівнює 0 і це опукла функція.

У мене є два питання щодо цієї процедури:

  1. Це стандартний алгоритм IRLS? Після прочитання декількох статей на цю тему (і вони були дуже розсіяні та розпливчасті щодо того, що таке IRLS) - це найбільш послідовне визначення алгоритму, який я можу знайти. Я можу розміщувати документи, якщо люди хочуть, але я насправді не хотів нікого тут упереджувати. Звичайно, ви можете узагальнити цю основну методику для багатьох інших типів проблем, пов'язаних з вектором та аргументами, крім | x i - m ( k ) |xi|xim(k)|, надання аргументу є нормою афінної функції ваших параметрів. Будь-яка допомога чи розуміння було б чудово з цього приводу.
  2. Конвергенція, здається, працює на практиці, але у мене є кілька проблем. Я ще не бачу доказів цього. Після декількох простих симуляцій Matlab я бачу, що одна ітерація цього не є зіставленням скорочень (я створив два випадкові екземпляри та обчислення | m 1 ( k + 1 ) - m 2 ( k + 1 ) |mі побачив, що іноді це більше, ніж 1). Також відображення, визначене кількома послідовними ітераціями, не є суворо відображенням скорочень, але ймовірність постійної Ліпшица перевищує 1 стає дуже низькою. Так чи існує поняттязіставлення скорочення вірогідності? Яку техніку я б використав, щоб довести, що це збігається? Це навіть сходиться?|m1(k+1)m2(k+1)||m1(k)m2(k)|

Будь-які вказівки взагалі корисні.

Редагувати: Мені подобається стаття про IRLS для рідкого відновлення / стискання зонду від Daubechies et al. 2008 р. "Ітеративно перезважена кількість мінімумів найменших квадратів для рідкого відновлення" на arXiv. Але, здається, зосереджена в основному на вазі для невипуклих проблем. Мій випадок значно простіший.


Переглядаючи сторінку wiki на IRWLS, я борюся за різницю між описаною вами процедурою та IRWLS (вони просто використовують як їх особлива ρ функція). Чи можете ви пояснити, чим ви вважаєте, що алгоритм, який ви пропонуєте,відрізняєтьсявід IRWLS? |yixxiββ|2ρ
user603

Я ніколи не заявляв, що це було інакше, і якщо я це мав на увазі, я цього не мав на увазі.
Кріс А.

Відповіді:


10

Що стосується вашого першого питання, то слід визначити "стандарт" або визнати, що "канонічна модель" поступово встановлюється. Як зазначається в коментарі, здається, що принаймні стандартний спосіб використання IRWLS.

Що стосується вашого другого запитання, "зіставлення вірогідних скорочень" може бути пов'язане (проте неофіційно) зі зближенням "рекурсивних стохастичних алгоритмів". З того, що я прочитав, існує величезна література з цього приводу, головним чином, з техніки. В економіці ми використовуємо крихітний фрагмент, особливо насіннєві праці Леннарта Люнга - першим документом був Люнг (1977) - який показав, що конвергенція (чи ні) рекурсивного стохастичного алгоритму може визначатися стабільністю (або не) пов'язаного звичайного диференціального рівняння.

(наступне було перероблено після плідної дискусії з ОП у коментарях)

Конвергенція

Я буду використовувати в якості довідника Saber Elaydi "Вступ до рівнянь різниці", 2005, 3-е видання. Аналіз обумовлений деякою заданою вибіркою даних, тому xs розглядаються як фіксовані.

Умова першого порядку мінімізації цільової функції, розглядається як рекурсивна функція в , m ( k + 1 ) = N i = 1 v i [ m ( k ) ] x i ,m

m(k+1)=i=1Nvi[m(k)]xi,vi[m(k)]wi[m(k)]i=1Nwi[m(k)][1]

має фіксовану точку (аргмін цільової функції). По теоремі 1.13 рр 27-28 Elaydi, якщо перша похідна по від РІТ з [ 1 ] , оцінювали в нерухому точку м * , позначимо його ' ( м * ) , менше одиниці за абсолютною величиною , то м * є асимптотично стійким (AS). Детальніше з теореми 4.3 с.179 ми маємо на увазі, що це також означає, що нерухома точка рівномірна AS (UAS). "Асимптотично стійкий" означає, що для деякого діапазону значень навколо нерухомої точки знаходиться сусідство ( m m[1]mA(m)m
, не обов'язково невеликого розміру, фіксована точка єпривабливою, і тому, якщо алгоритм дає значення в цьому сусідстві, він буде сходитися. Властивість, що є "рівномірною", означає, що межа цього мікрорайону, а отже, і його розмір, не залежить від початкового значення алгоритму. Фіксована точка стаєглобальноUAS, якщо γ = . Так у нашому випадку, якщо ми це доведемо(m±γ)γ=

|A(m)||i=1Nvi(m)mxi|<1[2]

ми довели властивість UAS, але без глобальної конвергенції. Тоді ми можемо або спробувати встановити, що сусідство притягання насправді є цілими розширеними реальними числами, або що конкретне вихідне значення, яке використовує ОП, як зазначено в коментарях (і це є стандартним методологією IRLS), тобто середнє значення вибірки з 's, ˉ x , завжди належить до сусідства тяжіння нерухомої точки.xx¯

Обчислюємо похідну

vi(m)m=wi(m)mi=1Nwi(m)wi(m)i=1Nwi(m)m(i=1Nwi(m))2

=1i=1Nwi(m)[wi(m)mvi(m)i=1Nwi(m)m]

A(m)=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)i=1Nvi(m)xi]

=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)m]

and

|A(m)|<1|i=1Nwi(m)m(xim)|<|i=1Nwi(m)|[3]

we have

wi(m)m=ρ(|xim|)xim|xim||xim|+xim|xim|ρ(|xim|)|xim|2=xim|xim|3ρ(|xim|)ρ(|xim|)xim|xim|2=xim|xim|2[ρ(|xim|)|xim|ρ(|xim|)]=xim|xim|2[wi(m)ρ(|xim|)]

Inserting this into [3] we have

|i=1Nxim|xim|2[wi(m)ρ(|xim|)](xim)|<|i=1Nwi(m)|

|i=1Nwi(m)i=1Nρ(|xim|)|<|i=1Nwi(m)|[4]

This is the condition that must be satisfied for the fixed point to be UAS. Since in our case the penalty function is convex, the sums involved are positive. So condition [4] is equivalent to

i=1Nρ(|xim|)<2i=1Nwi(m)[5]

If ρ(|xim|) is Hubert's loss function, then we have a quadratic (q) and a linear (l) branch,

ρ(|xim|)={(1/2)|xim|2|xim|δδ(|xim|δ/2)|xim|>δ

and

ρ(|xim|)={|xim||xim|δδ|xim|>δ

ρ(|xim|)={1|xim|δ0|xim|>δ

{wi,q(m)=1|xim|δwi,l(m)=δ|xim|<1|xim|>δ

Since we do not know how many of the |xim|'s place us in the quadratic branch and how many in the linear, we decompose condition [5] as (Nq+Nl=N)

i=1Nqρq+i=1Nlρl<2[i=1Nqwi,q+i=1Nlwi,l]

Nq+0<2[Nq+i=1Nlwi,l]0<Nq+2i=1Nlwi,l

which holds. So for the Huber loss function the fixed point of the algorithm is uniformly asymptotically stable, irrespective of the x's. We note that the first derivative is smaller than unity in absolute value for any m, not just the fixed point.

What we should do now is either prove that the UAS property is also global, or that, if m(0)=x¯ then m(0) belongs to the neighborhood of attraction of m.


Thanks for the response. Give me some time to analyze this answer.
Chris A.

Certainly. After all, the question waited 20 months.
Alecos Papadopoulos

Yeah, I was reminded of the problem and decided to put up a bounty. :)
Chris A.

Lucky me. I wasn't there 20 months ago - I would have taken up this question, bounty or not.
Alecos Papadopoulos

Thanks so much for this response. It's looking like, so far, that you've earned the bounty. BTW, your indexing on the derivative of vi w.r.t m is notationally weird. Couldn't the summations on the second line of this use another variable, such as j?
Chris A.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.