Що стосується вашого першого питання, то слід визначити "стандарт" або визнати, що "канонічна модель" поступово встановлюється. Як зазначається в коментарі, здається, що принаймні стандартний спосіб використання IRWLS.
Що стосується вашого другого запитання, "зіставлення вірогідних скорочень" може бути пов'язане (проте неофіційно) зі зближенням "рекурсивних стохастичних алгоритмів". З того, що я прочитав, існує величезна література з цього приводу, головним чином, з техніки. В економіці ми використовуємо крихітний фрагмент, особливо насіннєві праці Леннарта Люнга - першим документом був Люнг (1977) - який показав, що конвергенція (чи ні) рекурсивного стохастичного алгоритму може визначатися стабільністю (або не) пов'язаного звичайного диференціального рівняння.
(наступне було перероблено після плідної дискусії з ОП у коментарях)
Конвергенція
Я буду використовувати в якості довідника Saber Elaydi "Вступ до рівнянь різниці", 2005, 3-е видання.
Аналіз обумовлений деякою заданою вибіркою даних, тому x′s розглядаються як фіксовані.
Умова першого порядку мінімізації цільової функції, розглядається як рекурсивна функція в ,
m ( k + 1 ) = N ∑ i = 1 v i [ m ( k ) ] x i ,m
m(k+1)=∑i=1Nvi[m(k)]xi,vi[m(k)]≡wi[m(k)]∑Ni=1wi[m(k)][1]
має фіксовану точку (аргмін цільової функції). По теоремі 1.13 рр 27-28 Elaydi, якщо перша похідна по від РІТ з [ 1 ] , оцінювали в нерухому точку м * , позначимо його ' ( м * ) , менше одиниці за абсолютною величиною , то м * є асимптотично стійким (AS). Детальніше з теореми 4.3 с.179 ми маємо на увазі, що це також означає, що нерухома точка рівномірна AS (UAS).
"Асимптотично стійкий" означає, що для деякого діапазону значень навколо нерухомої точки знаходиться сусідство ( m ∗m[1]m∗A′(m∗)m∗
, не обов'язково невеликого розміру, фіксована точка єпривабливою, і тому, якщо алгоритм дає значення в цьому сусідстві, він буде сходитися. Властивість, що є "рівномірною", означає, що межа цього мікрорайону, а отже, і його розмір, не залежить від початкового значення алгоритму. Фіксована точка стаєглобальноUAS, якщо γ = ∞ .
Так у нашому випадку, якщо ми це доведемо(m∗±γ)γ=∞
|A′(m∗)|≡∣∣∣∣∑i=1N∂vi(m∗)∂mxi∣∣∣∣<1[2]
ми довели властивість UAS, але без глобальної конвергенції. Тоді ми можемо або спробувати встановити, що сусідство притягання насправді є цілими розширеними реальними числами, або що конкретне вихідне значення, яке використовує ОП, як зазначено в коментарях (і це є стандартним методологією IRLS), тобто середнє значення вибірки з 's, ˉ x , завжди належить до сусідства тяжіння нерухомої точки.xx¯
Обчислюємо похідну
∂vi(m∗)∂m=∂wi(m∗)∂m∑Ni=1wi(m∗)−wi(m∗)∑Ni=1∂wi(m∗)∂m(∑Ni=1wi(m∗))2
=1∑Ni=1wi(m∗)⋅[∂wi(m∗)∂m−vi(m∗)∑i=1N∂wi(m∗)∂m]
A′(m∗)=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)∑i=1Nvi(m∗)xi]
=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)m∗]
and
|A′(m∗)|<1⇒∣∣∣∣∑i=1N∂wi(m∗)∂m(xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[3]
we have
∂wi(m∗)∂m=−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗||xi−m∗|+xi−m∗|xi−m∗|ρ′(|xi−m∗|)|xi−m∗|2=xi−m∗|xi−m∗|3ρ′(|xi−m∗|)−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗|2=xi−m∗|xi−m∗|2⋅[ρ′(|xi−m∗|)|xi−m∗|−ρ′′(|xi−m∗|)]=xi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)]
Inserting this into [3] we have
∣∣∣∣∑i=1Nxi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)](xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣
⇒∣∣∣∣∑i=1Nwi(m∗)−∑i=1Nρ′′(|xi−m∗|)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[4]
This is the condition that must be satisfied for the fixed point to be UAS. Since in our case the penalty function is convex, the sums involved are positive. So condition [4] is equivalent to
∑i=1Nρ′′(|xi−m∗|)<2∑i=1Nwi(m∗)[5]
If ρ(|xi−m|) is Hubert's loss function, then we have a quadratic (q) and a linear (l) branch,
ρ(|xi−m|)=⎧⎩⎨(1/2)|xi−m|2|xi−m|≤δδ(|xi−m|−δ/2)|xi−m|>δ
and
ρ′(|xi−m|)={|xi−m||xi−m|≤δδ|xi−m|>δ
ρ′′(|xi−m|)={1|xi−m|≤δ0|xi−m|>δ
⎧⎩⎨⎪⎪wi,q(m)=1|xi−m|≤δwi,l(m)=δ|xi−m|<1|xi−m|>δ
Since we do not know how many of the |xi−m∗|'s place us in the quadratic branch and how many in the linear, we decompose condition [5] as (Nq+Nl=N)
∑i=1Nqρ′′q+∑i=1Nlρ′′l<2[∑i=1Nqwi,q+∑i=1Nlwi,l]
⇒Nq+0<2[Nq+∑i=1Nlwi,l]⇒0<Nq+2∑i=1Nlwi,l
which holds. So for the Huber loss function the fixed point of the algorithm is uniformly asymptotically stable, irrespective of the x's. We note that the first derivative is smaller than unity in absolute value for any m, not just the fixed point.
What we should do now is either prove that the UAS property is also global, or that, if m(0)=x¯ then m(0) belongs to the neighborhood of attraction of m∗.