Чи можете ви дати просте інтуїтивне пояснення методу IRLS, щоб знайти MLE GLM?

Фон:

Я намагаюся дотримуватися огляду Прінстона на оцінку MLE для GLM .

Я розумію основи оцінки MLE: likelihood, score, яка спостерігається і очікувана Fisher informationі Fisher scoringтехніка. І я знаю, як виправдати просту лінійну регресію з оцінкою MLE .

Питання:

Я не можу зрозуміти навіть перший рядок цього методу :(

Яка інтуїція за робочими змінними визначена як: $z_i$

z_{i} = {\hat{η}}_{i} + (y_{i} - {\hat{μ}}_{i}) \frac{d η_{i}}{d μ_{i}}

$z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i}$

Чому вони використовуються замість для оцінки ? $y_i$ $\beta$

І яке їхнє відношення до того, response/link functionякий зв'язок між та $\eta$ $\mu$

Якщо хтось має просте пояснення або може направити мене на більш базовий текст про це, я був би вдячний.

— іхаданні
джерело

Як зауваження, для мене я дізнався про IRLS в контексті надійної (M-) оцінки, перш ніж почути про цілі рамки "GLM" (що я досі не повністю розумію). Для практичного погляду на цей підхід, як простого узагальнення найменших квадратів, я б рекомендував джерело, з яким я вперше зіткнувся: Додаток B книги "Комп'ютерне бачення" Річарда Шеліскі (безкоштовна електронна електронна книга) (перші 4 сторінки, справді, хоча ці посилання на кілька приємних прикладів також).

— GeoMatt22

Деякі роки тому я писав про це статті для своїх студентів (іспанською мовою), тому можу спробувати переписати ці пояснення тут. Я розгляну IRLS (ітеративно переосмислені найменші квадрати) через низку прикладів підвищення складності. Для першого прикладу нам потрібна концепція сім'ї масштабу локації. Нехай - функція густини, яка в якомусь сенсі зосереджена на нулі. Ми можемо побудувати сімейство густин, визначивши де - параметр масштабу і $f_0$

f (x) = f (x; μ, σ) = \frac{1}{σ} f_{0} (\frac{x - μ}{σ})

$f(x)= f(x;\mu,\sigma)= \frac{1}{\sigma} f_0\left(\frac{x-\mu}{\sigma}\right)$

σ > 0

$\sigma > 0$

μ

$\mu$ - параметр розташування. У моделі помилки вимірювання, де зазвичай термін помилки моделюється як нормальний розподіл, ми можемо замість цього звичайного розподілу використовувати сімейство масштабів локації, як побудовано вище. Коли є стандартним нормальним розподілом, конструкція вище дає сімейство .

f_{0}

$f_0$

N (μ, σ)

$\text{N}(\mu, \sigma)$

Зараз ми будемо використовувати IRLS на деяких простих прикладах. Спочатку ми знайдемо оцінки ML (максимальна ймовірність) в моделі з щільністю Коші розподіляє сімейство локацій (тому це сім'я місцеположень). Але спочатку деякі позначення. Оцінювач найменш зважених квадратів задається де - деякі ваги. Ми побачимо, що ML-оцінювач може бути виражений у тому самому вигляді, що і

Y_{1}, Y_{2}, \dots, Y_{n} i.i.d

$Y_1,Y_2,\ldots,Y_n \hspace{1em} \text{i.i.d}$

f (y) = \frac{1}{π} \frac{1}{1 + (y - μ)^{2}}, y \in R,

$f(y)= \frac{1}{\pi} \frac{1}{1+(y-\mu)^2},\hspace{1em} y\in{\mathbb R},$

μ

$\mu$

μ

$\mu$

μ^{*} = \frac{\sum_{i = 1}^{n} w_{i} y_{i}}{\sum_{i = 1}^{n} w_{i}} .

$\mu^{\ast} = \frac{\sum_{i=1}^n w_i y_i} {\sum_{i=1}^n w_i}.$

w_{i}

$w_i$

μ

$\mu$

w_{i}

$w_i$ деяка функція залишків Функцію ймовірності задає і функція вірогідності логотипу задається Його похідна щодо є де . Пишіть

ϵ_{i} = y_{i} - \hat{μ} .

$\epsilon_i = y_i-\hat{\mu}.$

L (y; μ) = {(\frac{1}{π})}^{n} \prod_{i = 1}^{n} \frac{1}{1 + (y_{i} - μ)^{2}}

$L(y;\mu)= \left(\frac{1}{\pi}\right)^n \prod_{i=1}^n \frac{1}{1+(y_i-\mu)^2}$

l (y) = - n \log (π) - \sum_{i = 1}^{n} \log (1 + (y_{i} - μ)^{2}) .

$l(y)= -n \log(\pi) - \sum_{i=1}^n \log\left(1+(y_i-\mu)^2\right).$

μ

$\mu$

\begin{array}{rcl} \frac{\partial l (y)}{\partial μ} & = & 0 - \sum \frac{\partial}{\partial μ} \log (1 + (y_{i} - μ)^{2}) \\ = & - \sum \frac{2 (y_{i} - μ)}{1 + (y_{i} - μ)^{2}} \cdot (- 1) \\ = & \sum \frac{2 ϵ_{i}}{1 + ϵ_{i}^{2}} \end{array}

$\begin{eqnarray} \frac{\partial l(y)}{\partial \mu}&=& 0-\sum \frac{\partial}{\partial \mu} \log\left(1+(y_i-\mu)^2\right) \nonumber \\ &=& -\sum \frac{2(y_i-\mu)}{1+(y_i-\mu)^2}\cdot (-1) \nonumber \\ &=& \sum \frac{2 \epsilon_i}{1+\epsilon_i^2} \nonumber \end{eqnarray}$

ϵ_{i} = y_{i} - μ

$\epsilon_i=y_i-\mu$

f_{0} (ϵ) = \frac{1}{π} \frac{1}{1 + ϵ^{2}}

$f_0(\epsilon)= \frac{1}{\pi} \frac{1}{1+\epsilon^2}$ і , отримуємо Знаходимо де ми використовували визначення

f_{0}^{'} (ϵ) = \frac{1}{π} \frac{- 1 \cdot 2 ϵ}{(1 + ϵ^{2})^{2}}

$f_0'(\epsilon)=\frac{1}{\pi} \frac{-1\cdot 2 \epsilon}{(1+\epsilon^2)^2}$

\frac{f_{0}^{'} (ϵ)}{f_{0} (ϵ)} = \frac{\frac{- 1 \cdot 2 ϵ}{(1 + ϵ^{2})^{2}}}{\frac{1}{1 + ϵ^{2}}} = - \frac{2 ϵ}{1 + ϵ^{2}} .

$\frac{f_0'(\epsilon)}{f_0(\epsilon)} = \frac{\frac{-1 \cdot2\epsilon}{(1+\epsilon^2)^2}} {\frac{1}{1+\epsilon^2}} = -\frac{2\epsilon}{1+\epsilon^2}.$

\begin{array}{rcl} \frac{\partial l (y)}{\partial μ} & = & - \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \\ = & - \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) \cdot (- ϵ_{i}) \\ = & \sum w_{i} ϵ_{i} \end{array}

$\begin{eqnarray} \frac {\partial l(y)} {\partial \mu} & =& -\sum \frac {f_0'(\epsilon_i)} {f_0(\epsilon_i)} \nonumber \\ &=& -\sum \frac {f_0'(\epsilon_i)} {f_0(\epsilon_i)} \cdot \left(-\frac{1}{\epsilon_i}\right) \cdot (-\epsilon_i) \nonumber \\ &=& \sum w_i \epsilon_i \nonumber \end{eqnarray}$

w_{i} = \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) = \frac{- 2 ϵ_{i}}{1 + ϵ_{i}^{2}} \cdot (- \frac{1}{ϵ_{i}}) = \frac{2}{1 + ϵ_{i}^{2}} .

$w_i= \frac{f_0'(\epsilon_i)} {f_0(\epsilon_i)} \cdot \left(-\frac{1}{\epsilon_i}\right) = \frac{-2 \epsilon_i} {1+\epsilon_i^2} \cdot \left(-\frac{1}{\epsilon_i}\right) = \frac{2}{1+\epsilon_i^2}.$ Пам'ятаючи, що ми отримуємо рівняння яке є оціночним рівнянням IRLS. Зауважте, що

ϵ_{i} = y_{i} - μ

$\epsilon_i=y_i-\mu$

\sum w_{i} y_{i} = μ \sum w_{i},

$\sum w_i y_i = \mu \sum w_i,$

Ваги завжди позитивні. $w_i$
Якщо залишок великий, ми надаємо меншу вагу відповідному спостереженню.

Щоб обчислити оцінювач ML на практиці, нам потрібно початкове значення , ми могли б використовувати медіану, наприклад. За допомогою цього значення обчислюємо залишки і ваги Нове значення задається Продовжуючи таким чином, ми визначаємо і Розрахункове значення при проходженні алгоритму стає $\hat{\mu}^{(0)}$

ϵ_{i}^{(0)} = y_{i} - {\hat{μ}}^{(0)}

$\epsilon_i^{(0)} = y_i - \hat{\mu}^{(0)}$

w_{i}^{(0)} = \frac{2}{1 + ϵ_{i}^{(0)}} .

$w_i^{(0)} = \frac{2}{1+\epsilon_i^{(0)} }.$

\hat{μ}

$\hat{\mu}$

{\hat{μ}}^{(1)} = \frac{\sum w_{i}^{(0)} y_{i}}{\sum w_{i}^{(0)}} .

$\hat{\mu}^{(1)} = \frac{\sum w_i^{(0)} y_i} {\sum w_i^{(0)} }.$

ϵ_{i}^{(j)} = y_{i} - {\hat{μ}}^{(j)}

$\epsilon_i^{(j)} = y_i- \hat{\mu}^{(j)}$

w_{i}^{(j)} = \frac{2}{1 + ϵ_{i}^{(j)}} .

$w_i^{(j)} = \frac{2}{1+\epsilon_i^{(j)} }.$

j + 1

$j+1$

{\hat{μ}}^{(j + 1)} = \frac{\sum w_{i}^{(j)} y_{i}}{\sum w_{i}^{(j)}} .

$\hat{\mu}^{(j+1)} = \frac{\sum w_i^{(j)} y_i} {\sum w_i^{(j)} }.$ Продовжуючи, поки послідовність сходиться.

{\hat{μ}}^{(0)}, {\hat{μ}}^{(1)}, \dots, {\hat{μ}}^{(j)}, \dots

$\hat{\mu}^{(0)}, \hat{\mu}^{(1)}, \ldots, \hat{\mu}^{(j)}, \ldots$

Зараз ми вивчаємо цей процес із більш загальним сімейством розташування та масштабу, , з меншими деталями. Нехай не залежать від щільності вище. Визначте також . Функція вірогідності логгізму - Написавши , зауважте, що та Обчислення похідної логічності $f(y)= \frac{1}{\sigma} f_0(\frac{y-\mu}{\sigma})$ $Y_1,Y_2,\ldots,Y_n$ $\epsilon_i=\frac{y_i-\mu}{\sigma}$

l (y) = - \frac{n}{2} \log (σ^{2}) + \sum \log (f_{0} (\frac{y_{i} - μ}{σ})) .

$l(y)= -\frac{n}{2}\log(\sigma^2) + \sum \log(f_0\left(\frac{y_i-\mu}{\sigma}\right)).$

ν = σ^{2}

$\nu=\sigma^2$

\frac{\partial ϵ_{i}}{\partial μ} = - \frac{1}{σ}

$\frac{\partial \epsilon_i}{\partial \mu} = -\frac{1}{\sigma}$

\frac{\partial ϵ_{i}}{\partial ν} = (y_{i} - μ) {(\frac{1}{\sqrt{ν}})}^{'} = (y_{i} - μ) \cdot \frac{- 1}{2 σ^{3}} .

$\frac{\partial \epsilon_i}{\partial \nu} = (y_i-\mu)\left(\frac{1}{\sqrt{\nu}}\right)' = (y_i-\mu)\cdot \frac{-1}{2 \sigma^3}.$

\frac{\partial l (y)}{\partial μ} = \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot \frac{\partial ϵ_{i}}{\partial μ} = \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{σ}) = - \frac{1}{σ} \sum \frac{f_{o}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) (- ϵ_{i}) = \frac{1}{σ} \sum w_{i} ϵ_{i}

$\frac{\partial l(y)}{\partial \mu} = \sum \frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \frac{\partial \epsilon_i}{\partial \mu} = \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot\left(-\frac{1}{\sigma}\right)= -\frac{1}{\sigma}\sum\frac{f_o'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \left(-\frac{1}{\epsilon_i}\right)(-\epsilon_i) = \frac{1}{\sigma}\sum w_i \epsilon_i$ і прирівнюючи це до нуля дає те саме рівняння, що оцінюється, як і перший приклад. Потім шукаємо оцінювач для :

σ^{2}

$\sigma^2$

\begin{array}{rcl} \frac{\partial l (y)}{\partial ν} & = & - \frac{n}{2} \frac{1}{ν} + \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot \frac{\partial ϵ_{i}}{\partial ν} \\ = & - \frac{n}{2} \frac{1}{ν} + \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{(y_{i} - μ)}{2 σ^{3}}) \\ = & - \frac{n}{2} \frac{1}{ν} - \frac{1}{2} \frac{1}{σ^{2}} \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot ϵ_{i} \\ = & - \frac{n}{2} \frac{1}{ν} - \frac{1}{2} \frac{1}{ν} \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) (- ϵ_{i}) \cdot ϵ_{i} \\ = & - \frac{n}{2} \frac{1}{ν} + \frac{1}{2} \frac{1}{ν} \sum w_{i} ϵ_{i}^{2} \overset{!}{=} 0. \end{array}

$\begin{eqnarray} \frac{\partial l(y)}{\partial \nu} &=& -\frac{n}{2}\frac{1}{\nu} + \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \frac{\partial \epsilon_i}{\partial\nu} \nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}+\sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)} \cdot \left(-\frac{(y_i-\mu)}{2\sigma^3}\right) \nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu} - \frac{1}{2}\frac{1}{\sigma^2} \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \epsilon_i\nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}-\frac{1}{2}\frac{1}{\nu} \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \left(-\frac{1}{\epsilon_i}\right) (-\epsilon_i)\cdot\epsilon_i\nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}+\frac{1}{2}\frac{1}{\nu}\sum w_i \epsilon_i^2 \stackrel{!}{=} 0. \nonumber \end{eqnarray}$ веде до оцінювача Ітеративний алгоритм, описаний вище, може бути використаний і в цьому випадку.

\hat{σ^{2}} = \frac{1}{n} \sum w_{i} (y_{i} - \hat{μ})^{2} .

$\hat{\sigma^2} = \frac{1}{n}\sum w_i (y_i-\hat{\mu})^2.$

Далі ми даємо числовий іспит за допомогою R для подвійної експоненціальної моделі (з відомою шкалою) та даних y <- c(-5,-1,0,1,5). Для цих даних справжнє значення оцінювача ML становить 0. Початкове значення буде mu <- 0.5. Один прохід алгоритму є

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

з цією функцією можна експериментувати, виконуючи ітерації "вручну". Тоді ітераційний алгоритм можна виконати

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

Вправа: Якщо модель являє собою розподіл з параметром масштабу покажіть, що ітерації задаються вагою Вправа: Якщо щільність логістична, покажіть ваги, задані $t_k$ $\sigma$

w_{i} = \frac{k + 1}{k + ϵ_{i}^{2}} .

$w_i = \frac{k+1}{k+\epsilon_i^2}.$

w (ϵ) = \frac{1 - e^{ϵ}}{1 + e^{ϵ}} \cdot - \frac{1}{ϵ} .

$w(\epsilon) = \frac{ 1-e^\epsilon}{1+e^\epsilon} \cdot - \frac{1}{\epsilon}.$

На даний момент я залишу його тут, продовжу цю посаду.

— kjetil b halvorsen
джерело

вау, чудове ніжне вступ! але ви завжди посилаєтесь на один параметр для всіх примірників, а джерела, які я цитував, говорять про різні на примірник. це просто банальна модифікація?

u

$u$

u_{i}

$u_i$

— ihadanny

Я додам ще до цього, зараз просто поза часом! Ідеї залишаються тими ж, але детальніше втягується.

— kjetil b halvorsen

прийде до цього!

— kjetil b halvorsen

І дякую за вправу, що показує ваги для логістичної щільності. Зробив це і багато чому навчився цьому процесу. Я не знаю дистрибуції , нічого не можу знайти про це ...

t_{k}

$t_k$

— ihadanny

Ви не проти писати десь повідомлення в блозі, продовжуючи це пояснення? дуже корисно для мене, і я впевнений, що буде для інших ...

— ihadanny