Чи гарантувала ймовірність журналу в GLM гарантовану конвергенцію до глобальних максимумів?


16

Мої запитання:

  1. Чи гарантовано узагальнені лінійні моделі (ГЛМ) наближаються до глобального максимуму? Якщо так, то чому?
  2. Крім того, які обмеження існують у функції зв'язку для забезпечення опуклості?

Моє розуміння GLM полягає в тому, що вони максимізують дуже нелінійну функцію вірогідності. Таким чином, я б міг уявити, що існує кілька локальних максимумів, і набір параметрів, до яких ви сходитесь, залежить від початкових умов алгоритму оптимізації. Однак, провівши деякі дослідження, я не знайшов жодного джерела, яке б вказувало на наявність декількох локальних максимумів. Крім того, я не так добре знайомий з методами оптимізації, але знаю, що метод Ньютона-Рафсона та алгоритм IRLS дуже схильні до локальних максимумів.

Будь ласка, поясніть, якщо це можливо, як на інтуїтивній, так і на математичній основі!

EDIT: dksahuji відповів на моє початкове запитання, але я хочу додати наступне питання [ 2 ] вище. ("Які обмеження існують у функції зв'язку для забезпечення опуклості?")


Я думаю, що до цього могло б бути необхідне обмеження. Яке джерело твердження?
Glen_b -Встановіть Моніку

Кілька сайтів, здавалося, натякають на це, однак я не міг знайти нічого, що згадувало про це прямо, тому я також вітаю його відмову!
DankMasterDan

доки ймовірність чітко визначена скрізь у домені (і ігнорування деяких тангенціальних числових питань), я думаю, що так. За цих умов гессян є <0 скрізь у домені, тому ймовірність глобально увігнута. До речі, функція не є «сильно нелінійною» в параметрах, і саме це важливо.
user603

@ user603 Яке джерело / доказ того, що гессіан скрізь <0?
DankMasterDan

Логістичні, Пуассонові та Гауссові регресії часто опуклі, отримуючи функцію "хорошого" зв'язку. Однак при довільній функції зв'язку вони не опуклі.
Спогад

Відповіді:


11

Визначення експоненціальної родини:

p(x|θ)=h(x)exp(θTϕ(x)A(θ)),

де - функція розділення журналу. Тепер можна довести, що для 1D-випадку мають місце такі три речі (і вони узагальнюють на більш високі розміри - ви можете вивчити властивості експоненціальних сімей або журнальний розділ):A(θ)

  1. dAdθ=E[ϕ(x)]

  2. d2Adθ2=E[ϕ2(x)]E[ϕ(x)]2=var(ϕ(x))

  3. 2Aθiθj=E[ϕi(x)ϕj(x)]E[ϕi(x)]E[ϕj(x)]=cov(ϕ(x))Δ2A(θ)=cov(ϕ(x))

Вищенаведений результат доводить, що випуклий (оскільки c o v ( ϕ ( x ) ) є позитивним напівкінцевим). Тепер ми розглянемо функцію ймовірності для MLE: A(θ)cov(ϕ(x))

p(D|θ)=[i=1Nh(xi)] exp(θT[i=1Nϕ(xi)]NA(θ))log(p(D|θ))=θT[i=1Nϕ(xi)]NA(θ)=θT[ϕ(D)]NA(θ)

Тепер лінійний у теті і - A ( θ ) увігнутий. Тому існує унікальний глобальний максимум.θT[ϕ(D)]A(θ)

Існує узагальнена версія, що називається вигнутою експоненціальною сім'єю, яка також була б подібною. Але більшість доказів є у канонічній формі.


значить, це означає, що GLM має унікальну глобальну номінальну мінімуму, яка функція зв’язку обрана (включаючи неканонічну)?
DankMasterDan

1
Я спробую відповісти, наскільки я це сприймаю. - це випадок, про який ви говорите. Це все ще є увігнутим у η, але може не знаходитись у θ, тому η повинен бути таким, що вся ймовірність колоди є увігнутою в θ . p(x|θ)=h(x)exp(η(θ)Tϕ(x)A(η(θ)))ηθηθ
дксахуджі

Зауважте, що питання задається питанням конвергенції, а не просто існування, але з кількома обмеженнями, що теж може бути здійснене.
Glen_b -Встановіть Моніку

@Glen_b Чи можете ви детальніше? Я не знаю жодних таких обмежень. Можливо, щось на кшталт обмежень щодо ступінчастого розміру оптимізатора на основі градієнта до конвергенції гарантії у випадку увігнутої функції.
dksahuji

1
@Glen_b Це може бути правдою в цілому, але я не в змозі побачити жодної причини, щоб увігнута функція не сходилася до оптими в межах малого допустимого значення. Але я б сказав, що я не маю жодного практичного досвіду з цим, і я тільки почав. :)
dksahuji
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.