Коли логістична регресія вирішується в закритому вигляді?


31

Візьмемо і та припустимо, що ми змоделюємо завдання передбачити y задане x за допомогою логістичної регресії. Коли коефіцієнти логістичної регресії можна записати у закритому вигляді?x{0,1}dy{0,1}

Одним із прикладів є використання насиченої моделі.

Тобто визначте , де індексує набори в наборі потужностей , а повертає 1, якщо всі змінні -го набору дорівнюють 1, а 0 в іншому випадку. Тоді ви можете виразити кожен в цій логістичній регресійній моделі як логарифм раціональної функції статистики даних.P(y|x)exp(iwifi(xi))i{x1,,xd}fiiwi

Чи є інші цікаві приклади, коли існує закрита форма?


4
Я припускаю, що ви маєте на увазі "коли параметри MLE в закритому вигляді?"
Glen_b -Встановіть Моніку

Чи можете ви детальніше розповісти, що ви робили? Ваше запитання звучить так, ніби ви намагалися отримати звичайний оцінювач найменших квадратів для проблеми логістичної регресії?
Момо

1
Дякую за цікавий пост / запитання, Ярославе. Чи є у вас посилання на приклад, який ви показуєте?
Побіт

1
Минув деякий час, але, можливо, це було в книзі «Графічні моделі» Лаурітцена. Більш широкі основи відповіді на це питання є - ви отримуєте рішення закритої форми, коли (гіпер) графік, сформований достатньою статистикою, є хордальним
Ярослав Булатов

Це може бути цікаво tandfonline.com/doi/abs/10.1080/… Я вважаю, що це особливий випадок аналітичного рішення, коли у вас є лише таблиця 2x2
Остін

Відповіді:


33

Як зазначав kjetil b halvorsen, це, по-своєму, диво, що лінійна регресія допускає аналітичне рішення. І це так лише в силу лінійності проблеми (щодо параметрів). В OLS у вас є який має умови першого порядку Для задачі з змінними (у т.ч. константа, якщо потрібно - є також певна регресія через проблеми виникнення), це система з рівняннями і

i(уi-хi'β)2хвβ,
p p p
2i(yixiβ)xi=0
pppневідомі. Найголовніше - це лінійна система, тому ви можете знайти рішення, використовуючи стандартну теорію та практику лінійної алгебри . Ця система матиме рішення з ймовірністю 1, якщо у вас немає ідеально колінеарних змінних.

Тепер з логістичною регресією все вже не так просто. Записавши функцію вірогідності журналу, і взявши його похідну для пошуку MLE, отримаємо Параметри вводять це дуже нелінійно: для кожного є нелінійна функція, і вони додаються разом. Немає аналітичного рішення (крім, мабуть, у тривіальній ситуації з двома спостереженнями чи чимось подібним), і вам доведеться використовуватиl

l(y;x,β)=iyilnpi+(1yi)ln(1pi),pi=(1+exp(θi))1,θi=xiβ,
βя β
lβ'=iгpiгθ(уipi-1-уi1-pi)хi=i[уi-11+досвід(хi'β)]хi
βiнелінійні методи оптимізації для пошуку оцінок .β^

Дещо глибший погляд на проблему (взяття другої похідної) виявляє, що це проблема опуклої оптимізації пошуку максимуму увігнутої функції (прославленої багатоваріантної параболи), тому будь-яка існує, і будь-який розумний алгоритм повинен знайти її швидше швидко, або речі здуваються до нескінченності. Останнє відбувається з логістичною регресією, коли для деякого , тобто у вас ідеальний прогноз. Це досить неприємний артефакт: ви могли б подумати, що коли у вас ідеальний прогноз, модель працює чудово, але досить цікаво, це навпаки.cProb[Yi=1|xiβ>c]=1c


питання в тому, чому ваше останнє рівняння не розв’язується. це пов'язано із зворотним розбігом логістичної функції на 0 і 1, чи це пов'язано з нелінійністю взагалі?
eyaler

5
(+1) Що стосується останнього пункту: З математичної точки зору це робить роботу «відмінно» в тому сенсі , що ЗМУ буде давати ідеальну розділяє гіперплоскость. Чи буде ваш чисельний алгоритм сприятливо поводитися в цій обставині, це окрема справа. Згладжування Лапласа часто використовується в таких ситуаціях.
кардинал

@eyaler, я б сказав, це пов’язано з нелінійністю взагалі. Я розумію, що існує обмежений набір обставин, коли це можна вирішити, хоча я не знаю, що це за обставини.
Стаск

1
Я не розумію, яка математична умова існує, що змушує систему не мати рішення закритої форми? Чи є загальна умова, коли речі взагалі не мають рішення закритої форми?
Чарлі Паркер

чи факт, що логістична регресія не має закритої форми, що можна довести, переглянувши ітерацію градієнтного спуску для неї?
Чарлі Паркер

8

Спочатку ця публікація була задумана як довгий коментар, а не повна відповідь на відповідне питання.

З питання, трохи незрозуміло, чи інтерес полягає лише у двійковій справі або, можливо, у більш загальних випадках, коли вони можуть бути безперервними або приймати інші дискретні значення.

Один приклад, який не зовсім відповідає на запитання, але пов'язаний, і який мені подобається, стосується рейтингу переваг позицій, отриманого за допомогою парних порівнянь. Модель Бредлі-Террі можна виразити як логістичну регресію, де а α i - "спорідненість", "популярність" або " параметр міцності "елемента i з Y i j = 1, що вказує на елемент i, був кращим над елементом

logit(Pr(Yij=1))=αiαj,
αiiYij=1i у парному порівнянні.j

Якщо повний Кругові порівняння виконуються (тобто перевагу попарно записуються для кожної невпорядкованою пари), то виходить, що ранг порядок ОМП альфа я відповідаю рангу порядку S i = j i Y i j , загальна сума разів, коли кожен об’єкт віддавав перевагу іншому.(i,j)α^iSi=jiYij

Щоб інтерпретувати це, уявіть собі турнір з повним кругообігом у улюбленому змагальному спорті. Потім цей результат говорить про те, що модель Бредлі – Террі класифікує гравців / команд відповідно до їх виграшного відсотка. Буде це обнадійливим чи невтішним результатом, залежить від вашої точки зору.

Примітка: Цей результат впорядкування за рейтингом, як правило, не виконується, коли не грається повний кругообіг.


2
Мене цікавило бінарне, тому що це було найпростіше проаналізувати. Я знайшов достатньо широку умову у творах Лаурітцен - ви отримуєте закриту форму, якщо відповідна лінійно-лінійна модель розкладається
Ярослав Булатов
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.