Матричне позначення для логістичної регресії


16

У лінійній регресії (квадратичні втрати), використовуючи матрицю, ми маємо дуже стисле позначення цілі

minimize  Axb2

Де - матриця даних, - коефіцієнти, а - відповідь.x bAxb

Чи є подібні матричні позначення для цілі логістичної регресії? Усі помічені нами позначення не можуть позбутися суми за всіма точками даних (щось на зразок ).dataLlogistic(y,βTx)


EDIT: спасибі за joceratops та чудову відповідь AdamO. Їх відповідь допомогла мені зрозуміти, що ще одна причина лінійної регресії має більш стисле позначення, тому що визначення норми, яка інкапсулює квадрат і суму, або . Але в логістичних втратах немає такого визначення, що робить позначення трохи складнішими.ee

Відповіді:


18

У лінійній регресії рішення максимізації ймовірності оцінки (MLE) для оцінки x має таке рішення закритої форми (якщо вважати, що A є матрицею з повним рангом стовпця):

x^lin=argminxAxb22=(ATA)1ATb

Це читається як "знайти x що мінімізує цільову функцію, Axb22 ". Хороша річ , що представляють лінійна регресія цільової функції в цьому випадку є те , що ми можемо тримати все в матричної формі і вирішити для ї лин вручну. Як зазначає Алекс Р., на практиці ми часто не вважаємо ( A T A ) - 1 безпосередньо, тому що обчислювально неефективно і A часто не відповідає критеріям повного рангу. Замість цього ми переходимо до псевдоінверси Мура-Пенроузаx^lin(ATA)1A. Деталі обчислювального рішення для псевдоінверсії можуть включати декомпозицію Холеського або розклад сингулярного значення.

Альтернативно, рішення MLE для оцінки коефіцієнтів у логістичній регресії є:

x^log=argminxi=1Ny(i)log(1+exTa(i))+(1y(i))log(1+exTa(i))

де (якщо припустимо, що кожен зразок даних зберігається в рядковому порядку):

x - вектор, що представляє коефіцієнти регресії

a(i) - вектор, що представляєith вибірку / рядок у матриці данихA

y(i) є скаляром в{0,1} , іith етикеткавідповіднаith зразка

N є число вибірок даних / кількість рядків в матриці данихA .

Знову ж таки, це читається як "знайти x що мінімізує цільову функцію".

Якщо ви хочете, ви можете взяти його на крок далі і уявімо х журнал в матричному вигляді наступним чином :x^log

x^log=argminx[1(1y(1))1(1y(N))][log(1+exTa(1))...log(1+exTa(N))log(1+exTa(1))...log(1+exTa(N))]

але ви нічого не отримуєте від цього. Логістична регресія не має рішення закритої форми і не отримує таких самих переваг, як лінійна регресія, представляючи її в матричній нотації. Для того, щоб вирішити для ї балки методів оцінки , таких як градієнтний спуск і методу Ньютона-Рафсона використовується. Через використання деяких з цих методів (тобто Ньютона-Рафсона), х колоду апроксимується і представлена в матричної формі ( див посилання , надану Alex R. ).x^logx^log


Чудово. Спасибі. Я думаю, що причина, коли ми не маємо щось подібне до розв’язання є причиною того, що ми не робимо цей крок більше, щоб скласти позначення матриці та уникнути символу суми. AAx=Ab
Haitao Du

У нас є деяка перевага зробити крок далі, перетворення його на матричне множення зробить код простішим, а в багатьох платформах, таких як matlab, цикл із сумою за всіма даними набагато повільніше, ніж операції з матрицею.
Haitao Du

5
@ hxd1011: лише невеликий коментар: скорочення до матричних рівнянь не завжди є розумним. У випадку насправді не слід намагатися шукати матрицю, обернену A T A , а скоріше робити щось на кшталт розкладу Холеського, яке буде набагато швидшим та чисельнішим. Для логістичної регресії існує маса різних схем ітерації, які дійсно використовують матричні обчислення. Чудовий огляд дивіться тут: research.microsoft.com/en-us/um/people/minka/papers/logreg/…ATAx=ATbATA
Alex R.

1
@AlexR. дуже тобі дякую. Я дізнався, що використання нормального рівняння зробить матричне умовне число квадратним. А QR або Чолеський був би набагато кращим. Ваше посилання чудове, такий огляд за допомогою числових методів - це завжди те, що я хотів.
Haitao Du

16

@joceratops відповідь зосереджується на проблемі оптимізації максимальної вірогідності оцінки. Це дійсно гнучкий підхід, який піддається багатьом типам проблем. Для оцінки більшості моделей, включаючи лінійні та логістичні регресійні моделі, існує ще один загальний підхід, який базується на методі оцінки моментів.

Оцінювач лінійної регресії також може бути сформульований як корінь рівняння, що оцінює:

0=XT(YXβ)

In this regard β is seen as the value which retrieves an average residual of 0. It needn't rely on any underlying probability model to have this interpretation. It is, however, interesting to go about deriving the score equations for a normal likelihood, you will see indeed that they take exactly the form displayed above. Maximizing the likelihood of regular exponential family for a linear model (e.g. linear or logistic regression) is equivalent to obtaining solutions to their score equations.

0=i=1nSi(α,β)=βlogL(β,α,X,Y)=XT(Yg(Xβ))

Where Yi has expected value g(Xiβ). In GLM estimation, g is said to be the inverse of a link function. In normal likelihood equations, g1 is the identity function, and in logistic regression g1 is the logit function. A more general approach would be to require 0=i=1nYg(Xiβ) which allows for model misspecification.

Additionally, it is interesting to note that for regular exponential families, g(Xβ)β=V(g(Xβ)) which is called a mean-variance relationship. Indeed for logistic regression, the mean variance relationship is such that the mean p=g(Xβ) is related to the variance by var(Yi)=pi(1pi). This suggests an interpretation of a model misspecified GLM as being one which gives a 0 average Pearson residual. This further suggests a generalization to allow non-proportional functional mean derivatives and mean-variance relationships.

A generalized estimating equation approach would specify linear models in the following way:

0=g(Xβ)βV1(Yg(Xβ))

With V a matrix of variances based on the fitted value (mean) given by g(Xβ). This approach to estimation allows one to pick a link function and mean variance relationship as with GLMs.

In logistic regression g would be the inverse logit, and Vii would be given by g(Xiβ)(1g(Xβ)). The solutions to this estimating equation, obtained by Newton-Raphson, will yield the β obtained from logistic regression. However a somewhat broader class of models is estimable under a similar framework. For instance, the link function can be taken to be the log of the linear predictor so that the regression coefficients are relative risks and not odds ratios. Which--given the well documented pitfalls of interpreting ORs as RRs--behooves me to ask why anyone fits logistic regression models at all anymore.


1
+1 great answer. formulate it as a root finding on derivative is really new for me. and the second equation is really concise.
Haitao Du
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.