Чому логістична регресія виробляє добре калібровані моделі?


13

Я розумію, що однією з причин логістичної регресії часто використовується для прогнозування частоти кліків в Інтернеті є те, що вона створює добре калібровані моделі. Чи є хороше математичне пояснення цьому?


2
логістична регресія, зроблена для прогнозування ймовірностей -> які призводять до каліброваних прогнозів, якщо не надмірно. в той час як більшість моделей машинного навчання не передбачають ймовірностей, а скоріше класів - і є певна суперечність для отриманих псевдоімовірностей з цих прогнозів -> отже, відзначте добре відкалібровану
Чарлз

2
Я повинен був уточнити питання, але моє запитання було більше про те, чому саме так LR настільки корисний для прогнозування ймовірностей.
lsankar4033

Варто зазначити, що ви можете просто підходити до логістичної регресії до виходу погано каліброваного класифікатора, щоб отримати калібровану модель. Це називається Platt Scaling en.wikipedia.org/wiki/Platt_scaling
generic_user

Відповіді:


15

Так.

Прогнозований вектор ймовірності з логістичної регресії задовольняє матричному рівняннюp

Xt(py)=0

Де - матриця проектування, а - вектор відповіді. Це можна розглядати як сукупність лінійних рівнянь, один , що витікає із кожного стовпчика матриці плану .y XXyX

Спеціалізуючись на стовпчику перехоплення (який є рядком в транспонованій матриці), пов'язане лінійне рівняння

i(piyi)=0

тому загальна середня передбачувана ймовірність дорівнює середній величині відповіді.

Більш загально, для стовпця двійкової функції пов'язане лінійне рівнянняxij

ixij(piyi)=ixij=1(piyi)=0

тому сума (а значить і середня) передбачуваних ймовірностей дорівнює сумі відповіді, навіть якщо спеціалізується на тих записах, для яких .xij=1


1
@MatthewDrury як я можу інтерпретувати ваше перше рівняння? є форми ? Однак це лінійне відношення має місце? Дякую! p1/(1+exp(x))
Рік

1
Так, р такої форми. Перше рівняння походить від встановлення похідної функції втрати на нуль.
Меттью Друрі

1
Це стосується лише калібрування великого розміру, яке не є тим, що ми хочемо: калібрування в малому.
Френк Харрелл

1
@FrankHarrell Догляд докласти? Я раніше не чув цих термінів.
Меттью Друрі

3
У літературі щодо прогнозу ймовірностей, що датується Повітряною службою США 1950 року, існує довга історія - саме тут вперше було використано бал Brier. Калібрування в малому означає, що якщо дивитись на прогнозовані ризики 0,01, 0,02, ..., 0,99, кожен із них є точним, тобто за всі часи, коли прогнозований ризик становив 0,4, результат стався приблизно 0,4 час. Наступним кроком я називаю "калібрування в крихітних": для чоловіків, у яких прогноз становив 0,4, результат був 0,4 разу, тоді для жінок.
Френк Харрелл

2

Я думаю, що можу надати вам зрозуміле пояснення наступним чином:

Ми знаємо, що його функцію втрати можна виразити у вигляді такої функції: Де представлено кількість усіх навчальних зразків, мітка i-го зразка, передбачувана ймовірність i-го зразка: . (помітьте упередженість тут)

J(θ)=1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

my(i)hθ(x(i))11+exp[αjθjxj(i)]α

Оскільки метою навчання є мінімізація функції втрат, давайте оцінимо її часткову похідну стосовно кожного параметра (детальну деривацію можна знайти тут ): І встановивши його на нуль yeils:θj

J(θ)θj=1mi=1m[hθ(x(i))y(i)]xj(i)


i=1mhθ(x(i))xj(i)=i=1my(i)xj(i)

Це означає, що якщо модель повністю підготовлена, прогнозовані ймовірності, які ми отримуємо для навчального набору, поширюються так, що для кожної функції сума зважених (усіх) значень цієї ознаки дорівнює сумі значень цієї функції позитивних зразків.

Вище сказане відповідає кожній функції так, як ухил . Встановлення як 1 і як yeilds: Тоді отримуємо: Де - передбачувана ймовірність повністю підготовленої моделі для i-го зразка. І ми можемо записати функцію компактно: αx0αθ0

i=1mhθ(x(i))x0(i)=i=1my(i)x0(i)
i=1mhθ(x(i))=i=1my(i)
hθ(x(i))
i=1mp(i)=i=1my(i)

Ми, очевидно, бачимо, що логістична регресія добре відкалібрована.

Довідково: лінійно-лінійні моделі та умовні випадкові поля Чарльза Елкана

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.