Я розумію, що однією з причин логістичної регресії часто використовується для прогнозування частоти кліків в Інтернеті є те, що вона створює добре калібровані моделі. Чи є хороше математичне пояснення цьому?
Я розумію, що однією з причин логістичної регресії часто використовується для прогнозування частоти кліків в Інтернеті є те, що вона створює добре калібровані моделі. Чи є хороше математичне пояснення цьому?
Відповіді:
Так.
Прогнозований вектор ймовірності з логістичної регресії задовольняє матричному рівнянню
Де - матриця проектування, а - вектор відповіді. Це можна розглядати як сукупність лінійних рівнянь, один , що витікає із кожного стовпчика матриці плану .y X
Спеціалізуючись на стовпчику перехоплення (який є рядком в транспонованій матриці), пов'язане лінійне рівняння
тому загальна середня передбачувана ймовірність дорівнює середній величині відповіді.
Більш загально, для стовпця двійкової функції пов'язане лінійне рівняння
тому сума (а значить і середня) передбачуваних ймовірностей дорівнює сумі відповіді, навіть якщо спеціалізується на тих записах, для яких .
Я думаю, що можу надати вам зрозуміле пояснення наступним чином:
Ми знаємо, що його функцію втрати можна виразити у вигляді такої функції:
Де представлено кількість усіх навчальних зразків, мітка i-го зразка, передбачувана ймовірність i-го зразка: . (помітьте упередженість тут)
m
Оскільки метою навчання є мінімізація функції втрат, давайте оцінимо її часткову похідну стосовно кожного параметра (детальну деривацію можна знайти тут ):
І встановивши його на нуль yeils:
Це означає, що якщо модель повністю підготовлена, прогнозовані ймовірності, які ми отримуємо для навчального набору, поширюються так, що для кожної функції сума зважених (усіх) значень цієї ознаки дорівнює сумі значень цієї функції позитивних зразків.
Вище сказане відповідає кожній функції так, як ухил . Встановлення як 1 і як yeilds:
Тоді отримуємо:
Де - передбачувана ймовірність повністю підготовленої моделі для i-го зразка. І ми можемо записати функцію компактно:
Ми, очевидно, бачимо, що логістична регресія добре відкалібрована.
Довідково: лінійно-лінійні моделі та умовні випадкові поля Чарльза Елкана