Інформація з матриці капелюхів для логістичної регресії


12

Мені зрозуміло, і на кількох сайтах добре пояснено, яку інформацію дають значення по діагоналі капелюшкової матриці для лінійної регресії.

Матриця капелюхів моделі логістичної регресії мені менш зрозуміла. Чи вона ідентична інформації, яку ви отримуєте з матриці капелюхів, застосовуючи лінійну регресію? Це визначення матриці капелюхів я знайшов у іншій темі резюме (джерело 1):

H=VX(XVX)1XV

з X вектор змінних предиктора і V - діагональна матриця з (π(1π)) .

Іншими словами, правдиво також, що особливе значення матриці капелюха спостереження також просто представляє положення коваріатів у коваріатному просторі і не має нічого спільного з результативним значенням цього спостереження?

Про це написано в книзі "Категоричний аналіз даних" у програмі Agresti:

Чим більший рівень спостереження, тим більший його потенційний вплив на придатність. Як і у звичайній регресії, важелі падають між 0 і 1 і доходять до кількості параметрів моделі. На відміну від звичайної регресії, значення капелюхів залежать від розміру, а також матриці моделі, і точки, які мають екстремальні значення прогнозувальника, не повинні мати високого важеля.

Отже, з цього визначення, здається, ми не можемо використовувати його, як ми використовуємо його у звичайній лінійній регресії?

Джерело 1: Як обчислити матрицю капелюхів для логістичної регресії в R?

Відповіді:


13

Дозвольте мені трохи змінити позначення і записати матрицю капелюхів як де - діагональна симетрична матриця із загальними елементами . Позначимо як групи індивідів з однаковим значенням коваріату . Діагональний елемент ( ) матриці капелюха ви можете отримати як Тоді сума дає число параметрів , як і в лінійної регресії. Тепер до вашого питання: Vvj=mjπ(xj)[1-π(xj)]mjx=xjjthhjhj=mjπ(xj)[1-π(xj)]xj(XVX)-

H=V12X(XVX)1XV12
Vvj=mjπ(xj)[1π(xj)]mjx=xjjthhj h j
hj=mjπ(xj)[1π(xj)]xj(XVX)1xj
hj

Інтерпретація значень важеля в матриці капелюхів залежить від розрахункової ймовірності . Якщо , ви можете інтерпретувати значення важелів так само, як у випадку лінійної регресії, тобто віддалення від середнього значення дає вам більш високі значення. Якщо ви перебуваєте в крайніх кінцях розподілу ймовірностей, ці значення важелів можуть більше не вимірювати відстань у тому ж сенсі. Це показано на малюнку нижче, взятому з Hosmer та Lemeshow (2000):0,1 < π < 0,9π0.1<π<0.9

введіть тут опис зображення

У цьому випадку найбільш екстремальні значення в просторі коваріату можуть дати вам найменший важіль, що суперечить випадку лінійної регресії. Причина полягає в тому, що важіль при лінійній регресії - це монотонна функція, що не відповідає правильності нелінійної логістичної регресії. У вищенаведеному формулюванні діагональних елементів матриці капелюхів є монотонно зростаюча частина, яка представляє відстань від середнього. Це , яку ви можете подивитися, якщо вас цікавить лише відстань. Більшість діагностичних статистичних даних для логістичних регресій використовують повний важіль , тому ця окрема монотонна частина рідко розглядається окремо. h jxj(XVX)1xjhj

Якщо ви хочете прочитати цю тему глибше, погляньте на статтю Прегібона (1981), який вивів матрицю логістичних капелюхів, та книгу Хосмера та Лемешоу (2000).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.