Різні способи створити інтервал довіри для коефіцієнта шансів від логістичної регресії


12

Я вивчаю, як побудувати 95% довірчий інтервал для коефіцієнта шансів з коефіцієнтів, отриманих при логістичній регресії. Отже, розглядаючи модель логістичної регресії,

журнал(p1-p)=α+βх

таким, що х=0 для контрольної групи та х=1 для групи випадків.

Я вже читав, що найпростіший спосіб - побудувати 95% CI для β тоді ми застосували експоненціальну функцію, тобто

β^±1,96×SЕ(β^)досвід{β^±1,96×SЕ(β^)}

Мої запитання:

  1. Яка теоретична причина обґрунтовує цю процедуру? Я знаю, що Відношення шансів=досвід{β} і максимальна оцінка ймовірності інваріантні. Однак я не знаю зв'язку між цими елементами.

  2. Чи повинен метод дельти виробляти той самий 95% довірчий інтервал, як попередня процедура? Використовуючи метод дельти,

    досвід{β^}˙N(β, досвід{β}2Vаr(β^))

    Потім,

    досвід{β^}±1,96×досвід{β}2Vаr(β^)

    Якщо ні, то яка найкраща процедура?


1
Мені також подобається завантажувальний інструмент для CI, якщо у мене є значення параметрів або дані тренувань достатнього розміру.
EngrStudent

2
Є кращий спосіб зробити це, дивіться stats.stackexchange.com/questions/5304/… подробиці
mdewey

Відповіді:


7
  1. Обґрунтуванням процедури є асимптотична нормальність MLE для і випливає з аргументів, що стосуються теореми про центральний межа.β

  2. Метод Delta походить від лінійного (тобто Тейлора першого порядку) розширення функції навколо MLE. Згодом ми звертаємось до асимптотичної нормальності та неупередженості MLE.

Асимптотично обидва дають однакову відповідь. Але практично ви б віддали перевагу тому, який виглядає більш нормально. У цьому прикладі я віддав би перевагу першому, оскільки останній, ймовірно, буде менш симетричним.


3

Порівняння методів довірчих інтервалів на прикладі ISL

Книга "Вступ до статистичного навчання" Тібшірані, Джеймса, Хасті надає приклад на сторінці 267 інтервалів довіри для поліноміальної логістичної регресії ступеня 4 за даними заробітної плати . Цитування книги:

Ми моделюємо бінарних подій використовуючи логістичну регресію з поліномом ступеня 4. Встановлена ​​задня ймовірність заробітної плати, що перевищує 250 000 доларів, показана синім кольором, а також приблизно 95% довірчий інтервал.шаге>250

Нижче наведено короткий підсумок двох методів побудови таких інтервалів, а також коментарі щодо їх реалізації з нуля

Інтервали трансформації Wald / Endpoint

  • Обчисліть верхню та нижню межі довірчого інтервалу для лінійної комбінації (використовуючи КІ Wald)хТβ
  • Застосуйте монотонне перетворення до кінцевих точок для отримання ймовірностей.Ж(хТβ)

Оскільки є монотонним перетвореннямx T βПr(хТβ)=Ж(хТβ)хТβ

[Пr(хТβ)LПr(хТβ)Пr(хТβ)U]=[Ж(хТβ)LЖ(хТβ)Ж(хТβ)U]

Конкретно це означає обчислити а потім застосувати перетворення logit до результату, щоб отримати нижню і верхню межі:βТх±zSЕ(βТх)

[ехТβ-zSЕ(хТβ)1+ехТβ-zSЕ(хТβ),ехТβ+zSЕ(хТβ)1+ехТβ+zSЕ(хТβ),]

Обчислення стандартної помилки

Максимальна теорія ймовірності говорить нам, що приблизна дисперсія може бути обчислена за допомогою матриці коваріації коефіцієнтів регресії за допомогоюΣхТβΣ

Vаr(хТβ)=хТΣх

Визначте проектну матрицю та матрицю якVХV

X = [1х1,1х1,p1х2,1х2,p1хн,1хн,p]    V = [π^1(1-π^1)000π^2(1-π^2)000π^н(1-π^н)]

де - значення ї змінної для го спостереження, а являє собою прогнозовану ймовірність спостереження . J я π я яхi,jjiπ^ii

Матриця коваріації може бути знайдена у вигляді: і стандартна помилка як S E ( x T β ) = Σ=(XТVX)-1SЕ(хТβ)=Vаr(хТβ)

95-відсоткові довірчі інтервали для передбачуваної ймовірності можуть бути побудовані як

введіть тут опис зображення


Довірчі інтервали методу Дельти

Підхід полягає в обчисленні дисперсії лінійного наближення функції і використанні цього для побудови великих вибіркових довірчих інтервалів.Ж

Вар[Ж(хТβ^)]ЖТ Σ Ж

Де - градієнт, а матриця розрахункової коваріації. Зауважте, що в одному вимірі: Σ

Ж(хβ)β=Ж(хβ)хβхββ=хf(хβ)

Де є похідною . Це узагальнюється у багатовимірному випадкуfЖ

Вар[Ж(хТβ^)]fТ хТ Σ х f

У нашому випадку F - це логістична функція (яку ми позначимо ), похідна якої -π(хТβ)

π'(хТβ)=π(хТβ)(1-π(хТβ))

Тепер ми можемо побудувати довірчий інтервал, використовуючи дисперсію, обчислену вище.

С.Я.=[Пr(хβ^)-zВар[π(хβ^)]Пr(хβ^)+zВар[π(хβ^)]]

У векторній формі для багатофакторного випадку

С.Я.=[π(хТβ^)±z(π(хТβ^)(1-π(хТβ^)))ТхТ  Вар[β^]  х  π(хТβ^)(1-π(хТβ^))]
  • Зауважте, що являє собою єдину точку даних у , тобто один рядок проектної матриціхRp+1Х

введіть тут опис зображення


Відкритий висновок

Перегляд графіків нормальної QQ як для ймовірностей, так і для негативних коефіцієнтів журналу показує, що жоден з них зазвичай не розподіляється. Чи може це пояснити різницю?

введіть тут опис зображення

Джерело:


1

Для більшості цілей, мабуть, найкращий найпростіший спосіб, про що йдеться в контексті перетворення журналу на цій сторінці . Подумайте про вашу залежну змінну як проаналізовану в шкалі logit, за допомогою статистичних тестів та інтервалів довіри (CI), визначених на цій шкалі logit. Коефіцієнт зворотного перетворення на коефіцієнт - це просто поставити ці результати в масштаб, який читач може легше зрозуміти. Це також робиться, наприклад, в аналізі виживання Кокса, де коефіцієнти регресії (і 95% ДІ) піддаються впливу коефіцієнта небезпеки та їх ІС.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.