Завищена дисперсія в логістичній регресії


14

Я намагаюся зрозуміти поняття наддисперсії в логістичній регресії. Я читав, що наддисперсія - це коли спостерігається дисперсія змінної відповіді більша, ніж можна було б очікувати від біноміального розподілу.

Але якщо біноміальна змінна може мати лише два значення (1/0), то як вона може мати середнє та дисперсію?

Я добре в тому, щоб обчислити середню величину та різницю успіхів із x кількості випробувань Бернуллі. Але я не можу обернути голову навколо поняття середньої та дисперсії змінної, яка може мати лише два значення.

Хтось може надати інтуїтивний огляд:

  1. Поняття середнього та дисперсії змінної, яке може мати лише два значення
  2. Поняття наддисперсії у змінній, яка може мати лише два значення

1
Додайте 20 значень , де 10 - а 10 - . Чи можете ви поділити це на 20? Чи можете ви обчислити sd ? y01y
Sycorax каже, що повернеться до Моніки

Чудово кажучи, я вважаю, це середнє значення = 0,5, стандартне відхилення = 0,11.
luciano

Скажімо, моя змінна відповідь мала 100 успіхів і 5 невдач. Це, ймовірно, перевищення?
лучано

luciano, вам потрібно більше, ніж одна реалізація експерименту, щоб визначити, чи він є наддисперсним.
Underminer

Відповіді:


10

Біноміальна випадкова величина з випробувань та ймовірністю успіху може приймати більше двох значень. Біноміальна випадкова величина представляє кількість успіхів у цих випробуваннях і може насправді приймати різних значень ( ). Отже, якщо дисперсія цього розподілу більша, ніж очікується, при біноміальних припущеннях (можливо, є зайві нулі, наприклад), це випадок завищення. р Н Н + 1 0 , 1 , 2 , 3 , . . . , NNpNN+10,1,2,3,...,N

Завищена дисперсія не має сенсу для випадкової величини Бернуллі ( )N=1

У контексті кризи логістичної регресії ви можете вважати "невеликий зріз" або групування через вузький діапазон значення прогнозувачем реалізацією біноміального експерименту (можливо, у нас є 10 балів у зрізі з певною кількістю успіхи та невдачі). Незважаючи на те, що ми не маємо по-справжньому декількох випробувань на кожне значення прогнозувача і ми дивимося на пропорції замість необроблених підрахунків, ми все одно очікуємо, що частка кожного з цих "фрагментів" буде близькою до кривої. Якщо ці «зрізи» мають тенденцію бути далеко від кривої, занадто велика мінливість у розподілі. Таким чином, групуючи спостереження, ви створюєте реалізацію біноміальних випадкових величин, а не дивлячись на дані 0/1 окремо.

Приклад нижче - з іншого питання на цьому сайті. Скажімо, блакитні лінії представляють очікувану пропорцію в діапазоні змінних прогнозів. Сині клітини позначають спостережувані випадки (у цьому випадку школи). Це дає графічне зображення того, як може виглядати наддисперсія . Зауважте, що є недоліки інтерпретації комірок графіку нижче, але це дає уявлення про те, як може проявлятися наддисперсія.

Приклад дисперсії


1
Але мене цікавить перевищення в контексті логістичної регресії. Для кожного значення змінної предиктора в логістичній регресії немає n випробувань, є лише одна пробна версія. І результат цього одного судового процесу є успіхом чи невдачею
luciano

Я щойно додав абзац, щоб вирішити інтуїцію, що стоїть за наддисперсією в контексті лінійної регресії.
Underminer

1
Underminer, я намагаюся уявити, що ви маєте на увазі під цим реченням: "Якщо ці" фрагменти "мають тенденцію бути далеко від кривої, занадто велика мінливість у розподілі". Ось, що я думаю, що ви маєте на увазі: на зрізі на кривій, де існує 0,1-0,3 ймовірність успіху, є багато успіхів, а на зрізі на кривій, де можна сказати, 0,7-0,9 ймовірність успіху, є багато невдач. Це ви маєте на увазі і чи означатиме це надмірність?
luciano

1
@luciano Це правильна ідея. Але майте на увазі, що має бути баланс «скибочок», які знаходяться занадто далеко надто і надто далеко за кривою, щоб в першу чергу відбулося прилягання. Тож може бути реалістичніше сказати, що скибочка близько 0,7 має надто багато успіхів (можливо 100%), а наступний фрагмент близько 0,75 має занадто мало (50%), а потім 0,80 - занадто багато (100%) тощо. спостерігається більше дисперсії, ніж можна було б очікувати.
Underminer

Я вас зрозумів, добре пояснено
luciano

7

Як уже зазначали інші, перевищення дисперсії не застосовується у випадку змінної Бернуллі (0/1), оскільки в цьому випадку середнє значення неодмінно визначає дисперсію. В умовах логістичної регресії це означає, що якщо ваш результат є двійковим, ви не можете оцінити параметр дисперсії. (Примітка. Це не означає, що ви можете ігнорувати потенційну кореляцію між спостереженнями лише тому, що ваш результат є бінарним!)

Якщо, з іншого боку, ваш результат - це набір пропорцій, то ви можете оцінити параметр дисперсії (який, хоча часто і більше одного, але може бути і меншим за одиницю), поділивши статистичну статистику Пірсона на хі-квадрат (або відхилення ) за залишковими ступенями свободи.

Пам'ятайте, що логістична регресія з чисто бінарним результатом - лише особливий випадок загальної моделі логістичної регресії, в якій біноміальний індекс може перевищувати один (і може змінюватися в залежності від спостережень). Таким чином, питання про те, чи підходить ви логістичній регресійній моделі чи ні, не пов'язаний з питанням, чи ваші дані перерозподілені.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.