Чи змінюється відбір вибірки коефіцієнтами логістичної регресії?


34

Якщо у мене є набір даних із дуже рідкісним позитивним класом, і я знижую вибірку негативного класу, то виконую логістичну регресію, чи потрібно мені коригувати коефіцієнти регресії, щоб відобразити той факт, що я змінив поширеність позитивного класу?

Наприклад, скажімо, у мене є набір даних із 4 змінними: Y, A, B і C. Y, A і B є двійковими, C - безперервним. Для 11 100 спостережень Y = 0, а для 900 Y = 1:

set.seed(42)
n <- 12000
r <- 1/12
A <- sample(0:1, n, replace=TRUE)
B <- sample(0:1, n, replace=TRUE)
C <- rnorm(n)
Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1)

Мені підходить логістична регресія для прогнозування Y, заданих A, B і C.

dat1 <- data.frame(Y, A, B, C)
mod1 <- glm(Y~., dat1, family=binomial)

Однак, щоб заощадити час, я міг видалити 10 200 спостережень, які не належать Y, даючи 900 Y = 0 і 900 Y = 1:

require('caret')
dat2 <- downSample(data.frame(A, B, C), factor(Y), list=FALSE)
mod2 <- glm(Class~., dat2, family=binomial)

Коефіцієнти регресії в двох моделях виглядають дуже схоже:

> coef(summary(mod1))
              Estimate Std. Error   z value     Pr(>|z|)
(Intercept) -127.67782  20.619858 -6.191983 5.941186e-10
A           -257.20668  41.650386 -6.175373 6.600728e-10
B            -13.20966   2.231606 -5.919353 3.232109e-09
C           -127.73597  20.630541 -6.191596 5.955818e-10
> coef(summary(mod2))
              Estimate  Std. Error     z value    Pr(>|z|)
(Intercept) -167.90178   59.126511 -2.83970391 0.004515542
A           -246.59975 4059.733845 -0.06074284 0.951564016
B            -16.93093    5.861286 -2.88860377 0.003869563
C           -170.18735   59.516021 -2.85952165 0.004242805

Що приводить мене до думки, що зменшення вибірки не вплинуло на коефіцієнти. Однак це єдиний надуманий приклад, і я вважаю за краще точно знати.


8
Перехоплюючи сторону, ви оцінюєте ті самі параметри сукупності, коли ви знижуєте вибірку, але з меншою точністю - за винятком перехоплення, який ви можете оцінити, коли знаєте поширеність відповіді серед населення. Див. Hosmer & Lemeshow (2000), Прикладна логістична регресія , гл 6.3 для доказу. Іноді ви можете ввести розлуку, хоча і не часто, коли ви зменшуєте вибірку відповіді більшості.
Scortchi

@Scortchi Опублікуйте свій коментар як відповідь - це здається достатнім для мого запитання. Дякую за довідку.
Зак

@Scortchi і Зак: В відповідно зі зниженою частотою дискретизації моделі ( mod2), Pr(>|z|)для Aмайже 1. Ми не можемо відкинути нульову гіпотезу про те , що коефіцієнт Aдорівнює 0 , тому ми втратили коварьіровать , який використовується в mod1. Це не суттєва різниця?
Жубарб

@Zhubarb: Як я зазначав, ви можете ввести розділення, що зробить стандартні оцінки помилок Wald абсолютно недостовірними.
Scortchi

Дивіться також Скотт 2006
Стаск

Відповіді:


29

Вибір вибірки в медичній статистиці еквівалентний конструкціям контрольних випадків - ви фіксуєте кількість відповідей та дотримуєтесь коваріантних моделей (прогнозів). Можливо, ключовим посиланням є Prentice & Pyke (1979), "Моделі захворюваності на логістичні захворювання та дослідження контрольних випадків", Biometrika , 66 , 3.

Вони використовували теорему Байєса, щоб переписати кожен термін, ймовірно, для ймовірності заданого коваріантного шаблону, обумовленого випадком чи контролем, як двох факторів; один представляє звичайну логістичну регресію (ймовірність того, що це випадок або контроль, обумовлений коваріатним малюнком), а другий представляє граничну ймовірність коваріантного малюнка. Вони показали, що максимізація загальної ймовірності за умови обмеження того, що граничні ймовірності того, що є випадком або контролем, фіксуються за схемою вибірки, дають ті ж оцінки коефіцієнта шансів, що і максимізація першого коефіцієнта без обмежень (тобто проведення звичайної логістичної регресії) .

Перехоплення для сукупності можна оцінити з випадок контролювання випадків якщо поширеність населення відома:β 0 πβ0β^0π

β^0=β^0log(1ππn1n0)

де & - кількість контрольних елементів і вибірок, відібраних відповідно.n 1n0n1

Звичайно, викинувши дані, ви зіткнулися з проблемою збирання, хоча і найменш корисної частини, ви знижуєте точність своїх оцінок. Обмеження в обчислювальних ресурсах - єдина вагома причина, яку я знаю для цього, але я згадую це, тому що деякі люди, здається, вважають, що "збалансований набір даних" є важливим з іншої причини, яку я ніколи не зміг встановити.


Дякую за детальну відповідь. І так, причина, по якій я роблю це запуск повної моделі (без зниження вибірки), обчислювально забороняє.
Зак

Шановний @Scortchi, дякую за пояснення, але у випадку, коли я хочу використовувати логістичну регресію, збалансований набір даних здається необхідним незалежно від обчислювальних ресурсів. Я намагався використовувати "упереджене зменшення пенітаріальної імовірності" Фріта "без користі. Так що, здавалося б, вибірка вниз є єдиною альтернативою для мене, правда?
Шахін

@Shahin Ну, (1) чому ти незадоволений логістичною регресією, що відповідає максимальній ймовірності? & (2) що саме піде не так, використовуючи метод Фірта?
Scortchi

@Scortchi, Проблема в тому, що модель дуже погана при виявленні successекземплярів. Іншими словами, дуже низький TPR. Змінюючи поріг, TPR збільшується, але точність дуже погана, а це означає, що понад 70% випадків, позначених як позитивні, насправді є негативними. Я читав, що в поодиноких подіях логістична регресія не спрацьовує добре, саме тут починає грати метод Фірта або хоча б одну з ролей, яку він може взяти. Але результати методу Фірта виявилися дуже схожими на звичайний logit. Я думав, що я можу помилятися у виконанні Фірта, але, здавалося б, все гаразд
Шахін

4
@Shahin: Ви, здається, там гавкаєте неправильне дерево: вибірка вниз не покращить дискримінацію вашої моделі. Корекція зміщення або регуляризація може бути (за новими даними - чи оцінюєте ви її ефективність на тестовому наборі?), Але більш складна специфікація могла б допомогти, або може просто бути необхідним більш інформативні прогнози. Вам, ймовірно, слід задати нове запитання, докладно розповівши про дані, предметний контекст, модель, діагностику та свої цілі.
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.