Я хотів би вивчити рідкісні події у обмеженій популяції. Оскільки я не впевнений, яка стратегія найкраще підходить, я вдячний порадам та посиланням, пов’язаним із цим питанням, хоча, наскільки я усвідомлюю, вона в основному висвітлена. Я просто не знаю, з чого почати.
Моя проблема - це політологія, і я маю обмежену кількість населення, що складається з 515 843 записів. Вони асоціюються з бінарною залежною змінною з 513,334 "0" s та 2,509 "1" s. Я можу спробувати "1" як рідкісні події, оскільки вони становлять лише 0,49% населення.
У мене є набір з приблизно 10 незалежних змінних, з якими я хотів би побудувати модель, щоб пояснити наявність "1" s. Як і багато хто з нас, я прочитав статтю King & Zeng 2001 про виправлення рідкісних подій. Їх підхід полягав у використанні конструкції контрольного випадку, щоб зменшити кількість "0" s, а потім застосувати виправлення до перехоплення.
Однак у цій публікації йдеться про те, що аргумент Кінга та Зенга не був необхідним, якщо я вже збирав свої дані для всього населення, що є моїм випадком. Тому мені доводиться використовувати класичну модель logit. На жаль для мене, хоча я отримую хороші значущі коефіцієнти, моя модель є абсолютно марною в плані прогнозування (не спрогнозує 99,48% моїх "1" с).
Прочитавши статтю King & Zeng, я хотів спробувати дизайн контрольного випадку і вибрав лише 10% "0" з усіма "1". Маючи майже однакові коефіцієнти, модель змогла передбачити майже третину «1» s при застосуванні до повної сукупності. Звичайно, є багато хибнопозитивних.
Таким чином, у мене є три питання, які я б хотів вам задати:
1) Якщо підхід Кінга і Зенга є упередженим, коли ви володієте повним знанням населення, чому вони використовують свою статтю, щоб довести свою думку?
2) Якщо у мене хороші і значущі коефіцієнти в логітній регресії, але дуже погана прогнозова сила, чи означає це, що зміна, пояснена цією змінною, є безглуздою?
3) Який найкращий підхід для боротьби з рідкісними подіями? Я читав про модель перепродажу Кінга, підхід Фріта, точний логит і т. Д. Я мушу визнати, що я програв серед усіх цих рішень.