Стратегія боротьби з логістичною регресією рідкісних подій


27

Я хотів би вивчити рідкісні події у обмеженій популяції. Оскільки я не впевнений, яка стратегія найкраще підходить, я вдячний порадам та посиланням, пов’язаним із цим питанням, хоча, наскільки я усвідомлюю, вона в основному висвітлена. Я просто не знаю, з чого почати.

Моя проблема - це політологія, і я маю обмежену кількість населення, що складається з 515 843 записів. Вони асоціюються з бінарною залежною змінною з 513,334 "0" s та 2,509 "1" s. Я можу спробувати "1" як рідкісні події, оскільки вони становлять лише 0,49% населення.

У мене є набір з приблизно 10 незалежних змінних, з якими я хотів би побудувати модель, щоб пояснити наявність "1" s. Як і багато хто з нас, я прочитав статтю King & Zeng 2001 про виправлення рідкісних подій. Їх підхід полягав у використанні конструкції контрольного випадку, щоб зменшити кількість "0" s, а потім застосувати виправлення до перехоплення.

Однак у цій публікації йдеться про те, що аргумент Кінга та Зенга не був необхідним, якщо я вже збирав свої дані для всього населення, що є моїм випадком. Тому мені доводиться використовувати класичну модель logit. На жаль для мене, хоча я отримую хороші значущі коефіцієнти, моя модель є абсолютно марною в плані прогнозування (не спрогнозує 99,48% моїх "1" с).

Прочитавши статтю King & Zeng, я хотів спробувати дизайн контрольного випадку і вибрав лише 10% "0" з усіма "1". Маючи майже однакові коефіцієнти, модель змогла передбачити майже третину «1» s при застосуванні до повної сукупності. Звичайно, є багато хибнопозитивних.

Таким чином, у мене є три питання, які я б хотів вам задати:

1) Якщо підхід Кінга і Зенга є упередженим, коли ви володієте повним знанням населення, чому вони використовують свою статтю, щоб довести свою думку?

2) Якщо у мене хороші і значущі коефіцієнти в логітній регресії, але дуже погана прогнозова сила, чи означає це, що зміна, пояснена цією змінною, є безглуздою?

3) Який найкращий підхід для боротьби з рідкісними подіями? Я читав про модель перепродажу Кінга, підхід Фріта, точний логит і т. Д. Я мушу визнати, що я програв серед усіх цих рішень.


Число звучить знайомим ... на всякий випадок набір даних про етнічний конфлікт? Якщо йо, це часовий ряд - я застосував модель виживання, щоб досягти великого успіху в дослідженні етнічних конфліктів ...
Крістіан Зауер

Достатньо близько. Це набір даних про місцезнаходження конфліктних подій в Африці. Однак я вивчаю місце розташування цих подій без урахування часу.
Демієн

1
Ага, багато моїх випадків походили з Африки, оскільки там етнічні етнічні конфлікти. Ви географічне вивчення? Чи було б величезною проблемою враховувати час? Я вважаю це дійсно корисним, особливо через те, що певні змінні змінюються з часом (політична система, холодна війна тощо)
Крістіан Зауер

Я використовую набір даних GED UCDP, який охоплює період 1989-2010. Мене цікавлять географічні фактори, які можуть відігравати певну роль у місці розташування конфліктних подій. Варіації часу, безумовно, можуть багато сказати, але відповіді на запитання різні. Крім того, багато моїх незалежних змінних або недоступні за різні періоди (земельний покрив), або взагалі не змінилися (топографія)
Damien

1
"(не спрогнозує 99,48% моїх" 1 "с)." це здається, що ви використовуєте якесь правило довільного відсічення [напр., 0,5!] для класифікації, тоді як вся ідея логістичної регресії полягає в тому, що вихід є ймовірним - вирішувати поріг, щоб збалансувати помилкові позитиви / негативи
вас,

Відповіді:


17

(1) Якщо ви "повністю знаєте населення", навіщо вам потрібна модель для прогнозування? Я підозрюю, що ви неявно розглядаєте їх як зразок гіпотетичної супернаселеності - дивіться тут і тут . Тож чи варто викидати спостереження зі свого зразка? Ні. Кінг та Зенг не виступають за це:

[...] у таких сферах, як міжнародні відносини, кількість спостережуваних 1 (таких як війни) суворо обмежена, тому в більшості застосувань найкраще зібрати всі наявні 1-ї чи велику вибірку з них. Єдине реальне рішення тоді - скільки 0 також збирати. Якщо збір значень 0 дорожчий, ми повинні зібрати стільки, скільки можемо отримати, оскільки більше даних завжди краще.

Y

(2) Основне питання тут полягає у використанні неправильного правила балів для оцінки прогнозованих показників вашої моделі. Припустимо, ваша модель була правдивою , так що для будь-якої людини ви знали ймовірність рідкісної події - скажімо, укушений змією в наступному місяці. Що ще ви дізнаєтесь, встановивши довільне відхилення ймовірності та передбачивши, що тих, хто над ним буде покусано, а тих, хто нижче цього не буде? Якщо ви зробите 50% відхилення, ви, швидше за все, прогнозуєте, що ніхто не покусає. Якщо ви зробите це досить низьким, ви можете передбачити, що всі покусають. І що? Розумне застосування моделі вимагає дискримінації - кому слід надати єдиний флакон проти отрути? - або калібрування - для кого варто купувати черевики, враховуючи їхню вартість, ніж вартість укусу змії?


Дякую за відповідь. Щодо (1), чи було б доречніше говорити про зразок відомих нам спостережень для врахування можливості майбутніх подій? Щодо (2), я провів хвилину, намагаючись зрозуміти, що таке правило балів. Якщо я правильно розумію статтю у Вікіпедії, я повинен варіювати функцію оцінювання в різних значеннях ймовірності, для яких очікується подія, а потім вибрати як відсічне значення ймовірність, яка мала найвищий бал. Якщо я обираю правило логарифмічного оцінювання, як я повинен реалізувати очікуване значення?
Демієн

1
R2

@Scortchi; тож ви б хотіли використовувати логістичну регресію чи ні, для кількості спостережень / випадків, як у операційних (скажімо, з ~ 10 безперервних прогнозів), якщо потрібна ймовірність випадку, яка, здається, недооцінена? спасибі
користувач2957945

3

На одному рівні мені цікаво, наскільки неточність вашої моделі полягає лише в тому, що ваш процес важко передбачити, а ваших змінних недостатньо для цього. Чи є інші змінні, які можуть пояснити більше?

З іншого боку, якщо ви можете вказати свою залежну змінну як лічильну / порядкову проблему (наприклад, жертви внаслідок конфлікту чи тривалість конфлікту), ви можете спробувати нульову завищену модель регресії чи перешкоди. Вони можуть мати одне і те ж питання про неправильне визначення між 0 і 1, але деякі конфлікти, з якими співвідносяться ваші змінні, можуть відійти від нуля.


4
(+1) Гарні пропозиції. Мені хотілося б констатувати, що "неточність" моделі - це лише невдача передбачити багато ймовірностей понад 50%. Якщо "1" зазвичай прогнозують вірогідність від 10% до 40%, порівняно з трохи менше 0,5% для "0" s - це вважатиметься сильним прогнозним показником у багатьох програмах.
Scortchi

2

На додаток до зменшення тиску більшості населення ви можете переоцінювати рідкісні події, але пам’ятайте, що перебіг зразка міноритарного класу може призвести до перевиконання, тому ретельно перевіряйте речі.

Цей документ може дати більше інформації про нього: Yap, Bee Wah та ін. "Застосування пересимплінгу, недооцінки, завантаження та збільшення при обробці незбалансованих наборів даних." pdf

Також я хотів би пов’язати це питання, оскільки він також обговорює те саме питання


0

Ваше питання зводиться до того, як я можу придумати логіт регресії, щоб знайти краще рішення. Але ви навіть впевнені, що краще рішення існує? Маючи лише десять параметрів, чи вдалося вам знайти краще рішення?

Я спробував би більш складну модель, наприклад, додавши терміни продукту на вході або додавши максимальний рівень на цільовій стороні (щоб у вас по суті було кілька логістичних регресорів для різних адаптивно виявлених підмножин цільових 1).


Дякую за вашу відповідь. Я обов'язково спробую по-різному поєднувати свої змінні. Але перед цим я хочу знати, чи погане виконання моєї моделі пов'язане з технічними проблемами чи з іншого місця
Демієн,

-1

Чудове запитання.

На мій погляд, питання полягає в тому, чи намагаєтесь ви робити висновки (вас цікавить, про що говорять ваші коефіцієнти?) Чи передбачення. Якщо останнє, то ви можете позичити моделі у машинного навчання (BART, randomForest, підсилені дерева тощо), які майже напевно зроблять кращу роботу при прогнозуванні, ніж logit. Якщо ви робите висновок, і у вас так багато точок даних, спробуйте включити умови розумної взаємодії, поліноміальні терміни тощо. Як варіант, ви можете зробити висновки від BART, як у цьому документі:

http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf

Я нещодавно робив якусь роботу над рідкісними подіями, і заздалегідь не мав уявлення, скільки рідкісних випадків може вплинути на аналіз. Вибір вибірки 0 випадків є обов'язковим. Одна з стратегій пошуку ідеальної пропорційної пропорції була б

  1. Візьміть усі свої 1, скажімо, у вас їх n1.
  2. Встановіть деяке значення z = кратне n1, яке ви намалюєте; можливо, почати з 5 і зменшити до 1.
  3. намалюйте z * n1 0 спостережень
  4. Оцініть свою модель на вибірці даних про підмножину, переконуючись, що ви перехресно перевірили цілий набір даних
  5. Збережіть відповідні заходи, що вас цікавлять: коефіцієнти інтересу, AUC кривої ROC, відповідні значення в матриці плутанини тощо.
  6. Повторіть кроки 2: 5 для послідовно менших zs. Ви, ймовірно, виявите, що по мірі зменшення вибірки співвідношення помилково-від’ємного і хибного позитивного (у вашому тестовому наборі) зменшиться. Тобто ви почнете прогнозувати більше 1-х, сподіваємось, це справді 1, але також багато, які насправді є 0. Якщо в цій помилковій класифікації є точка сідла, то це було б хорошим коефіцієнтом зменшення вибірки.

Сподіваюся, це допомагає. JS


1
(-1) Немає необхідності зменшувати вибірку для логістичної регресії. Дивіться тут ; вибір на відповідь лише змінює очікуваний перехоплення, тому нижчий вибірки просто знижує точність розрахункових коефіцієнтів шансів. Логістична регресія дає прогнозовані ймовірності, які ви можете використовувати для класифікації за допомогою скорочень, розрахованих для врахування витрат на різні види неправильної класифікації, або для ранжирування осіб, або зацікавлених у власних правах.
Scortchi

Ви помітите, що я не згадував використання логістичної регресії, і натомість запропонував існувати методи (наприклад, BART), які, мабуть, є більш підходящими для рідкісних випадків.
Джим

Питання стосується логістичної регресії, чи про те, чи слід робити це на вибір, і, здається, ви обговорюєте логістичну регресію, коли пишете про "включаючи розумні умови взаємодії, поліноміальні терміни"; тож незрозуміло, що ваша порада щодо відбору проб призначена лише для використання з іншими методами: можливо, ви б подумали відредагувати свою відповідь, щоб дати зрозуміти.
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.