Застосування логістичної регресії з низькою швидкістю подій


15

У мене є набір даних, в якому частота подій дуже низька (40 000 з ). Я застосовую логістичну регресію щодо цього. Я мав дискусію з кимось, де з'ясувалося, що логістична регресія не дасть хорошої матриці плутанини на таких низьких даних про рівень подій. Але через бізнес-проблеми та спосіб її визначення я не можу збільшити кількість подій з 40 000 до більшої кількості, хоча я погоджуюся з тим, що можу видалити деяку нерівноцінну сукупність.12105

Скажіть, будь ласка, свої думки щодо цього, зокрема:

  1. Чи залежить точність логістичної регресії від швидкості подій чи є якась мінімальна кількість подій, яка рекомендується?
  2. Чи існує якась спеціальна методика для даних про низьку кількість подій?
  3. Чи було б видалення мого нерівноцінного населення добре для точності моєї моделі?

Я новачок у статистичному моделюванні, тому вибачте моє незнання і прошу вирішити будь-які пов'язані з цим проблеми, про які я міг би подумати.

Спасибі,


3
40000 / 12e5 = 3,3%, це не здається мені дуже низьким показником.
ГаБоргуля

1
Дякую, що у випадку, коли людям потрібен більше контексту для вирішення низьких та високих показників подій, ці дані стосуються страхового сектору.
ayush biyani

Відповіді:


11

Я буду відповідати на ваші запитання не в порядку:

3 Чи було б видалення моєї нерівноправної сукупності добре для точності моєї моделі?

Кожне спостереження надасть додаткову інформацію про параметр (через функцію ймовірності). Тому немає сенсу видаляти дані, оскільки ви просто втрачаєте інформацію.

1 Чи залежить точність логістичної регресії від швидкості подій або є рекомендована мінімальна кількість подій?

Технічно так: рідкісне спостереження набагато більш інформативне (тобто функція ймовірності буде більш крутою). Якщо ваш коефіцієнт подій склав 50:50, ви отримаєте набагато більш жорсткі діапазони довіри (або достовірні інтервали, якщо ви є байєсівцями) для однакової кількості даних . Однак ви не можете вибрати свій показник подій (якщо тільки ви не займаєтесь контрольним випадком), тому вам доведеться робити те, що у вас є.

2 Чи існує якась спеціальна методика для даних про низьку кількість подій?

Найбільшою проблемою, яка може виникнути, є ідеальне розділення : це трапляється, коли якась комбінація змінних дає всі події (або всі події): у цьому випадку максимальна оцінка параметрів імовірності (та їх стандартні помилки) наближатиметься до нескінченності (хоча зазвичай алгоритм заздалегідь зупиниться). Є два можливі рішення:

а) видалення прогнозів із моделі: хоча це змусить ваш алгоритм зближуватися, ви будете видаляти змінну з найбільшою пояснювальною потужністю, тому це має сенс лише в тому випадку, якщо ваша модель була споконвічна для початку (наприклад, встановлення занадто багато складних взаємодій) .

б) використовувати певну штрафну санкцію, наприклад попередній розподіл, який призведе до зменшення оцінок до більш розумних значень.


+1 Я також додаю, що я бачив контексти, коли люди переглянули свої дані до 50:50. Здійснення компромісу - це поліпшення здатності моделі класифікувати (якщо вибирати хороший поріг) порівняно з деякою втратою інформації про загальну поширеність та деякими додатковими труднощами в інтерпретації коефіцієнтів.
Девід Дж. Гарріс

1
@David: Я також чув про те, що люди перевантажують і використовують складні псевдо-завантажувальні схеми, де вони лише перепробовують високочастотний клас. Для всіх цих методів ви в кінцевому рахунку викидаєте (або складаєте) дані. Я б заперечував, що якщо це покращує вашу модель, то ви, ймовірно, підходите неправильну модель. Дивіться також мої коментарі тут: stats.stackexchange.com/questions/10356/…
Simon Byrne

1) Вибачте, якщо мені не було зрозуміло: я говорив про зміну відносного впливу подій та недійсних явищ, як про аргумент "ваг" у glmфункції R. У гіршому випадку, це схоже на відкидання частини кожної заниженої точки даних, мабуть, але це насправді не те саме. 2) Як я вже казав, з цим рішенням пов'язані компроміси. Це, мабуть, має найбільш сенс у контекстах, де населення, яке відбирають вибірку, не є чітко визначеним, а справжній показник подій не має сенсу починати. Я, звичайно, не рекомендував би його в усьому світі.
Девід Дж. Харріс

2

Існує краща альтернатива видаленню nonvents для тимчасових або просторових даних: ви можете агрегувати свої дані в часі / просторі та моделювати відліки як Пуассон. Наприклад, якщо ваша подія "виверження вулкана відбувається в день X", то не багато днів буде виверження вулкана. Однак якщо ви згрупуєте дні по тижнях чи місяцях, наприклад, "кількість вивержень вулкана на X місяць", то ви зменшите кількість подій, і більшість подій матимуть ненульові значення.


6
Треба сказати, що ця порада зовсім не відповідає на питання. 1) Їх немає нічого в питанні, що дозволяє припустити, що ОП має справу з просторовими або часовими даними. 2) Як агрегування даних допоможе виявити будь-які значущі стосунки (вона використовує менше інформації, ніж оригінальні одиниці!)
Енді W

2
Також як зауваження, щоб будь-яке спостережуване відношення відбулося на агрегованому рівні, воно повинно бути присутнім на рівні початкових одиниць, хоча відношення на агрегованому рівні не обов'язково відображає те, що взаємозв'язок між двома змінними знаходиться на розрізненому рівні рівень. Дивіться qmrg.org.uk/files/2008/11/38-maup-openshaw.pdf
Andy W

погодитися з Енді.
ayush biyani
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.