Чи повинен вибірка для логістичної регресії відображати реальне співвідношення 1 і 0?


23

Припустимо, я хочу створити логістичну регресійну модель, яка може оцінити ймовірність появи деяких видів тварин, що живуть на деревах, виходячи з особливостей дерев (висота fe). Як завжди, мій час і гроші обмежені, тому я можу збирати лише обмежений розмір вибірки.

У мене є такі запитання: Чи має співвідношення «1» та «0» у моїй вибірці відображати справжнє співвідношення «1» та «0»? (принаймні приблизно) Я зауважив, що звичайна практика виконувати логістичну регресійну модель з збалансованою вибіркою (рівною кількістю 1-х та 0-х), але такі моделі дають сюрреалістично високу ймовірність виникнення - правда?

Чи існують статті / підручник, які я можу використовувати **, щоб підтримати уявлення про те, що моделі, які не відображають справжнє співвідношення «1» та «0», є « неправильними » **

І нарешті: чи можна виконати вибірку 1: 1 і згодом скорегувати модель за допомогою tau згідно з Imai et al. 2007?

Косуке Імаї, Гері Кінг та Олівія Лау. 2007. “relogit: Logistic Regression of Redthress for Dihotomous залежних змінних”, в Kosuke Imai, Gary King та Olivia Lau, “Zelig: Статистичне програмне забезпечення для всіх”, http: //gking.harvard.edu/zelig.

введіть тут опис зображення

Точки представляють дерева (червоні = зайняті, сірі = незайняті). Я в змозі ідентифікувати всі зайняті дерева зі 100% точністю (1), але я не можу виміряти всі дерева в лісі. Модель відрізняється для кожної стратегії вибірки (співвідношення).

Відповіді:


15

Якщо метою такої моделі є прогнозування, то не можна використовувати не зважену логістичну регресію для прогнозування результатів: ви завищуєте ризик. Сила логістичних моделей полягає в тому, що коефіцієнт шансів (АБО) - "нахил", який вимірює зв'язок між фактором ризику та бінарним результатом у логістичній моделі, є інваріантним для вибірки, залежної від результатів. Отже, якщо випадки відбирають вибірки у співвідношенні 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 до контролів, це просто не має значення: АБО залишається незмінним в будь-якому сценарії, доки вибірка є безумовною. про експозицію (що могло б внести упередженість Берксона). Дійсно, вибіркова залежність від результатів - це економія зусиль, коли повного простого випадкового відбору просто не відбудеться.

Чому прогнози ризику залежать від вибірок, залежних від результатів, використовуючи логістичні моделі? Вибіркова залежність від результату впливає на перехоплення в логістичній моделі. Це призводить до того, що S-подібна крива асоціації "ковзає вгору по осі x" за рахунок різниці в лог-коефіцієнтах вибірки випадку в простому випадковому вибірці в сукупності та в логарифмах вибірки випадку в псевдо -населення вашої експериментальної конструкції. (Отже, якщо у вас є випадки контролю 1: 1, існує 50% шансів взяти вибірку у цій псевдопопуляції). У рідкісних результатах це досить велика різниця - коефіцієнт 2 або 3.

Коли ви говорите про те, що такі моделі є "неправильними", то ви повинні зосередитись на тому, чи є мета висновком (правильним) чи передбаченням (неправильним). Це також стосується співвідношення результатів і випадків. Мова, яку ви схильні бачити навколо цієї теми, полягає в тому, що називати таке дослідження "контролем випадків", про яке було написано широко. Можливо, моя улюблена публікація на цю тему - « Breslow and Day», яка як важливе дослідження характеризувала фактори ризику для рідкісних причин раку (раніше нездатних через рідкість подій). Дослідження контрольних випадків викликають певну суперечку, пов’язану з частими неправильними інтерпретаціями результатів: зокрема, зв'язуванням АБО з RR (перебільшенням результатів), а також "базою досліджень" як посередника вибірки та сукупності, що розширює результати.надає відмінну критику до них. Однак жодна критика не стверджує, що дослідження контрольованих випадків по суті є недійсними, я маю на увазі, як ви могли? Вони просунули охорону здоров'я в незліченних напрямках. Стаття Міеттена добре вказує на те, що ви можете навіть використовувати відносні моделі ризику або інші моделі для вибірки, залежної від результатів, та описати розбіжності між результатами та результатами рівня населення в більшості випадків: це не дуже гірше, оскільки АБО, як правило, важкий параметр інтерпретувати.

Напевно, найкращий і найпростіший спосіб подолати завищений рівень упередженості в прогнозах ризику - за допомогою зваженої ймовірності. Скотт та Уайлд обговорюють зважування та показують, що він коректує термін перехоплення та прогнози ризику моделі. Це найкращий підхід, коли апріорні знання про частку випадків серед населення. Якщо поширеність результату насправді становить 1: 100, і ви відбираєте випадки для контрольних груп у порядку 1: 1, ви просто контролюєте вагу на величину 100, щоб отримати послідовні параметри чисельності та об'єктивні прогнози ризику. Недоліком цього методу є те, що він не враховує невизначеності в поширеності населення, якщо він був оцінений з помилкою в інших місцях. Це величезна область відкритих досліджень, Лемлі та Бреслоуприйшов дуже далеко з деякою теорією щодо двофазного відбору проб та подвійним надійним оцінювачем. Я думаю, що це надзвичайно цікаві речі. Програма Зеліга, здається, є просто реалізацією вагової функції (яка здається трохи зайвою, оскільки функція glm R дозволяє передбачати ваги).


(+1) Чи варто згадати попередню корекцію як, мабуть, найпростіший спосіб налаштувати перехоплення для простого контролю за вибірковим випадком?
Scortchi

@Scortchi Ви маєте на увазі байєсівську логістичну регресію з інформативним попереднім перехопленням? Або обмежена оптимізація? Я насправді не знайомий з тим, що це може бути.
AdamO

1
Тут простий розрахунок: stats.stackexchange.com/a/68726/17230 . (Зараз я не зовсім впевнений, де я взяв цю термінологію чи наскільки вона є стандартною.) Я почула, що зважування працює краще для неправильно вказаних моделей.
Scortchi

@Scortchi Ах, це було б досить просто! Це має бути нормальним для прогнозування, доки не потрібні оцінки помилок. Ваговий коефіцієнт дасть вам інший SE для перехоплення та нахилу, але цей спосіб не вплине на жодне.
АдамО
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.