Якщо метою такої моделі є прогнозування, то не можна використовувати не зважену логістичну регресію для прогнозування результатів: ви завищуєте ризик. Сила логістичних моделей полягає в тому, що коефіцієнт шансів (АБО) - "нахил", який вимірює зв'язок між фактором ризику та бінарним результатом у логістичній моделі, є інваріантним для вибірки, залежної від результатів. Отже, якщо випадки відбирають вибірки у співвідношенні 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 до контролів, це просто не має значення: АБО залишається незмінним в будь-якому сценарії, доки вибірка є безумовною. про експозицію (що могло б внести упередженість Берксона). Дійсно, вибіркова залежність від результатів - це економія зусиль, коли повного простого випадкового відбору просто не відбудеться.
Чому прогнози ризику залежать від вибірок, залежних від результатів, використовуючи логістичні моделі? Вибіркова залежність від результату впливає на перехоплення в логістичній моделі. Це призводить до того, що S-подібна крива асоціації "ковзає вгору по осі x" за рахунок різниці в лог-коефіцієнтах вибірки випадку в простому випадковому вибірці в сукупності та в логарифмах вибірки випадку в псевдо -населення вашої експериментальної конструкції. (Отже, якщо у вас є випадки контролю 1: 1, існує 50% шансів взяти вибірку у цій псевдопопуляції). У рідкісних результатах це досить велика різниця - коефіцієнт 2 або 3.
Коли ви говорите про те, що такі моделі є "неправильними", то ви повинні зосередитись на тому, чи є мета висновком (правильним) чи передбаченням (неправильним). Це також стосується співвідношення результатів і випадків. Мова, яку ви схильні бачити навколо цієї теми, полягає в тому, що називати таке дослідження "контролем випадків", про яке було написано широко. Можливо, моя улюблена публікація на цю тему - « Breslow and Day», яка як важливе дослідження характеризувала фактори ризику для рідкісних причин раку (раніше нездатних через рідкість подій). Дослідження контрольних випадків викликають певну суперечку, пов’язану з частими неправильними інтерпретаціями результатів: зокрема, зв'язуванням АБО з RR (перебільшенням результатів), а також "базою досліджень" як посередника вибірки та сукупності, що розширює результати.надає відмінну критику до них. Однак жодна критика не стверджує, що дослідження контрольованих випадків по суті є недійсними, я маю на увазі, як ви могли? Вони просунули охорону здоров'я в незліченних напрямках. Стаття Міеттена добре вказує на те, що ви можете навіть використовувати відносні моделі ризику або інші моделі для вибірки, залежної від результатів, та описати розбіжності між результатами та результатами рівня населення в більшості випадків: це не дуже гірше, оскільки АБО, як правило, важкий параметр інтерпретувати.
Напевно, найкращий і найпростіший спосіб подолати завищений рівень упередженості в прогнозах ризику - за допомогою зваженої ймовірності.
Скотт та Уайлд обговорюють зважування та показують, що він коректує термін перехоплення та прогнози ризику моделі. Це найкращий підхід, коли апріорні знання про частку випадків серед населення. Якщо поширеність результату насправді становить 1: 100, і ви відбираєте випадки для контрольних груп у порядку 1: 1, ви просто контролюєте вагу на величину 100, щоб отримати послідовні параметри чисельності та об'єктивні прогнози ризику. Недоліком цього методу є те, що він не враховує невизначеності в поширеності населення, якщо він був оцінений з помилкою в інших місцях. Це величезна область відкритих досліджень, Лемлі та Бреслоуприйшов дуже далеко з деякою теорією щодо двофазного відбору проб та подвійним надійним оцінювачем. Я думаю, що це надзвичайно цікаві речі. Програма Зеліга, здається, є просто реалізацією вагової функції (яка здається трохи зайвою, оскільки функція glm R дозволяє передбачати ваги).