Я не погодився з іншими відповідями в коментарях, тому справедливо я даю своє. Нехай - відповідь (добрі / погані рахунки), а X - коваріати.YХ
Для логістичної регресії модель є такою:
журнал( р ( У= 1 | Х=x)p(Y=0|X=x))=α+∑ki=1xiβi
Подумайте, як дані можуть збиратися:
- Ви можете вибирати спостереження випадковим чином із якоїсь гіпотетичної "популяції"
- Ви можете вибрати дані на основі і подивитися, які значення Y зустрічаються.XY
І для цих моделей це нормально, оскільки ви тільки моделюєте розподіл . Це можна назвати перспективним дослідженням .Y|X
Як варіант:
- Ви можете вибрати спостереження на основі (скажімо, 100 з кожного) та побачити відносну поширеність X (тобто ви стратифікуєте на Y ). Це називається ретроспективним або контрольним випадком .YХY
(Ви також можете вибрати дані на основі та певних змінних X : це було б стратифікованим дослідженням контрольного випадку, і це набагато складніше працювати, тому я тут не буду вникати в нього).YХ
Є хороший результат епідеміології (див. Prentice and Pyke (1979) ), що для дослідження випадків контролю максимальної ймовірності оцінки можна знайти за допомогою логістичної регресії, що використовує перспективну модель ретроспективних даних.β
То як це стосується вашої проблеми?
Ну, це означає, що якщо ви зможете зібрати більше даних, ви можете просто подивитися на погані рахунки і все ще використовувати логістичну регресію для оцінки (але вам потрібно буде відкоригувати α для врахування надмірного представлення ). Скажімо, це коштувало 1 долар за кожен додатковий рахунок, тоді це може бути більш рентабельним, ніж просто перегляд усіх облікових записів.βiα
Але з іншого боку, якщо у вас вже є ВСІ можливі дані, немає сенсу стратифікувати: ви просто викинете дані (даючи гірші оцінки), а потім залишитесь із проблемою спроби оцінити .α