Оцінка коефіцієнтів логістичної регресії в проекті контрольного випадку, коли змінна результат не є випадком / контрольним статусом


10

Розглянемо вибіркові дані з популяції розміром таким чином: ДляNk=1,...,N

  1. Слідкуйте за статусом "хвороби" окремихk

  2. Якщо у них захворювання, включіть їх до вибірки з імовірністюpk1

  3. Якщо у них немає захворювання, включіть їх з вірогідністю .pk0

Припустимо, ви спостерігали змінну двійкового результату та вектор , для суб'єктів, вибірених таким чином. Змінна результат не є статусом "захворювання". Я хочу оцінити параметри моделі логістичної регресії:YiXii=1,...,n

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

Мене все цікавить - коефіцієнт шансів (log), β . Перехоплення для мене не має значення.

Моє запитання: чи можу я отримати розумні оцінки β , ігноруючи ймовірності вибірки {pi1,pi0} , i=1,...,n та встановивши модель так, ніби це була звичайна випадкова вибірка?


Я майже впевнений, що відповідь на це питання "так". Я шукаю - це посилання, яке підтверджує це.

Є дві основні причини, щодо яких я впевнений у відповіді:

  1. Я робив багато симуляційних досліджень, і жодне з них не суперечить цьому, і

  2. Нескладно показати, що якщо популяція регулюється вищевказаною моделлю, то модель, що регулює вибіркові дані, є

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

Якщо ймовірність вибірки не залежала від , то це означало б простий перехід до перехоплення, і точкова оцінка явно не вплинула б. Але, якщо компенсації відрізняються для кожної людини, ця логіка не застосовується, оскільки ви неодмінно отримаєте іншу бальну оцінку, хоча я підозрюю, що щось подібне робить. iβ

Пов’язано: Класична праця Prentice and Pyke (1979) говорить про те, що коефіцієнти логістичної регресії при контролі випадків (зі статусом захворювання як результат) мають таке ж розподіл, як і дані, зібрані в результаті перспективного дослідження. Я підозрюю, що цей самий результат буде застосований і тут, але, маю визнати, я не повністю розумію кожну частину документа.

Заздалегідь дякую за будь-які коментарі / посилання.


1
Ви заявляєте, що "змінна результат не є статусом захворювання ". Що означає ? Ласкаво просимо до CV, btw. Yi=1
gung - Відновіть Моніку

1
Yi - інша змінна. Що я маю на увазі, це те, що змінна, яка диктує вашу ймовірність вибірки (зазвичай стан захворювання в контролі випадків), не є такою ж, як змінна результат - подумайте вторинний аналіз набору даних. Наприклад, скажімо, зразок був сформований систематизованим відбором споживачів наркотиків та додатковим набором (співвідношення частоти, певні коваріати) для користувачів, які не вживають наркотики, але змінна результат, яку ви вивчаєте, - це інше вимірювання поведінки. У цьому випадку схема вибірки є неприємністю. Спасибі, btw!
Макрос

Відповіді:


8

Це варіація моделі відбору в економетриці. Обґрунтованість оцінок з використанням лише вибраного зразка тут залежить від умови, що . Тут є «S статус захворювання.Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)Dii

Щоб отримати детальнішу інформацію, визначте такі позначення: і ; посилається на те, що є у вибірці. Більше того, припустимо, що не залежить від для простоти.π1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

Ймовірність для одиниці у вибірці становить за законом повторених очікувань. Припустимо, що залежить від стану хвороби та інших коваріатів , результат не залежить від . В результаті, Yi=1i

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSi
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
Легко побачити, що Тут і такі, як визначено вашою схемою вибірки. Таким чином,
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
Якщо , у нас є і ви можете опустити проблему з вибором вибірки. З іншого боку, якщо , загалом. Як окремий випадок, розглянемо модель logit, Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
Навіть коли і постійні через , отриманий розподіл не утримуватиме формування logit. Що ще важливіше, інтепретація параметрів була б абсолютно різною. Сподіваємось, наведені вище аргументи допоможуть трохи прояснити вашу проблему.pi1pi0i

Спокуса включити як додаткову пояснювальну змінну та оцінити модель на основі . Для обґрунтування обґрунтованості використання нам потрібно довести, що , що еквівалентно умові, що є достатньою статистикою для . Без додаткової інформації про ваш процес відбору проб я не впевнений, чи правда це. Скористаємось абстрактним позначенням. Змінна спостережливості може розглядатися як випадкова функція та інших випадкових змінних, скажімоDiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDiZi . Позначимо . Якщо не залежить від обумовлено і , у нас є за визначенням незалежності. Однак якщо не залежить від після кондиціонування на та , інтуїтивно містить деяку релевантну інформацію про , і взагалі цього не передбачаєтьсяSi=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di) . Таким чином, у випадку "проте" невідомість вибору вибірки може бути оманливим для висновку. Я не дуже знайомий з вибірковою літературою з вибору з економетрики. Я рекомендую Розділ 16 Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookОбмежених залежних та якісних змінних в економетриці "- це систематичне лікування питань щодо вибору вибірки та дискретних результатів.


2
Дякую. Це чудова відповідь і має ідеальний сенс. У моєму додатку припущення, що не є реалістичним. Але було б так само добре додати як предиктор і врахувати розподіл . Використовуючи подібне виведення, я думаю, ви можете показати, що якщо , то ви все добре. Це розумне припущення в моєму випадку. Як ти гадаєш? До речі, у вас трапляються посилання, які згадують про цю проблему? Я не знайомий з економетричною літературою. P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
Макрос

Мені подобається думати про процес відбору як пробу в Бернуллі, тобто За цим припущенням, що генерує дані, ця проба Бернуллі умовно не залежить від , тому я думаю, що ми добре. Я ціную ваші зусилля та розуміння цієї проблеми і приймаю відповідь. Якщо припустити, що ніхто не приходить разом із точним посиланням, яке я шукаю (я скоріше зміг би просто "цитувати" цю проблему, а не відступати від розширеного обговорення), я також нагороджу вас винагородою. Ура.
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
Макрос

Цей процес відбору відповідає вашій стратегії. Виходячи з такої проблеми з вибором, ваша проблема стає прикладом випадкового відсутності (MAR) у літературі про відсутні дані. Дякуємо за вашу нагороду
напівбруїн
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.