Це варіація моделі відбору в економетриці. Обґрунтованість оцінок з використанням лише вибраного зразка тут залежить від умови, що
. Тут є «S статус захворювання.Pr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0)Dii
Щоб отримати детальнішу інформацію, визначте такі позначення:
і ; посилається на те, що є у вибірці. Більше того, припустимо, що не залежить від для простоти.π1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi
Ймовірність для одиниці у вибірці становить
за законом повторених очікувань. Припустимо, що
залежить від стану хвороби та інших коваріатів , результат не залежить від . В результаті,
Yi=1i
Pr(Yi=1∣Xi,Si=1)===E(Yi∣Xi,Si=1)E{E(Yi∣Xi,Di,Si=1)∣Xi,Si=1}Pr(Di=1∣Si=1)Pr(Yi=1∣Xi,Di=1,Si=1)+Pr(Di=0∣Si=1)Pr(Yi=1∣Xi,Di=0,Si=1),
DiXiYiSiPr(Yi=1∣Xi,Si=1)=Pr(Di=1∣Si=1)Pr(Yi=1∣Xi,Di=1)+Pr(Di=0∣Si=1)Pr(Yi=1∣Xi,Di=0).
Легко побачити, що
Тут і такі, як визначено вашою схемою вибірки. Таким чином,
Pr(Di=1∣Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0∣Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0Pr(Yi=1∣Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1∣Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1∣Xi,Di=0).
Якщо , у нас є
і ви можете опустити проблему з вибором вибірки. З іншого боку, якщо ,
загалом. Як окремий випадок, розглянемо модель logit,
Pr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0)Pr(Yi=1∣Xi,Si=1)=Pr(Yi=1∣Xi),
Pr(Yi=1∣Xi,Di=1)≠Pr(Yi=1∣Xi,Di=0)Pr(Yi=1∣Xi,Si=1)≠Pr(Yi=1∣Xi)
Pr(Yi=1∣Xi,Di=1)=eX′iα1+eX′iα and Pr(Yi=1∣Xi,Di=0)=eX′iβ1+eX′iβ.
Навіть коли і постійні через , отриманий розподіл не утримуватиме формування logit. Що ще важливіше, інтепретація параметрів була б абсолютно різною. Сподіваємось, наведені вище аргументи допоможуть трохи прояснити вашу проблему.
pi1pi0i
Спокуса включити як додаткову пояснювальну змінну та оцінити модель на основі . Для обґрунтування обґрунтованості використання нам потрібно довести, що , що еквівалентно умові, що є достатньою статистикою для . Без додаткової інформації про ваш процес відбору проб я не впевнений, чи правда це. Скористаємось абстрактним позначенням. Змінна спостережливості може розглядатися як випадкова функція та інших випадкових змінних, скажімоDiPr(Yi∣Xi,Di)Pr(Yi∣Xi,Di)Pr(Yi∣Xi,Di,Si=1)=Pr(Yi∣Xi,Di)DiSiSiDiZi . Позначимо . Якщо
не залежить від обумовлено і , у нас є
за визначенням незалежності. Однак якщо не залежить від після кондиціонування на та ,
інтуїтивно містить деяку релевантну інформацію про
, і взагалі цього не передбачаєтьсяSi=S(Di,Zi)ZiYiXiDiPr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di)ZiYiXiDiZiYiPr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) . Таким чином, у випадку "проте" невідомість вибору вибірки може бути оманливим для висновку. Я не дуже знайомий з вибірковою літературою з вибору з економетрики. Я рекомендую Розділ 16 Microeconometrics: methods and applications' by Cameron
and Trivedi (especially the Roy model in that chapter). Also G. S.
Maddala's classic book
Обмежених залежних та якісних змінних в економетриці "- це систематичне лікування питань щодо вибору вибірки та дискретних результатів.