Моделювання, коли залежна змінна має "межування"


12

Вибачте заздалегідь, якщо будь-яка термінологія, яку я використовую, є невірною. Я вітаю будь-які виправлення. Якщо те, що я характеризую як "відсікання", має інше ім'я, дайте мені знати, і я можу оновити питання.

Мене цікавить ситуація така: у вас є незалежні змінні і одна залежна змінна . Я залишу це розпливчастим, але припустимо, що було б досить просто отримати гарну регресійну модель для цих змінних. уxy

Однак модель, яку ви прагнете створити, призначена для незалежних змінних і залежної змінної , де a - деяке фіксоване значення в межах y . Так само дані, до яких ви маєте доступ, не включають y , а лише w .xa y y ww=min(y,a)ayyw

Приклад цього (дещо нереальний) був би, якби ви намагалися моделювати, скільки років люди збиратимуть пенсію. У цьому випадку x може бути відповідною інформацією, такою як стать, вага, години занять на тиждень тощо. Змінна "основна" y буде тривалістю життя. Однак змінна, до якої ви мали б доступ і намагаєтеся передбачити у вашій моделі, буде w=min(0,yr) де r - пенсійний вік (якщо припустити, що це простота).

Чи є хороший підхід для вирішення цього питання в регресійному моделюванні?


1
Я не впевнений, але це здається, що це може бути доступним через певний варіант аналізу виживання. 1) Це передбачає цензуру 2) Принаймні у вашому прикладі це передбачає час. Але це було б лівоцензурним, а не правоцензурним (що є більш поширеним). Якщо ви згодні зі мною, ви можете додати тег виживання і побачити, чи хтось на нього стрибає.
Пітер Флом - Відновіть Моніку

4
@Peter Це впевнено виглядає для мене правоцензурованим. На якій стороні відбувається цензура, це мало імпорту, оскільки, відкидаючи залежну змінну, перемикається між правою та лівою цензурою.
whuber

@whuber Я думаю, ти маєш рацію. Але, як ви кажете, цензура може переключитися досить легко.
Пітер Флом - Відновити Моніку

Приклад виходу на пенсію, як видається, вимагає розробити модель даних про підрахунок (якщо ви готові обійти цілі роки і до тих пір, поки до моменту запуску аналізу всі мертві). Підхід під латентною змінною здається розтягнутим, оскільки час не може бути негативним.
Мастеров Димитрій Вікторович

Відповіді:


14

Така модель має декілька найменувань, залежно від дисципліни та теми. Загальні назви для нього - цензуровані залежні змінні, усічені залежні змінні, обмежені залежні змінні, аналіз виживання, тобіт і цензурова регресія. Я, мабуть, залишаю кілька інших імен.

Установка, яку ви пропонуєте, де спостерігається , називається "правильною цензурою", оскільки значення занадто далеко праворуч від реального рядка цензуруються --- і замість цього ми просто бачимо точку цензури, .y i amin{yi,a}yia

Один із способів поводження з подібними даними - це використання прихованих змінних (і це в основному те, що ви пропонуєте). Ось один із способів:

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

Потім ви можете проаналізувати це за максимальною ймовірністю. Спостереження, де відбувається цензування, вносять до функції ймовірності, а спостереження, коли цензура не відбувається, сприяють функції ймовірності. CDF стандартної норми становить а щільність стандартної норми - . Отже, функція ймовірності виглядає так:1P{yi>a}=Φ(1σxiβa)Φϕ1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

Ви оцінюєте та , максимізуючи це. Ви отримуєте стандартні помилки як звичайні максимально допустимі стандартні помилки.σβσ

Як ви можете собі уявити, це лише один підхід серед багатьох.


1
+1 Працюючий приклад рішення ML з’являється на сайті stats.stackexchange.com/questions/49443 .
whuber

@whuber Це приємна експозиція.
Білл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.