Включення більш детальних пояснювальних змінних у часі


9

Я намагаюся зрозуміти, як я можу найкраще моделювати змінну, де з часом я отримую все більш детальні прогнози. Наприклад, розглянемо моделювання коефіцієнтів відновлення заборгованості з дефолтом. Припустимо, у нас є набір даних із 20-річними даними, і в перші 15 років ми знаємо лише, чи була позика під заставу чи ні, але нічого про характеристики цього застави. За останні п'ять років, однак, ми можемо розбити заставу на ряд категорій, які, як очікується, будуть хорошим прогнозом швидкості відновлення.

Враховуючи цю установку, я хочу приєднати модель до даних, визначити такі заходи, як статистична значущість прогнозів, а потім прогнозувати модель.

У які пропущені рамки даних це відповідає? Чи є якісь особливі міркування, пов’язані з тим, що більш детальні пояснювальні змінні стають доступними лише через певний момент часу, на відміну від розпорошених по всій історичній вибірці?

Відповіді:


1

Гаразд, із досвіду використання історичних даних більша кількість історії може зробити регресію кращою, але якщо прогнозування є точкою вправи, загальна відповідь попереджається. У випадку, коли дані відображають періоди, протягом яких "світ" був дуже різним, стабільність кореляцій викликає сумніви. Особливо це відбувається в економіці, де ринки та регулювання постійно розвиваються.

Це стосується і ринку нерухомості, який, крім того, може мати тривалий цикл. Наприклад, винахід іпотечних цінних паперів перетворило ринок іпотечного кредитування та відкрило ворота з повені щодо виникнення іпотечних кредитів, а також, на жаль, спекуляцій (насправді існував цілий клас позик без жодних / низьких документів, які називали позиками).

Методи, які перевіряють на зміну режиму, можуть бути особливо цінними при вирішенні суб'єктивним способом вилучення анамнезу.


1

Як правило, це може розглядатися як проблема обмеженого значення параметра. Як я розумію ваше запитання, у вас є менш інформативний параметр (застава невідомої якості [Cu]) на початку ваших даних і більш інформативний (застава з високою [Ch], середньою [Cm] або низькою [Cl]) вашою пізніші дані.

Якщо ви вважаєте, що спостережувані параметри для моделі не змінюються з часом, то метод може бути простим, якщо ви припускаєте, що точкові оцінки кожного є Cl <Cm <Ch і Cl <= Cu <= Ch. Логіка полягає в тому, що Cl - найгірший, а Ch - найкращий, тому, коли дані невідомі, він повинен бути між або рівним цим. Якщо ви готові бути дещо обмежуючими і вважаєте, що не всі застави були або високими, або низькими якостями протягом перших 15 років, ви можете припустити, що Cl <Cu <Ch, що робить його значно простішим, щоб оцінити.

Математично їх можна оцінити приблизно так:

Cl=exp(β1)Cm=exp(β1)+exp(β2)Cu=exp(β1)+exp(β3)1+exp(β4)Ch=exp(β1)+exp(β2)+exp(β3)

Якщо функція logit у Cu обмежує значення між Cl та Ch, не обмежуючи його відносно Cm. (Також можуть бути використані інші функції, що обмежують між 0 і 1.)

Ще одна відмінність моделі повинна полягати в тому, що дисперсія повинна бути структурована так, що залишкова дисперсія залежить від періоду часу, оскільки інформація в кожному періоді різна.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.