Я працюю над домашнім завданням, де мій професор хотів би, щоб ми створили справжню регресійну модель, імітували вибірку даних, і він намагатиметься знайти нашу справжню регресійну модель, використовуючи деякі методи, які ми вивчили на уроці. Ми також повинні будемо робити те ж саме з набором даних, який він нам надав.
Він каже, що йому вдалося створити досить точну модель для всіх минулих спроб спробувати його і обдурити. Були студенти, які створювали якусь божевільну модель, але він, певно, зміг створити простішу модель, яка була б достатньою.
Як я можу розробити складну модель для нього? Я не хочу бути супердешевим, виконуючи 4 квадратичні терміни, 3 спостереження та масивну дисперсію? Як я можу створити начебто нешкідливий набір даних, який має під собою жорстку маленьку модель?
Він просто має 3 правила, яких слід дотримуватися:
У вашому наборі даних повинна бути одна змінна "Y" та 20 змінних "X", позначені як "Y", "X1", ..., "X20".
Ваша змінна відповідь повинна виходити з лінійної моделі регресії, яка задовольняє: Y ′ i = β 0 + β 1 X ′ i 1 + … + β p - 1 X ′ i , p - 1 + ϵ i де ϵ i ∼ N ( 0 , σ 2 ) і p ≤ 21 .
Усі змінні, які були використані для створення Y , містяться у вашому наборі даних.
Слід зазначити, що не всі 20 змінних X повинні бути у вашій реальній моделі
Я думав використати щось на кшталт Fama-French 3-факторної моделі і змусити його почати з даних про запаси (SPX та AAPL) і мусив перетворити ці змінні на безперервно складені прибутки, щоб трохи зменшити це. Але це залишає мене з відсутніми значеннями в першому спостереженні, і це часовий ряд (про який ми ще не обговорювали в класі).
Переконайтесь, що це правильне місце для публікації чогось подібного. Я відчував, що це може породити добру дискусію.
Редагувати: Я також не прошу зокрема "заздалегідь побудованих" моделей. Мені цікавіше тематика / інструменти в статистиці, які б дали можливість комусь займатися цим.