Приховування регресійної моделі від професора (регресійний броненосець) [закрито]


11

Я працюю над домашнім завданням, де мій професор хотів би, щоб ми створили справжню регресійну модель, імітували вибірку даних, і він намагатиметься знайти нашу справжню регресійну модель, використовуючи деякі методи, які ми вивчили на уроці. Ми також повинні будемо робити те ж саме з набором даних, який він нам надав.

Він каже, що йому вдалося створити досить точну модель для всіх минулих спроб спробувати його і обдурити. Були студенти, які створювали якусь божевільну модель, але він, певно, зміг створити простішу модель, яка була б достатньою.

Як я можу розробити складну модель для нього? Я не хочу бути супердешевим, виконуючи 4 квадратичні терміни, 3 спостереження та масивну дисперсію? Як я можу створити начебто нешкідливий набір даних, який має під собою жорстку маленьку модель?

Він просто має 3 правила, яких слід дотримуватися:

  1. У вашому наборі даних повинна бути одна змінна "Y" та 20 змінних "X", позначені як "Y", "X1", ..., "X20".

  2. Ваша змінна відповідь повинна виходити з лінійної моделі регресії, яка задовольняє: Y i = β 0 + β 1 X i 1 + + β p - 1 X i , p - 1 + ϵ i де ϵ iN ( 0 , σ 2 ) і p 21 .Y

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. Усі змінні, які були використані для створення Y , містяться у вашому наборі даних.XY

Слід зазначити, що не всі 20 змінних X повинні бути у вашій реальній моделі

Я думав використати щось на кшталт Fama-French 3-факторної моделі і змусити його почати з даних про запаси (SPX та AAPL) і мусив перетворити ці змінні на безперервно складені прибутки, щоб трохи зменшити це. Але це залишає мене з відсутніми значеннями в першому спостереженні, і це часовий ряд (про який ми ще не обговорювали в класі).

Переконайтесь, що це правильне місце для публікації чогось подібного. Я відчував, що це може породити добру дискусію.

Редагувати: Я також не прошу зокрема "заздалегідь побудованих" моделей. Мені цікавіше тематика / інструменти в статистиці, які б дали можливість комусь займатися цим.


4
Буде важко, якщо він обмежує вас лінійною моделлю ...
Френк Х.

4
Якщо ваш професор виграє, якщо ваші справжні коефіцієнти знаходяться в 95% довірчих інтервалах, то мультиколінеарність не допоможе, оскільки мультиколінеарність сильно завищує ІС. Якщо, з іншого боку, проводиться оцінка різниці між прогнозованими та фактичними даними про нові прогнози ("фактичні" дані, сформовані за допомогою вашого справжнього DGP), то мультиколінеарність буде набагато кращим підходом. Підсумок: з’ясуйте, що таке цільова функція, і налаштуйте свій підхід до неї. (Це стосується більш загально в житті ...)
Стефан Коласа

4
@dylanjm Ви могли б точно визначити умови перемоги?
Меттью Ганн

11
Суть такої вправи полягає в тому, щоб ви дізналися , намагаючись щось придумати самостійно . Якщо ви накидаєте на нього експертів проти нього, ваша можливість насправді розтягнути свій мозок, консолідуючи різні відомості, які ви отримали стосовно регресії, різко зменшується (а також є несправедливою щодо професора). Крім того, будь-яка поважна установа, яка представляє йому роботу як свою, коли її частково робив хтось інший, може лежати десь між академічними проступками та шахрайством (особливо, якщо це вартує будь-якої частини вашої оцінки). Будьте дуже уважні до того, як саме ви це запитуєте.
Glen_b -Встановіть Моніку

4
Незважаючи на популярність цього питання, я відчуваю обов'язок закрити його на даний момент, тому що навіть після неодноразових запитів на роз'яснення щодо правил гри (які критерії будуть використані для оцінки успіху, скільки зразків потрібно надати тощо) це важливе значення інформація все ще не з'явилася у питанні. Наші цілі вужчі та більш зосереджені, ніж "породжувати дискусію": зверніться до нашого довідкового центру щодо питань, на які ми можемо звернутися на цьому веб-сайті.
whuber

Відповіді:


6

yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

Удачі визначити фазу з цим співвідношенням шум / сигнал.


Це, здається, не працює за критерієм виграшу КІ, чи не так? Ми просто отримаємо величезні КІ, які неодмінно охоплюватимуть 1. І певну чисельну нестабільність, звичайно.
Стефан Коласа

Нестабільність не буде проблемою, все, що я роблю, це поховання сигналу в шумі. Це вийде як чистий білий шум.
Аксакал

4
ОП вважало це небажаною дешевою моделлю
Секстус Емпірік

5

YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

YX1X1YX1X2

X1X2X1X2 Y

E[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY тощо. Ви можете заперечити, що це було не те, що він сказав, оскільки він заявляє:

змінна Y повинна виходити з лінійної моделі регресії, яка задовольняє (...) змінним, які були використані для створення Y (...) вашої реальної моделі (...)

І ви могли б викликати хорошу дискусію в класі про причинність, що означає справжній DGP та ідентифікація взагалі.


ви пропонуєте модель, яка відповідає
номеру

3

Використовуйте змінні з мультиколінеарністю та гетероседастичністю, як дохід у порівнянні з віком: зробіть іншу хворобливу інженерну функцію, яка забезпечує проблеми з масштабуванням: дайте НС для деяких, що посипаються в бідності. Частина лінійності дійсно робить її більш складною, але це може бути болючим. Крім того, люди, що пережили люди, збільшили б проблему для нього вперед.


Я думаю, що гетероседастичність виходить за межі проблеми, але, безумовно, згоден, що мультиколінеарність є одним з найкращих способів зробити важко знайти справжню специфікацію.
JDL


0

Виберіть будь-яку лінійну модель. Надайте йому набір даних, де більшість зразків приблизно x = 0. Дайте йому кілька зразків приблизно x = 1 000 000.

Приємно, що зразки навколо х = 1 000 000 не є пересічними. Вони генеруються з одного джерела. Однак оскільки шкали настільки різні, помилки навколо 1М не підходять до помилок близько 0.

Yi=β0+β1Xi1+ϵi

У нас є набір даних з n вибірок, поблизу x = 0. Ми виберемо ще 2 бали у «досить далеко» значеннях. Ми припускаємо, що ці дві точки мають деяку помилку.

Значення "досить далеко" - це таке значення, що помилка для оцінки, яку не проходить безпосередньо в цих двох точках, значно більша, ніж помилка решти набору даних.

Отже, лінійна регресія вибере коефіцієнти, які пройдуть у цих двох точках і пропустять решту набору даних та будуть відрізнятися від підкресленої моделі.

Дивіться наступний приклад. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

Це у форматі серії WolfarmAlpha. У кожній парі перший елемент є x, а другий генерується в Excel за формулою = A2 + NORMINV (RAND (), 0,2000).

β0=1,β1=1

y=178433.x426805y=x


Як саме це має працювати і який ефект повинен створювати?
Річард Харді

Це працює, оскільки шум і точність будуть працювати по-різному в різних масштабах. У високих числах, приймаючи крайність і враховуючи єдину точку, лінія повинна пройти безпосередньо через неї або понести великі витрати. Дещо шуму вистачає, щоб пропустити потрібні значення. Навколо нуля, знову ж таки в крайньому випадку - жодної задуми, ви залишені шумом.
DaL

Використовуйте невелике значення для змінної з неправильним коефіцієнтом, і ви платите витрати.
ДаЛ

Так, але чому професору було б важко розкрити модель, яка породила це? Це виглядає як особливо легке завдання, коли в даному регресорі так багато варіацій.
Річард Харді

Тому що жодна модель не підійде добре обом групам.
ДаЛ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.