Байєсівський змінний вибір - чи справді це працює?


14

Я подумав, що я можу погратись із деяким байєсівським змінним вибором, дотримуючись приємного допису в блозі та пов'язаних з ним паперів. Я написав програму в rjags (де я досить новичок) і отримав дані про ціни на Exxon Mobil, а також деякі речі, які навряд чи пояснюють її повернення (наприклад, ціни на паладій) та інші речі, які мають сильно співвідноситись (наприклад, SP500 ).

Бігаючи lm(), ми бачимо, що є вагомі докази переоціненої моделі, але паладій, безумовно, повинен бути виключений:

Call:
lm(formula = Exxon ~ 0 + SP + Palladium + Russell + OilETF + 
    EnergyStks, data = chkr)

Residuals:
       Min         1Q     Median         3Q        Max 
-1.663e-03 -4.419e-04  3.099e-05  3.991e-04  1.677e-03 

Coefficients:
           Estimate Std. Error t value Pr(>|t|)    
SP          0.51913    0.19772   2.626 0.010588 *  
Palladium   0.01620    0.03744   0.433 0.666469    
Russell    -0.34577    0.09946  -3.476 0.000871 ***
OilETF     -0.17327    0.08285  -2.091 0.040082 *  
EnergyStks  0.79219    0.11418   6.938 1.53e-09 ***

Після перетворення на прибутки я спробував запустити просту модель на зразок цієї

  model {
    for (i in 1:n) {
      mean[i]<-inprod(X[i,],beta)
      y[i]~dnorm(mean[i],tau)
    }
    for (j in 1:p) {
      indicator[j]~dbern(probindicator)
      betaifincluded[j]~dnorm(0,taubeta)
      beta[j] <- indicator[j]*betaifincluded[j]
    }
    tau~dgamma(1,0.01)
    taubeta~dgamma(1,0.01)
    probindicator~dbeta(2,8)
  }

але я виявив, що, майже незалежно від параметрів вибраних гамма-розподілів, я отримав досить безглузді відповіді, такі як незмінна ймовірність включення 20% для кожної змінної.

Я також отримав крихітні, крихітні коефіцієнти регресії, які я готовий терпіти, оскільки це повинно бути моделлю відбору, але це все ще здавалося дивним.

                              Mean        SD  Naive SE Time-series SE
SP         beta[1]       -4.484e-03   0.10999  0.003478       0.007273
Palladium  beta[2]        1.422e-02   0.16646  0.005264       0.011106
Russell    beta[3]       -2.406e-03   0.08440  0.002669       0.003236
OilETF     beta[4]       -4.539e-03   0.14706  0.004651       0.005430
EnergyStks beta[5]       -1.106e-03   0.07907  0.002500       0.002647
SP         indicator[1]   1.980e-01   0.39869  0.012608       0.014786
Palladium  indicator[2]   1.960e-01   0.39717  0.012560       0.014550
Russell    indicator[3]   1.830e-01   0.38686  0.012234       0.013398
OilETF     indicator[4]   1.930e-01   0.39485  0.012486       0.013229
EnergyStks indicator[5]   2.070e-01   0.40536  0.012819       0.014505
           probindicator  1.952e-01   0.11981  0.003789       0.005625
           tau            3.845e+03 632.18562 19.991465      19.991465
           taubeta        1.119e+02 107.34143  3.394434       7.926577

Чи насправді вибір байєсівської змінної дійсно такий поганий / чутливий? Або я роблю якусь кричущу помилку?


5
Пробачте моє незнання; але що було свідченням для пристосування, про яке ви посилаєтесь?
curious_cat

Ви повинні пояснити, які саме змінні є у другому висновку. Я використовував байєсівський змінний вибір для різних проблем і в ряді ситуацій (включаючи регресію), як правило, працює досить добре. Але ваші результати - особливо оцінки - виглядають мені дивно.
Glen_b -Встановіть Моніку

@curious_cat Докази переобладнання є, наприклад, у від'ємному коефіцієнті між Exxon (нафтова компанія) та ціною нафти. Він виникає тому, що я навмисно зробив цю модель жертвою мультиколінеарності . (Можливо, "overfitting" - це неправильне слово для його опису - я вважаю, що перепараметризований спосіб більш точний).
Брайан Б

@BrianB Чи стає цей коефіцієнт позитивним, якщо відкинути всі пояснювальні змінні, окрім нафти? Просто цікаво.
curious_cat

@curious_cat Так, звичайно (приблизно 0,7). Це класичний випадок мультиколінеарності (ще одне потворне слово).
Брайан Б

Відповіді:


3

У коді BUGS, mean[i]<-inprod(X[i,],beta)слід mean[i]<-inprod(X[i,],beta[]).

Ваші пріорі на тау і таубета занадто інформативні.

Вам потрібно неінформативне попереднє повідомлення про betaifincluded, використовуйте, наприклад, a gamma(0.1,0.1)на taubeta. Це може пояснити, чому ви отримуєте крихітні коефіцієнти регресії.


Дякуємо, що зауважили це. На жаль, це не покращило ситуацію.
Брайан Б

2

Це працює, але ви дали всім змінним показникам включення однаковий базовий розподіл.

  model {
    for (i in 1:n) {
      mean[i]<-inprod(X[i,],beta)
      y[i]~dnorm(mean[i],tau)
    }
    for (j in 1:p) {
      indicator[j]~dbern(probindicator[j])
      probindicator[j]~dbeta(2,8)
      betaifincluded[j]~dnorm(0,taubeta)
      beta[j] <- indicator[j]*betaifincluded[j]
    }
    tau~dgamma(1,0.01)
    taubeta~dgamma(1,0.01)

  }

може працювати краще з обмеженою кількістю змінних.


Спробувати цей рецепт спрацював не краще, принаймні, на 10000 пробах.
Брайан Б

2

Якщо ви використовували повернення журналу, то ви зробили незначну помилку, але якщо ви використовували майбутнє значення, розділене на теперішнє значення, то ваша ймовірність неправильна. Насправді ваша ймовірність помилкова в будь-якому випадку. Це не так вже й неправильно.

Вважайте, що статистика - це будь-яка функція даних. Повернення - це не дані, це перетворення даних. Вони - майбутня цінність, поділена на теперішню вартість. Ціни - дані. Ціни повинні мати функцію розподілу, але функція розподілу для повернення повинна залежати виключно від характеру цін.

pтpт+1

pт+1pт-1.

1πσσ2+(у-β1х1-β2х2-βнхн-α)2.

OLS найкраще підходить до спостережуваних даних, навіть якщо це неправильне рішення. Байєсівські методи намагаються знайти функцію генерації даних через імовірність. Ви мали ймовірність помилятися, тому її не змогли знайти.

У мене є документ про це, якщо вам потрібна додаткова інформація.

EDIT Я думаю, що ви зрозуміли неправильно. Якби ви перетворили ймовірність на функцію щільності і прийняли очікування, ви виявите, що її немає. За доказом Августина Коші в 1852 році, а може, і в 1851 році, будь-яка форма рішення найменших квадратів є абсолютно неточною. Це завжди вийде з ладу. Справа не в тому, що вам слід використовувати стандартну регресію, оскільки байєсівська чутливість до ймовірності, це те, що Байєс - єдине доступне рішення, яке є прийнятним, за окремими винятками для деяких незвичних особливих випадків.

Роблячи емпіричне тестування з цього приводу, і перш ніж я прочитав достатню кількість математики, я наївно подумав, що байєсівське та частотське рішення повинні відповідати. Приблизно існує теорема, яка говорить про те, що як вибірка стане достатньо великою, вони зближаться. Я використовував усі торги в кінці дня у Всесвіті CRSP з 1925-2013, щоб перевірити це. Це не те, що говорить теорема. Я неправильно розумів правила.

Я також спробував проблему в журналах, і вона все ще не відповідала. Тож я щось зрозумів, усі розподіли є формами, і тому я сконструював геометричне рішення, щоб визначити, яке рішення було правильним. Я трактував це як чисту проблему геометрії, щоб визначити, яка алгебраїчна відповідь відповідає даним.

Байєсівський збігався. Це привело мене до дуже математичного шляху, тому що я не міг зрозуміти, чому неупереджений оцінювач так помилявся. Тільки для запису, використовуючи розрізнені прибутки за період 1925-2013 та вилучаючи фірми-оболонки, закриті фонди тощо, розбіжність між центром розташування становить 2%, а міра ризику занижена на 4% для річної віддачі . Ця невідповідність стосується перетворення журналу, але з іншої причини. Він може бути різним для окремих індексів або підмножини даних.

Причина розбіжності двостороння. Перший полягає в тому, що пов'язані розподіли не мають достатньої статистики. Для певних типів проблем це не має значення. Однак для проективних цілей, таких як прогнозування або розподіл, вони мають велике значення. Друга причина полягає в тому, що неупереджений оцінювач завжди є версією середнього, але розподіл не має середнього значення.

Густина вище не є членом експоненціальної родини, як це нормальне або гамма-розподіл. За теоремою Пітмана – Коопмана – Дармуа не існує достатньої точкової статистики для параметрів. Це означає, що будь-яка спроба створити оцінювач точок повинна викинути інформацію. Це не є проблемою для байєсівських рішень, оскільки задня частина - це ціла щільність, і якщо вам знадобиться точкова оцінка, ви можете знайти прогнозну щільність і мінімізувати функцію витрат над нею, щоб зменшити її до однієї точки. Байєсівська ймовірність завжди мінімально достатня.

Мінімальний неупереджений оцінювач для вищевказаної функції полягає в тому, щоб зберегти центральні 24,6% даних, знайти її обрізане середнє значення та відкинути решту даних. Це означає, що понад 75% даних скидається, а інформація втрачається. Просто зауважте, це може бути 24,8%, оскільки я працюю з пам’яті. Папір Ротенберга ви можете знайти за адресою:

Ротенберг, Техас і Ф.М. Фішер, К.Б. Тиланус, Примітка про оцінку зразка Коші, Журнал Американської статистичної асоціації, 1964, т. 59 (306), стор 460-463

Друге питання мене здивувало. Поки я не займався геометрією, я не розумів, в чому причина. Повернення обмежуються внизу на рівні -100%. Це зміщує медіану на 2%, а міжквартильний діапазон зміщується на 4%, хоча половина маси все ще знаходиться в тих же точках. Напівмаса - це належна міра масштабу, але півширина - ні. Якби не було усічення, то половина ширини і половина маси були б у однакових точках. Аналогічно, медіана і режим залишаться в одній точці. Медіана - це повернення для середнього суб'єкта господарювання або принаймні середньої торгівлі. Таким чином, це завжди місце MVUE і середнє значення журналу.

Правильне розуміння теореми полягає в тому, що всі баєсові оцінки є допустимими оцінниками. Частотні оцінювачі є допустимими оцінками, якщо виконується одна з двох умов. Перший полягає в тому, що в кожному зразку частота і байесовское рішення однакові. Друга полягає в тому, що якщо обмежувальне рішення методу Байесяна відповідає рішенню Частолістського, то рішення Часткового лікаря є допустимим.

Усі допустимі оцінювачі сходяться до одного і того ж рішення, коли розмір вибірки буде досить великим. Оцінювач частоти передбачає, що його модель є справжньою моделлю, а дані - випадковими. Байєсівський припускає, що дані вірні, але модель є випадковою. Якщо у вас було нескінченна кількість даних, то суб'єктивна модель повинна сходитися до реальності. Якщо у вас було нескінченна кількість даних, але неправильна модель, то модель Частота зблизиться з реальністю з нульовою вірогідністю.

У цьому випадку байєсівське рішення, за розумними пріорами, завжди буде стохастично домінувати над будь-яким частотологічним оцінювачем через усічення та втрату інформації для створення оцінювача.

У журналах функція вірогідності - це розподіл сектантів гіперболічного типу. Він має кінцеву дисперсію, але ніякої коваріації. Матриця коваріації, знайдена за допомогою OLS, є артефактом даних і не вказує на параметр, який існує в базових даних. Як і в сирому вигляді, і в колодах журналу не утворюється нічого, але і нічого не залежить. Натомість існують набагато складніші відносини, які порушують визначення коваріації, але в яких вони можуть входити.

Markowitz та Usman майже знайшли це у своїй роботі над дистрибутивами, але гіперболічний семантичний розподіл не в сім'ї Пірсонів, і вони неправильно інтерпретували дані, помічаючи, що, коли ви змінюєте розподіл із необроблених даних на журнал даних, ви також змінюєте його статистичні властивості . Вони в основному з’ясували це, але пропустили його, оскільки не мали підстав шукати його і не усвідомлювали ненавмисних наслідків використання журналів.

У мене немає Марковита та Усмана, які цитують мене зі мною, де я перебуваю, але вони зробили одну з небагатьох дуже хороших робіт при оцінці розподілу, який там знаходиться.

У будь-якому випадку, я не використовую JAGS. Я поняття не маю, як це зробити. Я кодую всі свої роботи MCMC вручну.

У мене є документ, який набагато більш повний і точний на цю тему:

Harris, DE (2017) Розподіл повернень. Журнал математичних фінансів, 7, 769-804.

Він надасть вам метод побудови розподілів для будь-якого класу активів або пасивів, а також коефіцієнти обліку.

Я був багатомовним, але я міг бачити, що ви неправильно розумієте зв’язок між Бейсом та методами Пірсона-Неймана. Ви їх перевернули. Байєс завжди працює, але ви захоплені попередньою щільністю, яка порушить ваше рішення. Завдяки належному попередньому вам гарантується упереджений оцінювач, і для цього типу імовірності функція, я вважаю, що ви повинні використовувати належний до того, щоб гарантувати інтеграцію до єдності. Методи частого лікування швидко і зазвичай працюють. Вони неупереджені, але можуть бути недійсними.


Різниця між логарифмами та ціновою віддачею на щоденному рівні становить приблизно 1 частину в 500 (я взяв 50 базисних показників повернення як базові). Варто також зазначити, що щоденна віддача, виміряна в будь-якому випадку, досить далека від нормального розподілу (незалежно від економічних теорій, навпаки). У будь-якому випадку, якщо алгоритм чутливий до цих питань, то він практичний для практичних цілей. Мені хотілося б знати, як функція вірогідності, яку ви цитуєте карти, в код JAGS - чи можете ви розробити?
Брайан Б

@BrianB Я відредагував відповідь. Ви робите помилку, думаючи, що я зробив. Мені знадобилося назавжди зрозуміти, чому я помиляюся.
Дейв Гарріс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.