Чи можна використовувати аналіз основних компонентів щодо цін акцій / нестаціонарних даних?


10

Я читаю приклад, наведений у книзі " Машинне навчання для хакерів" . Я спершу детальніше деталізую на прикладі, а потім поговору про своє запитання.

Приклад :

Бере набір даних за 10 років цін на акції. Працює PCA за цінами на 25 акцій. Порівняє головний компонент з індексом Dow Jones. Зауважує дуже сильну схожість між ПК та DJI!

Як я розумію, приклад більше схожий на іграшку, щоб допомогти новачкам, як я, зрозуміти, наскільки ефективним є інструмент PCA!

Однак, читаючи з іншого джерела , я бачу, що ціни на акції є нестаціонарними, а PCA щодо цін на акції є абсурдом. Джерела, з яких я читав, повністю висміюють ідею обчислення коваріації та PCA для цін на акції.

Запитання :

  1. Як приклад так добре працював? PCA цін на акції та DJI були дуже близькі одне до одного. А дані - реальні дані щодо цін на акції 2002-2011 років.

  2. Чи може хтось вказати мені на якийсь приємний ресурс для читання стаціонарних / нестаціонарних даних? Я програміст. У мене хороша математика. Але я не займався серйозною математикою протягом 3 років. Я знову почав читати такі речі, як випадкові прогулянки тощо.

Відповіді:


10

Цей твір частково відповідає на оригінальне запитання та деякі питання, поставлені в коментарях до відповіді @ JonEgil.

Фінансова (логарифмічна) віддача * є приблизно (хоча часто є певна умовна гетерокедастичність) - у той час як ціни - приблизно випадкові прогулянки. За припущенням про спостереження, аналіз основних компонентів буде безпосередньо узагальнений від вибірки до сукупності (тобто основні компоненти вибірки оцінювали б основні компоненти популяції), але це може не мати місце під спостереженнями - див. Цю тему . Ось чому має сенс запускати PCA на (логарифмічні) прибутки, а не на ціни.i.i.d.i.i.d.i.i.d.

Ruey С. Tsay стверджував бігові PCA на залишках від економетричних моделей серії фінансових часу, оскільки залишки зазвичай передбачається Я думаю , що ця ідея може бути включено будь - то місце в його «багатовимірний Аналіз часових рядів з R і фінансових додатків» підручник (він пояснив мені ідею особисто, тому я не впевнений, де це написано).i.i.d.

* Логарифмічна віддача ціни визначається як . Логарифмічні повернення використовуються для зручності замість відсоткових повернень . Зручною особливістю логарифмічних повернень є те, що ви можете підсумовувати окремих логарифмічних повернень, щоб отримати загальний логарифмічний прибуток за періодів, тоді як це не стосується відсоткових повернень. Для відносно невеликих відсоткових доходів (що є загальним у фінансах), логарифмічна віддача приблизно дорівнює відсотковій віддачі, оскільки логарифм має приблизно одиничний нахил навколо одиниці.Ptr:=log(Pt)log(Pt1)=logPtPt1r:=PtPt1Pt1hh


1
+1, це цікаво. Чи можете ви трохи розширити те, що насправді є "поверненням"? Мої знання з економіки дорівнюють нулю; Я погуглив і виявив, що якщо ціну часовий ряд , то повернення визначаються як . Це правильно? Якщо так, то навіщо логарифм? Я зрозумів би ваш аргумент про співвідношення між доходами IID та цінами випадкової прогулянки, якби прибутки були визначені як різниці. Окрім цього, DJ - це середня ціна, тому я досі не розумію, чому PC1 повернень повинен відповідати цінам, ніж PC1, навіть з огляду на ваші міркування щодо iid. log f ( t i + 1 )f(ti)logf(ti+1)f(ti)
амеба

1
@amoeba, я додав швидке пояснення і зараз треба піти. Сподіваюсь, я там не допустив занадто багато помилок. Я повернусь завтра, якщо будуть якісь подальші питання.
Річард Харді

1
Дякую. Я бачу зараз, що прибутки (логарифмічні прибутки) по суті є похідними (перша різниця) логарифму цін. Отже, якщо твердження полягає в тому, що прибуток є iid, а ціни на журнали - випадкові прогулянки, то це має сенс. Однак я все ще здивований прикладом Дау-Джонса і буду вдячний за будь-які подальші роз’яснення.
амеба

6

Я проводжу ці типи аналізу професійно і можу підтвердити, що вони справді корисні. Але будь ласка, переконайтесь, що ви аналізуєте прибутки, а не ціни. На це також підкреслюється критика у "Стрункіх засобах":

To perform PCA, your data have to have a meaningful covariance matrix 
(or correlation matrix, but the conditions are equivalent). They analyze 
stock prices, which are non-stationary time series variables.

Типовим випадком нашого аналізу є кількісна оцінка системного ризику на ринку. Чим більше спільного руху на ринку, тим менше диверсифікації у вас справді у вашому портфоліо. Наприклад, це можна кількісно визначити за кількістю дисперсії, описаної першим головним компонентом. Що ідентично значенню першого власного значення.

Для фінансових даних, як правило, досліджується вікно, що рухається з плином часу. Корисна деяка форма коефіцієнта занепаду, що зменшує вагу старших спостережень. Щоденні дані - від 20 до 60 днів, для тижневих даних - може бути 1-2 роки, все залежно від ваших потреб.

Зауважте, що на світових фінансових ринках, коли десятки чи сотні тисяч цін на активи постійно змінюються, один типовий не може запускати коефіцієнт коваріації 100К проти 100К. Натомість, типовим способом використання є аналіз аналізу за країною, сектором чи іншими більш значущими групами. Крім того, розбийте дохід на множину основних факторів (величина, розмір, якість, кредит ....) та зробіть аналіз PCA / Covariance на них.

Деякі приємні статті включають обговорення Attilio Meucci щодо ефективної кількості ставок: http://papers.ssrn.com/sol3/papers.cfm?ab абстракт_id=1358533

, а також Ledoit and Wolf's Honey я скоротив матрицю коваріації зразка http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf

Для фінансового орієнтування на стаціонарність, чому б не почати з «Інвестопедії». Це не суворо, але передає основні ідеї.

Удачі!

EDIT: Ось 3-прикладний приклад, який показує Apple, Google та Dow Jones із щоденними прибутками до 2015 року. Верхній трикутник показує кореляцію прибутку, нижній трикутник - співвідношення цін.

Кореляція повернення верхнього трикутника, кореляція ціни на нижній трикутник

Як видно, Apple має більш високу співвідношення ціни з Dow (знизу зліва 0,76), ніж кореляція прибутку (справа вгорі 0,66). Що ми можемо навчитися з цього? Не багато. Google має негативне співвідношення ціни як з Apple (-0,28), так і з Dow (-0,27). Знову ж, багато чому навчитися на цьому. Однак кореляції прибутку говорять про те, що Apple і Google мають досить високу кореляцію з Dow (0,66 і 0,53 відповідно). Це щось говорить про спільний рух (зміна ціни) активів у портфелі. Це корисна інформація.

Основний момент полягає в тому, що хоча співвідношення цін може бути так само легко обчислено, це не цікаво. Чому? Тому що ціна акції сама по собі не цікава. Ціна зміни , однак, дуже цікаво.


Чи можете ви детальніше розширити основну частину питання, що стосується різниці між використанням цін проти прибутку? Я розумію, що при використанні цін на кореляційну матрицю впливатимуть нестаціонарності; наприклад, якщо всі ціни лінійно зростають, то всі кореляції будуть сильно позитивними. По-перше, чому це погано? Зокрема, враховуючи, що Dow Jones - це по суті середня ціна, і вона також зростатиме (як це буде PC1). По-друге, як використання повернень має допомогти? AFAIK "віддачі" - це зареєстровані співвідношення сусідніх точок; чому це значимо і як це пов’язано з Доу Джонсом?
амеба

дякую за інформативну відповідь. Але це не відповідає на моє запитання. Я хочу зрозуміти, чому аналіз цін працює дуже добре для даних, що містяться в книзі? І амеба підняла багато вагомих питань.
Клавдій

1
@claudius: Той факт, що PCA за цінами дає щось подібне на Dow Jones - середня ціна, зовсім не дивно. Мені досить цікаво, чому PCA при поверненні дає кращу форму. Можливо, Джон зможе уточнити.
амеба

1
Я не дивився на фактичний запуск коду в ML для хакерів, але кожен раз, коли хтось скаже, що аналізує ціни, 99 разів із 100, що вони насправді аналізують, - це повернення журналів. Наприклад, сьогодні Dow знижує 162 пункти, тоді як Apple знижує 0,88 долара. Мало того, що цифри сильно відрізняються, вони навіть знаходяться в іншому масштабі, вказуючи бали проти грошей. Але з точки зору pct 0,91% і 0,75% порівнянні, і цифри, з якими ви хочете працювати. Для деяких аналізів можна децензувати дані, віднімаючи середнє значення. У короткострокових фінансових періодах це часто ігнорується, не передбачаючи тенденції.
Джон Егіл

1
@amoeba, Щоб (частково) відповісти на запитання, поставлені в коментарях, повернення є приблизно ідентичними, а ціни - приблизно випадковими прогулянками. Основні компоненти мають свої приємні властивості за умови припущення про спостереження в iid. Ось чому має сенс запускати PCA на прибутках, а не на цінах. Ruey S. Tsay стверджував, що PCA працює на залишках з економетричних моделей фінансових часових рядів, оскільки, як правило, залишки вважаються такими, я думаю, що це може бути включено в його підручник "Аналіз багатоваріантних часових рядів з R та фінансовими додатками".
Річард Харді
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.