Новий революційний спосіб передачі даних?


21

Наступний уривок - це інтерв'ю із стабільно успішним менеджером хедж-фондів Джаффрі Вудріфом ( майстер 2012 року) Швагера ( Wizzards Market Wizzards) (травень 2012 року):

На питання: "Які найстрашніші помилки люди роблять при обробці даних?":

Дуже багато людей вважають, що це нормально, оскільки вони використовують взіркові дані для тренінгу, а позамобільні дані для тестування. Потім вони сортують моделі, грунтуючись на тому, як вони працювали на даних проб, і вибирають найкращі для тестування на вибіркових даних. Тенденція людини полягає у тому, щоб брати моделі, які продовжують добре працювати з вибірковими даними, і вибирати ті моделі для торгівлі. Цей тип процесу просто перетворює позабіржові дані в частину навчальних даних, оскільки він вибирає моделі, які найкраще підходили за період поза вибіркою. Це одна з найпоширеніших помилок, яку роблять люди, і одна з причин того, що пошук даних, як правило, застосовується, дає жахливі результати.

Інтерв'юер запитує: "Що ти повинен робити замість цього?":

Ви можете шукати шаблони, коли в середньому всі моделі, що не є зразками, продовжують працювати добре. Ви знаєте, що у вас все добре, якщо середній показник для моделей, що не є вибіркою, становить значний відсоток від показника в вибірці. Взагалі кажучи, ви дійсно кудись потрапляєте, якщо результати поза вибіркою становлять понад 50 відсотків від вибірки. Бізнес-модель QIM ніколи б не працювала, якби SAS та IBM будували чудове програмне забезпечення для прогнозування.


Мої запитання
Чи це має сенс? Що він означає? Чи є у вас підказки - чи, можливо, навіть назва запропонованого методу та деякі посилання? Або цей хлопець знайшов святий грааль, якого ніхто більше не розуміє? Він навіть каже в цьому інтерв'ю, що його метод може потенційно революціонувати науку ...


4
Хіба він не просто обговорює помилки з одного розбитого зразка (поїзд та перевірка) та виступає за вкладений процес перехресної перевірки?
B_Miner

12
Я б насторожено ставився до тих, хто заявляв би про глибоке розуміння, яке б революціонувало "науку".
кардинал

2
Керівники хедж-фондів, які претендують на "кращий модельний підхід" і трохи сміття говорять про конкуренцію? Нічого нового там немає.
zbicyclist

2
вау, як це питання отримує стільки результатів? Вибірка прогнозування - це питання, яке обговорюється в перший день будь-якого вступного курсу машинного навчання. Є ті, хто не відповідає неправильним прогнозам прогнозів, але, безумовно, ніхто не має навіть найменшої підказки щодо завдання передбачення.
user4733

Торгівля - це, звичайно, часова серея. Проблема, на яку він говорить, здається, що перехресне підтвердження (звичайно, використовуючи відомі дані) не може вирішити проблему зміни структури з часом!, Тому це не святий грааль. Але те, що він насправді робить, не можна зробити з висновку.
kjetil b halvorsen

Відповіді:


6

Чи має це сенс ? Частково.

Що він означає? Будь-ласка, запитайте його.

Чи є у вас підказки - чи, можливо, навіть назва запропонованого методу та деякі посилання?

Перехресне підтвердження. http://en.wikipedia.org/wiki/Cross-validation_(statistics)

Або цей хлопець знайшов святий грааль, якого ніхто більше не розуміє? Ні.

Він навіть каже в цьому інтерв'ю, що його метод може потенційно революціонувати науку ... Можливо, він забув включити посилання на це твердження ...


2
Ну, принаймні, він вказує на справжню проблему ...

8

Не впевнений, чи будуть відповіді на інші "рейтингові" відповіді, але ось мій.

Перехресне підтвердження жодним чином не є "новим". Крім того, крос-валідація не використовується, коли знайдені аналітичні рішення. Наприклад, ви не використовуєте перехресну перевірку для оцінки бета-версій, ви використовуєте OLS або IRLS або якесь інше "оптимальне" рішення.

Те, що я бачу як очевидно очевидний пробіл у цитаті, - це не посилання на жодне поняття про фактичну перевірку "найкращих" моделей, щоб побачити, чи мають вони сенс. Взагалі, хороша модель має сенс на якомусь інтуїтивному рівні. Схоже, твердження полягає в тому, що резюме - це срібна куля для всіх проблем передбачення. Там також не говорити від установки на більш високому рівні структури моделі - ми використовуємо SVM , регресія дерева , Підвищуючи , Bagging , МНК , GLMS , GLMNS. Чи регулюємо ми змінні? Якщо так, як? Чи групуємо змінні разом? Чи хочемо ми стійкості до розрідженості? Чи є у нас аутлаєри? Чи слід моделювати дані в цілому або по шматочках? Занадто багато підходів для вирішення на основі резюме .

І ще один важливий аспект - які комп'ютерні системи доступні? Як зберігаються та обробляються дані? Чи є відсутність - як ми це враховуємо?

І ось головне: чи є у нас достатньо хороші дані, щоб зробити хороші прогнози? Чи існують відомі змінні, яких у нашому наборі даних немає? Чи є наші дані представниками того, що ми намагаємось передбачити?

KK2

npnpnp


9
Приємна черга. Було б набагато простіше читати, якби ти використовував епізодичні ковпачки, хоча ...
MånsT

4

Його пояснення щодо поширеної помилки в пошуку даних здається розумним. Його пояснення того, що він робить, не має жодного сенсу. Що він має на увазі, коли каже: "Загалом кажучи, ви дійсно кудись потрапляєте, якщо результати поза вибіркою становлять більше 50 відсотків від вибірки"? Тоді SAS і IBM з поганою обробкою також не виглядають дуже розумними. Люди можуть мати успіх на ринку, не розуміючи статистики, а частиною успіху є удача. Неправильно ставитись до успішних бізнесменів так, ніби вони прогнозують гуру.


1
Чи не зовсім зрозуміло, що малося на увазі під цитованою заявою? Залежно від того, як використовуються моделі, те, що він каже, що може зробити, може мати багато сенсу. Наприклад, головним "вилученням" з проблеми Netflix, здається, є сила "змішування моделей" до тих пір, поки вкрай мало потреби в інтерпретації. У такому випадку деякі «середні» показники вибірки моделей, що розглядаються, можуть бути абсолютно актуальними.
кардинал

@cardinal: Чи могли б ви скласти відповідь з цих дуже цікавих думок? Було б чудово, дякую!
фондж

2
@cardinal Можливо, вам це зрозуміло, але потім поясніть речення "Ви дійсно кудись потрапляєте, якщо результати поза вибіркою перевищують 50 відсотків від вибірки". Якщо ви говорите, що усереднення ансамблів серед моделей може бути ефективним, то, звичайно, я можу погодитися з цим. У багатьох програмах було продемонстровано, що прискорення працює. Але я не бачу, звідки це випливає із зауважень Вудріфа.
Майкл Р. Черник

2
Я, очевидно, не знаю подробиць того, що стверджує містер Вудріфф, але моє тлумачення цього на основі уривку щось впливає на: "[У моїх заявках], якщо середній показник поза вибіркою [з використанням будь-якої метрики Я вважаю релевантним] щонайменше наполовину настільки ж добре, як продуктивність у зразку після встановлення моделі, тоді це має сенс для мого застосування ». Я математик / статистик, тому мені потрібні застереження. Якби я був менеджером хедж-фондів, який шукав деякого зовнішнього визнання, я міг би бути більш грандіозним і абсолютним у своїх зауваженнях.
кардинал

1
@cardinal Отже, візьміть показник помилок як показник продуктивності, тоді ви інтерпретуєте Вудріфа, щоб сказати, що якщо показник помилки вибірки становить 5%, а коефіцієнт помилки вибірки - 10%, тоді метод хороший? Чому б просто не подивитися на вибір вибірки, щоб вирішити? Я вважаю, що співвідношення вибіркових показників вибірки до продуктивності вибірки говорить вам про те, наскільки надійною / ненадійною є оцінка вибіркових помилок вибірки, але я не бачу, щоб вона входила до оцінки ефективності класифікатора. Я досі не бачу, куди поєднання моделі входить до його зауважень.
Майкл Р. Черник

4

Ви можете шукати шаблони, коли в середньому всі моделі, що не є зразками, продовжують працювати добре.

Моє розуміння слова візерунків тут, він означає різні ринкові умови. Наївний підхід проаналізує всі наявні дані (ми всі знаємо, що більше даних є кращими), підготувати найкращу модель підгонки кривої, потім запустити її на всіх даних і постійно торгувати з ними.

Більш успішні менеджери хедж-фондів та алгоритмічні трейдери використовують свої знання на ринку. Як конкретний приклад, перші півгодини торгової сесії можуть бути більш мінливими. Тож вони спробують моделі на всіх своїх даних, але лише протягом перших півгодини та на всіх своїх даних, але виключаючи перші півгодини. Вони можуть виявити, що дві їх моделі добре справляються в перші півгодини, але вісім з них втрачають гроші. Тоді як, коли вони виключають цю першу півгодини, сім їх моделей заробляють гроші, три втрачають гроші.

Але замість того, щоб брати ці дві виграшні моделі та використовувати їх у перші півгодини торгів, вони кажуть: це погана пора дня для алгоритмічної торгівлі, і ми взагалі не збираємося торгувати. Решту дня вони використовуватимуть свої сім моделей. Тобто, здається, що ринок легше передбачити за допомогою машинного навчання в той час, тому ці моделі мають більше шансів надійності йти вперед. (Час дня - не єдиний малюнок; інші, як правило, пов'язані з новинними подіями, наприклад, ринок є більш мінливим до того, як будуть оголошені ключові економічні показники.)

Це моє тлумачення того, що він говорить; це може бути абсолютно неправильним, але я сподіваюся, що це все-таки корисна їжа для роздумів для когось.


2

Як професіонал фінансів, я знаю достатньо контексту, що ця заява не представляє ніякої неоднозначності. Фінансові часові ряди часто характеризуються зміною режиму, структурними перервами та зрушенням концепції, тому перехресне підтвердження, як це практикується в інших галузях, не є таким успішним у фінансових сферах. У другій частині він посилається на фінансову метрику - або коефіцієнт рентабельності інвестицій за коефіцієнтом Шарпа (прибуток у чисельнику), а не MSE або інша функція збитку. Якщо стратегія вибірки дає 10% прибутку, то в реальній торгівлі вона цілком реально може скласти лише 5%. "Революційна" частина, безумовно, стосується його власного підходу до аналізу, а не до цитат.


Питання до onlyvix: Чи знаєте ви про будь-яку роботу, що використовує ваш фінансовий показник як інструмент оптимізації параметрів, тобто безпосередньо оптимізувати параметри шляхом максимізації цього показника, а не використовуючи максимальну ймовірність?
kjetil b halvorsen

@kbh - це не моя фінансова метрика - оптимізація коефіцієнта різкості дуже поширена. Один із прикладів, що знаходиться в самому верху моєї голови ssrn.com/abrief=962461 - не розроблена точна статистична модель, але правила торгівлі, створені для (в дуже загальних рисах) максимізації прибутку та мінімізації ризику.
onlyvix.blogspot.com
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.