Великий випадок даних чи приклад використання


13

Я читав багато блогів \ статті про те, як різні галузі використовують великі аналітичні дані. Але більшість із цих статей не згадується

  1. Які своєрідні дані використовували ці компанії. Який був розмір даних
  2. Які види інструментальних технологій вони використовували для обробки даних
  3. Яка була проблема, з якою вони стикалися, і як розуміння отриманих даних допомогло їм вирішити проблему.
  4. Як вони вибрали інструмент \ технологію відповідно до своїх потреб.
  5. Який вигляд вони визначали за даними та які шаблони вони шукали за даними.

Цікаво, чи може хтось надати мені відповідь на всі ці запитання або посилання, яке хоча б відповість на деякі запитання. Я шукаю приклад реального світу.

Було б чудово, якби хтось поділився, як фінансова галузь використовує Big Data Analytic.

Відповіді:


14

Новини, як правило, використовують "Великі дані" досить невміло. Зазвичай продавці надають приклади, що стосуються конкретних товарів. Існує не багато для реалізації з відкритим кодом, але вони згадаються. Наприклад, Apache не збирається витрачати багато часу, будуючи тематичне дослідження про hadoop, але такі постачальники, як Cloudera та Hortonworks, ймовірно, будуть.

Ось приклад прикладу Cloudera у фінансовому секторі.

Цитуючи дослідження:

Один з основних світових конгломератів фінансових послуг використовує Cloudera та Datameer, щоб допомогти виявити недобросовісну торговельну діяльність. Команди в групі управління активами фірми здійснюють спеціальний аналіз щоденних даних про ціну, позицію та замовлення. Надання спеціального аналізу всіх детальних даних дозволяє групі виявити аномалії в певних класах активів та виявити підозрілу поведінку. Користувачі раніше покладалися виключно на інструменти електронних таблиць. Тепер, завдяки Datameer та Cloudera, користувачі мають потужну платформу, яка дозволяє їм швидше просіювати більше даних та запобігати потенційним втратам до їх початку.

.

Провідний роздрібний банк використовує Cloudera та Datameer для перевірки точності та якості даних, що вимагається Законом Додда-Франка та іншими правилами. Інтегруючи дані про позики та філії, а також дані щодо управління багатством, ініціатива банку щодо якості даних несе відповідальність за забезпечення точності кожного запису. Процес включає піддавання даних більш ніж 50 перевірок надійності та якості даних. Результати цих перевірок з часом відстежуються, щоб гарантувати, що допуски до корупції даних та доменів даних не змінюються негативно і що профілі ризику, які повідомляються інвесторам та регуляторним агенціям, є розсудливими та відповідають нормативним вимогам. Про результати повідомляється через інформаційну панель якості даних головного директора з питань ризику та головного фінансового директора,

Я не бачив жодних інших досліджень, пов'язаних з фінансами, у Cloudera, але не дуже важко шукав. Ви можете подивитися їхню бібліотеку тут.

Крім того, у Hortonworks є тематичне дослідження торгових стратегій, де вони побачили на 20% зменшення часу, необхідного для розробки стратегії, використовуючи K-засоби, Hadoop та R.

Кожен колір позначає групу стратегій з однаковою ймовірністю прибутку та збитку

як було вдосконалено систему торгівлі за допомогою Hadoop (Hortonworks Data Platform) та алгоритму k-означає

Вони не відповідають на всі ваші запитання. Я впевнений, що обидва ці дослідження охоплювали більшість із них. Я не бачу нічого конкретно щодо вибору інструменту. Я думаю, що представники продажів мали багато спільного з отриманням загального продукту у дверях, але самі вчені використовували інструменти, якими вони були найзручнішими. У мене немає великого розуміння цієї області у просторі даних.


1
Дякую. Це дуже корисно. Я знаю, що це місце помилок, і немає правильної відповіді. Мені дуже цікаво знати, як вибирати інструменти та технології великих даних відповідно до своїх потреб. Наразі я не відзначаю це правильною відповіддю, але, безумовно, заслуговую на багато голосів ВП. Будьте здорові :)
Brown_Dynamite

6

Фінансові послуги є великим користувачем Big Data, а також новатором. Одним із прикладів є торгівля іпотечними облігаціями. Щоб відповісти на ваші запитання:

Які своєрідні дані використовували ці компанії. Який розмір даних?

  • Довгі історії кожної іпотеки, виданої протягом останніх багатьох років, і виплати по місяцях проти них. (Мільярди рядків)
  • Довгі історії кредитних історій. (Мільярди рядків)
  • Індекси цін на дому. (Не такий великий)

Які види інструментальних технологій вони використовували для обробки даних?

Він змінюється. Деякі використовують власні рішення, побудовані на базах даних, таких як Netezza або Teradata. Інші отримують доступ до даних через системи, що надаються постачальниками даних. (Corelogic, Experian тощо). Деякі банки використовують колонкові технології баз даних, такі як KDB або 1010дані.

Яка була проблема, з якою вони стикалися, і як розуміння отриманих даних допомогло їм вирішити проблему.

Ключовим питанням є визначення того, коли іпотечні облігації (іпотечні цінні папери) передоплачуватимуть чи дефолт. Це особливо важливо для облігацій, на яких відсутні державні гарантії. Уникаючи історії платежів, кредитних файлів та розуміючи поточну вартість будинку, можна передбачити ймовірність дефолту. Додавання моделі процентної ставки та моделі передоплати також допомагає передбачити ймовірність передоплати.

Як вони вибрали інструмент \ технологію відповідно до своїх потреб.

Якщо проект керується внутрішніми ІТ, зазвичай він базується на великому постачальнику баз даних, таких як Oracle, Teradata або Netezza. Якщо його керують кванти, вони, швидше за все, перейдуть безпосередньо до постачальника даних або до сторонньої системи "Все в".

Який вигляд вони визначали за даними та які шаблони вони шукали за даними.

100,000,000beingworththatamount,oraslittleas


Чи бачили ви випадки, коли для моделювання передоплати використовуються методи машинного навчання. Тобто нейронні мережі, випадковий ліс, ГБМ?
Джош

5

У Kaggle є короткий підсумок програм:

Компанія Revolution Analytics опублікувала багато загальних практичних досліджень, таблиць даних та довідок:

Що стосується прикладних наук та інженерних наук, ви можете проконсультуватися з нутоновими кейсами:

Аналікс розповів потенційним клієнтам про програми в торгівлі:

Financial Times опублікувала збірник оповідань про бізнес - додатках великих даних:

McKinsey окреслив програми ще в 2011 році:

Інші консалтингові фірми зробили подібні звіти.

Gartner створив цикл Hype для великих даних:

введіть тут опис зображення

Не кажучи вже про тематичні дослідження та довідкові матеріали інших компаній, які хочуть просувати свою продукцію.


1

Погляньте на звіти про безкоштовні дані O'Reilly . Ви можете знайти звіти з питань банківської справи та Fintech, спорту, моди, музики, здоров'я, нафти та газу тощо.

Майте на увазі, що згаданий раніше звіт МакКінсі - це класичний звіт і обов'язково його читати.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.