Про що йдеться
Тільки знання про техніку подібне до того, щоб знати тварин у зоопарку - ви можете назвати їх, описати їх властивості, можливо, ідентифікувати їх у дикій природі.
Розуміння, коли їх використовувати, формулювання, побудова, тестування та розгортання робочих математичних моделей у межах програми, уникаючи підводних каменів - це, на мій погляд, навички, які відрізняють.
Акцент повинен бути зроблений на науці , застосовуючи системний, науковий підхід до проблем бізнесу, промисловості та комерції. Але для цього потрібні навички ширші, ніж обробка даних та машинне навчання, про що переконливо стверджує Робін Блор у "A Data Science Rant" .
То що ж робити?
Області застосування : дізнайтеся про різні сфери застосування, близькі до ваших інтересів, або області роботодавця. Часто ця область є менш важливою, ніж розуміння того, як була побудована модель та як вона використовувалася для додання вартості цій області. Моделі, які є успішними в одній області, часто можуть бути пересаджені та застосовані до різних областей, які працюють аналогічно.
Змагання : спробуйте сайт змагань з виведення даних Kaggle , бажано приєднайтесь до команди інших. (Kaggle: платформа для змагань з прогнозування моделювання. Компанії, уряди та дослідники представляють набори даних та проблеми, а найкращі науковці в світі змагаються за те, щоб виробляти найкращі рішення.)
Основи : Існує чотири: (1) суцільне обґрунтування статистики, (2) досить хороші навички програмування, (3) розуміння способів структурування складних запитів даних, (4) побудова моделей даних. Якщо якісь слабкі, то це важливе місце для початку.
Кілька цитат з цього приводу:
`` Я дуже рано дізнався різницю між тим, що знати назву чогось і щось знати. Ви можете знати ім'я птаха на всіх мовах світу, але коли ви закінчите, ви нічого абсолютно нічого не будете знати про птаха ... Тож давайте подивимось на птаха і подивимось, що вона робить - ось що рахується. '' - Річард Фейнман, "Створення вченого", стор.14 в "Що тебе хвилює, що думають інші люди", 1988
Мати на увазі:
`` Поєднання навичок, необхідних для виконання цих проектів ділової науки [даних про науку], рідко проживає в одній людині. Хтось дійсно міг отримати широкі знання в потрійних областях (i) того, чим займається бізнес, (ii) як використовувати статистику та (iii) як керувати потоками даних та даних. Якщо так, то він чи вона справді може претендувати на посаду бізнес-вченого (він же «науковець даних») у певному секторі. Але такі особи майже такі ж рідкісні, як і курячі зуби '' - Робін Блор, A Science Science Rant , серпня 2013, Inside Analysis
І, нарешті:
`` Карта - не територія '' - Альфред Корзибський, 1933 р., Science & Sanity.
Більшість реальних, прикладних проблем доступні не лише з `` карти ''. Щоб робити практичні речі з математичним моделюванням, потрібно бути готовим до того, щоб розібратися з деталями, тонкощами та винятками. Ніщо не може замінити знання території з перших рук.