Нещодавно закінчивши докторську програму зі статистики, я останні пару місяців почав шукати роботу в галузі статистики. Майже в кожній компанії, яку я вважав, була посада з посадою « Науковець даних ». Насправді, здавалося, давно минули дні побачень звань посади вченого- статистика чи статистика . Якби науковець даних дійсно замінив те, що бути статистиком, чи були титули синонімами, про які я гадав?
Ну, більша частина кваліфікації для робочих місць відчувала себе як речі, які підпадали під титул статистиків. Більшість робочих місць вимагали доктора наук зі статистики ( ), найбільш необхідне розуміння експериментального дизайну ( ), лінійної регресії та anova ( ), узагальнених лінійних моделей ( ) та інших багатоваріантних методів, таких як PCA ( ) , а також знання в статистичному обчислювальному середовищі, наприклад, R або SAS ( ). Здається, що науковець даних - це справді просто кодове ім'я статистиків.✓ ✓ ✓ ✓ ✓
Однак кожне інтерв'ю, до якого я пішов, починалося з питання: "То ви знайомі з алгоритмами машинного навчання?" Частіше за все мені доводилося намагатися відповідати на питання про великі дані, високопродуктивні обчислення та теми в нейронних мережах, CART, векторних машинах підтримки, підсиленні дерев, непідконтрольних моделях тощо. Звичайно, я переконав себе, що це все питання в серці статистики, але наприкінці кожного інтерв'ю я не міг не залишити відчуття, ніби знаю все менше і менше про те, що таке науковець.
Я статистик, але чи є я вченим? Я працюю над науковими проблемами, тому я повинен бути вченим! А також я працюю з даними, тому я повинен бути науковцем даних! І згідно з Вікіпедією, більшість науковців погодиться зі мною ( https://en.wikipedia.org/wiki/Data_science тощо)
Хоча використання терміна "наука про дані" вибухнуло у бізнес-середовищі, багато вчених та журналістів не бачать різниці між наукою про дані та статистикою.
Але якщо я збираюсь на всі ці співбесіди на посаду науковця з даних, чому я відчуваю, що вони ніколи не ставлять мені статистичних питань?
Після мого останнього інтерв'ю я хотів, щоб будь-який хороший вчений робив, і я шукав дані, щоб вирішити цю проблему (гей, зрештою, я - науковець). Однак, після багатьох незліченних пошуків Google пізніше, я опинився прямо там, де почав відчувати, ніби я знову стикаюся з визначенням того, що таке науковець. Я не знав, що таке науковець даних, оскільки його було так багато, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ), але здавалося, що всі мені кажуть, що я хочу бути одним:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- тощо .... список продовжується.
Ну і наприкінці дня, що я зрозумів, що "що таке вчений з даними", дуже важко відповісти. Чорт, два цілі місяці в Амстаті, де вони приділяли час намаганням відповісти на це питання:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Наразі я маю бути сексуальним статистиком, щоб бути вченим, але, сподіваємось, перехресне співтовариство могло б пролити трохи світла і допомогти мені зрозуміти, що означає бути вченим. Чи не всі вчені-статистики?
(Редагування / оновлення)
Я подумав, що це може пришвидшити розмову. Щойно я отримав електронний лист від Американської статистичної асоціації про роботу в компанії Microsoft, яка шукає Data Scientist. Ось посилання: Data Scientist Position . Я думаю, що це цікаво, оскільки роль позиції впливає на багато конкретних рис, про які ми говорили, але я думаю, що багато з них потребують дуже суворого досвіду в статистиці, а також суперечать багатьом відповідям, розміщеним нижче. Якщо посилання загине, ось які якості Microsoft прагне в науковці даних:
Основні вимоги та навички роботи:
Досвід ділового домену за допомогою Analytics
- Повинно мати досвід роботи у кількох відповідних сферах бізнесу щодо використання навичок критичного мислення для концептуалізації складних бізнес-проблем та їх вирішення з використанням передової аналітики у великих масштабах реальних бізнес-наборів даних
- Кандидат повинен мати можливість самостійно керувати аналітичними проектами та допомагати нашим внутрішнім клієнтам зрозуміти отримані результати та втілити їх у дію для вигоди їхнього бізнесу.
Прогностичне моделювання
- Досвід у галузях прогнозування
- Визначення бізнес-проблеми та концептуальне моделювання з клієнтом для встановлення важливих відносин та визначення сфери застосування системи
Статистика / Економетрика
- Аналітичні дані розвідувальних даних для постійних і категоричних даних
- Специфікація та оцінка рівнянь структурної моделі для поведінки підприємств та споживачів, собівартості виробництва, попиту факторів, дискретного вибору та інших технологічних взаємозв'язків за потреби
- Передові статистичні методи аналізу безперервних і категоричних даних
- Аналіз часових рядів та реалізація моделей прогнозування
- Знання та досвід роботи з кількома проблемами змінних
- Можливість оцінювати правильність моделі та проводити діагностичні тести
- Можливість інтерпретувати статистику або економічні моделі
- Знання та досвід побудови дискретних моделей подій та моделей динамічного моделювання
Управління даними
- Ознайомлення з використанням T-SQL та аналітики для трансформації даних та застосування методів дослідницького аналізу даних для дуже великих реальних наборів даних
- Увага до цілісності даних, включаючи надмірність даних, точність даних, ненормальні або крайні значення, взаємодію даних та відсутні значення.
Навики спілкування та співпраці
- Працюйте самостійно та вмійте працювати з віртуальною командою проекту, яка досліджуватиме інноваційні рішення складних бізнес-проблем
- Співпрацюйте з партнерами, застосовуйте навички критичного мислення та керуйте аналітичними проектами нескінченно
- Вищі навички спілкування, як усно, так і письмово
- Візуалізація аналітичних результатів у формі, що споживається різноманітним набором зацікавлених сторін
Програмні пакети
- Розширені статистичні / економетричні пакети програм: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Дослідження, візуалізація та управління даними: T-SQL, Excel, PowerBI та подібні інструменти
Кваліфікація:
- Потрібно мінімум 5+ років пов'язаного досвіду
- Бажана післядипломна ступінь у кількісній галузі.