Що таке вчений?


181

Нещодавно закінчивши докторську програму зі статистики, я останні пару місяців почав шукати роботу в галузі статистики. Майже в кожній компанії, яку я вважав, була посада з посадою « Науковець даних ». Насправді, здавалося, давно минули дні побачень звань посади вченого- статистика чи статистика . Якби науковець даних дійсно замінив те, що бути статистиком, чи були титули синонімами, про які я гадав?

Ну, більша частина кваліфікації для робочих місць відчувала себе як речі, які підпадали під титул статистиків. Більшість робочих місць вимагали доктора наук зі статистики ( ), найбільш необхідне розуміння експериментального дизайну ( ), лінійної регресії та anova ( ), узагальнених лінійних моделей ( ) та інших багатоваріантних методів, таких як PCA ( ) , а також знання в статистичному обчислювальному середовищі, наприклад, R або SAS ( ). Здається, що науковець даних - це справді просто кодове ім'я статистиків.

Однак кожне інтерв'ю, до якого я пішов, починалося з питання: "То ви знайомі з алгоритмами машинного навчання?" Частіше за все мені доводилося намагатися відповідати на питання про великі дані, високопродуктивні обчислення та теми в нейронних мережах, CART, векторних машинах підтримки, підсиленні дерев, непідконтрольних моделях тощо. Звичайно, я переконав себе, що це все питання в серці статистики, але наприкінці кожного інтерв'ю я не міг не залишити відчуття, ніби знаю все менше і менше про те, що таке науковець.

Я статистик, але чи є я вченим? Я працюю над науковими проблемами, тому я повинен бути вченим! А також я працюю з даними, тому я повинен бути науковцем даних! І згідно з Вікіпедією, більшість науковців погодиться зі мною ( https://en.wikipedia.org/wiki/Data_science тощо)

Хоча використання терміна "наука про дані" вибухнуло у бізнес-середовищі, багато вчених та журналістів не бачать різниці між наукою про дані та статистикою.

Але якщо я збираюсь на всі ці співбесіди на посаду науковця з даних, чому я відчуваю, що вони ніколи не ставлять мені статистичних питань?

Після мого останнього інтерв'ю я хотів, щоб будь-який хороший вчений робив, і я шукав дані, щоб вирішити цю проблему (гей, зрештою, я - науковець). Однак, після багатьох незліченних пошуків Google пізніше, я опинився прямо там, де почав відчувати, ніби я знову стикаюся з визначенням того, що таке науковець. Я не знав, що таке науковець даних, оскільки його було так багато, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ), але здавалося, що всі мені кажуть, що я хочу бути одним:

Ну і наприкінці дня, що я зрозумів, що "що таке вчений з даними", дуже важко відповісти. Чорт, два цілі місяці в Амстаті, де вони приділяли час намаганням відповісти на це питання:

Наразі я маю бути сексуальним статистиком, щоб бути вченим, але, сподіваємось, перехресне співтовариство могло б пролити трохи світла і допомогти мені зрозуміти, що означає бути вченим. Чи не всі вчені-статистики?


(Редагування / оновлення)

Я подумав, що це може пришвидшити розмову. Щойно я отримав електронний лист від Американської статистичної асоціації про роботу в компанії Microsoft, яка шукає Data Scientist. Ось посилання: Data Scientist Position . Я думаю, що це цікаво, оскільки роль позиції впливає на багато конкретних рис, про які ми говорили, але я думаю, що багато з них потребують дуже суворого досвіду в статистиці, а також суперечать багатьом відповідям, розміщеним нижче. Якщо посилання загине, ось які якості Microsoft прагне в науковці даних:

Основні вимоги та навички роботи:

Досвід ділового домену за допомогою Analytics

  • Повинно мати досвід роботи у кількох відповідних сферах бізнесу щодо використання навичок критичного мислення для концептуалізації складних бізнес-проблем та їх вирішення з використанням передової аналітики у великих масштабах реальних бізнес-наборів даних
  • Кандидат повинен мати можливість самостійно керувати аналітичними проектами та допомагати нашим внутрішнім клієнтам зрозуміти отримані результати та втілити їх у дію для вигоди їхнього бізнесу.

Прогностичне моделювання

  • Досвід у галузях прогнозування
  • Визначення бізнес-проблеми та концептуальне моделювання з клієнтом для встановлення важливих відносин та визначення сфери застосування системи

Статистика / Економетрика

  • Аналітичні дані розвідувальних даних для постійних і категоричних даних
  • Специфікація та оцінка рівнянь структурної моделі для поведінки підприємств та споживачів, собівартості виробництва, попиту факторів, дискретного вибору та інших технологічних взаємозв'язків за потреби
  • Передові статистичні методи аналізу безперервних і категоричних даних
  • Аналіз часових рядів та реалізація моделей прогнозування
  • Знання та досвід роботи з кількома проблемами змінних
  • Можливість оцінювати правильність моделі та проводити діагностичні тести
  • Можливість інтерпретувати статистику або економічні моделі
  • Знання та досвід побудови дискретних моделей подій та моделей динамічного моделювання

Управління даними

  • Ознайомлення з використанням T-SQL та аналітики для трансформації даних та застосування методів дослідницького аналізу даних для дуже великих реальних наборів даних
  • Увага до цілісності даних, включаючи надмірність даних, точність даних, ненормальні або крайні значення, взаємодію даних та відсутні значення.

Навики спілкування та співпраці

  • Працюйте самостійно та вмійте працювати з віртуальною командою проекту, яка досліджуватиме інноваційні рішення складних бізнес-проблем
  • Співпрацюйте з партнерами, застосовуйте навички критичного мислення та керуйте аналітичними проектами нескінченно
  • Вищі навички спілкування, як усно, так і письмово
  • Візуалізація аналітичних результатів у формі, що споживається різноманітним набором зацікавлених сторін

Програмні пакети

  • Розширені статистичні / економетричні пакети програм: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
  • Дослідження, візуалізація та управління даними: T-SQL, Excel, PowerBI та подібні інструменти

Кваліфікація:

  • Потрібно мінімум 5+ років пов'язаного досвіду
  • Бажана післядипломна ступінь у кількісній галузі.

6
Приємне запитання! Мене останнім часом досить багато цікавить. На моїх очах здається, що робота, яка включає в себе опис даних, шукає людей, які можуть застосовувати статистичні методи / методи ML, які добре масштабують, не обов'язково людей, які можуть займатися теорією. Я все ще думаю, що в цих посадових інструкціях є певна надмірність. Вимагати доктора наук, ймовірно, часто є надкваліфікацією, і люди з персоналу, які складають ці посадові інструкції, сильно впливають на шум навколо великих даних. Чи є вчений-статистик статистиком чи навпаки - це головне питання, на яке я хочу бачити відповідь.
Гумео

4
Я вважаю, що це відмінна праця, яка стосується цього зрушення в культурі статистики порівняно з науковцем даних: projecteuclid.org/download/pdf_1/euclid.ss/1009213726
RustyStatistician

6
"Але якщо я збираюсь на всі ці співбесіди на посаду вченого з даних, чому я відчуваю, що вони ніколи не задають мені статистичних питань" ... історія мого життя ... буквально ЛОЛ !!! Я думаю, що наукові дані, статистика, економетрика, біостат ... тощо. мають значне перекриття, але всі вони використовують різний жаргон, що ускладнює спілкування (особливо, коли вас проводять співбесіду з персоналом, який не обізнаний і фокусується на ключових словах). Сподіваємось, посилення міждисциплінарних зусиль та деяка необхідна відкритість змінить це в майбутньому.
Захарій Блуменфельд

9
Я стежив за «підйомом науковця даних» з тих пір, як він став мейнстрімом приблизно в 2008 році. Для мене це був і, в основному, маркетинговий термін, який підживлює ажіотаж - статистика дисциплін, машинне навчання, інженерія даних, аналіз даних - все це те саме з різним наголосом. Перефразовуючи Г. Бокс: Якщо вам задаються питання, такі як: "Ви баєц, частофіліст, аналітик даних, дизайнер експериментів, науковець даних?" Скажи так".
Момо

10
@Momo: Тим не менш, якщо ви відкриєте один із підручників на 600+ сторінок під назвою "Машинне навчання" (або подібний) і один з підручників під назвою "Статистика" (або подібні), перекриття буде дуже мало. Мій Єпископа Pattern Recognition і машинне навчання або Мерфі машинного навчання мають майже нульове перетин з Леман і Casella теорією точкового оцінювання , Казелли & Berger статистичних висновками , або Максвелл і роблення Проектування експериментами і аналізом даними . Вони настільки різні, що я думаю, що люди, знайомі з одним набором книг, можуть мати проблеми з читанням іншої.
амеба

Відповіді:


52

Є кілька гумористичних визначень, які ще не були дані:

Data Scientist: Хтось, хто робить статистику на Mac.

Мені подобається цей, оскільки він чудово грає під кутом більш розкрученого, ніж субстанційного.

Вчений з даних: статистик, який живе в Сан-Франциско.

Точно так само це і смак усього цього.

Особисто я вважаю дискусію (загалом і тут) дещо нудною та повторюваною. Коли я думав про те, що я хотів --- можливо, чверть століття чи довше ---, я націлився на кількісну аналітику. Це все ще я роблю (і люблю!), І це здебільшого перекриває та висвітлює те, що було дано тут у різних відповідях.

(Примітка. Існує старе джерело для другої цитати, але я зараз не можу його знайти.)


27
+1. I find the discussion (in general, and here) somewhat boring and repetitiveі доречно говорити про дрібниці чи нові химерні слова, додав би я. Я до сих пір не можу розмежовувати дані між вченими-даними, християнськими вченими та вченими-даними.
ttnphns

1
LOL @ data scientologists.
dsaxton

4
І я накидаю капелюх на (звичайно, анонімну) Дуже серйозну людину, яка щойно проходила мимо, схилялась і не залишала причин. Підказка: Це не те, як дискусія покращується.
Дірк Еддельбуеттель

1
Будучи статистиком в Південному Сан-Франциско, який дуже активно бореться з титулом Data Scientist, друге визначення потрапляє занадто близько до дому (але я не був прихильником).
Кліф АВ

1
(+1) @CliffAB Я також фактично статистик у Південному Сан-Франциско.
RustyStatistician

87

Люди визначають дані про науку по-різному, але я думаю, що спільною частиною є:

  • практичні знання, як поводитися з даними,
  • практичні навички програмування.

Всупереч своїй назві, це рідко "наука". Тобто в науці даних акцент робиться на практичних результатах (наприклад, в техніці), а не на доказуванні, математичній чистоті чи строгості, характерних для академічної науки. Речі повинні працювати, і різниці є мало, якщо вона базується на науковому документі, використанні наявної бібліотеки, власному коді або імпровізованому злому.

Статистику не потрібно програміст (він може використовувати ручку та папір та спеціальне програмне забезпечення). Також деякі виклики на роботу в науці даних не мають нічого спільного зі статистикою. Наприклад, це інженерія даних, як обробка великих даних, навіть якщо найсучасніша математика там може бути середньою, але я особисто не називав би цю діяльність "наукою про дані". Більше того, "наука даних" є розкрученою, тому дотично пов'язані робочі місця використовують цю назву - щоб заманити заявників або підняти его у нинішніх працівників.

Мені подобається таксономія з відповіді Майкла Хохстера на Quora :

Вчений з даних типу: A призначений для аналізу. Цей тип насамперед стосується осмислення даних або роботи з ними досить статичним чином. Вчений даних типу A дуже схожий на статистику (і може бути одним), але знає всі практичні деталі роботи з даними, які не викладаються в навчальній програмі статистики: очищення даних, методи роботи з дуже великими наборами даних, візуалізація , глибокі знання певного домену, добре письмово про дані тощо.

Вчений з даних типу B: B призначений для побудови. Дані типу B Вчені поділяють деякий статистичний досвід із типом A, але вони також є дуже сильними кодерами і можуть бути підготовлені інженерами програмного забезпечення. Вченого типу B в основному цікавить використання даних "у виробництві". Вони створюють моделі, які взаємодіють з користувачами, часто обслуговуючи рекомендації (продукти, люди, яких ви можете знати, оголошення, фільми, результати пошуку).

У цьому сенсі вчений типу даних - це статистик, який може програмувати. Але навіть в кількісному відношенні можуть бути люди, які мають більше інформації в галузі інформатики (наприклад, машинне навчання), ніж звичайна статистика, або ті, хто зосереджується, наприклад, на візуалізації даних.

І Діаграма Венна Science Science (тут: злом ~ програмування):

Діаграма Венна Наука даних

див. також альтернативні діаграми Венна ( це і те ). Або навіть твіт , в той час як жартівливий, показує збалансований перелік типових навичок та діяльності вченого:

науковець даних повинен вміти

Дивіться також цей пост: Вчений даних - статистик, програміст, консультант та візуалізатор? .


14
Мені подобається твіт. Додам, що він також повинен вміти пекти піцу, вирощувати власні екологічні овочі, писати вірші та танцювати сальсу :)
Тім

3
Незначна приказка: не всі "науки" роблять акцент на "докази чи математичну чистоту". Подумайте, наприклад, біологія.
амеба

2
Що означає зламати p-значення? Мені здається, що хтось (він же клієнт) має вказану ціль p-значення, і вчений повинен вирізати та порізати дані, щоб досягти цілі p-значення. Або це має означати щось інше?
emory

2
@amory Цей твіт є гумористичним (це зміна абзацу з en.wikiquote.org/wiki/Time_Enough_for_Love , "Людина повинна вміти [список]. Спеціалізація - для комах."). "Зламати значення p", безумовно, є темною практикою (на жаль, поширеною в деяких академічних дисциплінах), і (сподіваюся), це як жарт.
Пьотр Мігдал

4
+1 за зауваження про те, щоб не називати когось науковцем даних, який обчислює спрощену "статистику" на величезних наборах даних. Я думаю, ми переходимо до фази наукових даних, де комп'ютерні вчені, які спеціалізувались на кластерних обчисленнях (Hadoop тощо), отримали позначку "вчені даних". Я не дивлюся на ці навички, але вони не є настільки важливими, як статистичні / міркувальні / дослідницькі навички, і технологія виходить за рамки зменшення карти.
Вейн

42

Існує ряд опитувань галузі науки. Мені це подобається , тому що він намагається проаналізувати профілі людей, які насправді займаються науковими роботами. Замість того, щоб використовувати анекдотичні докази чи авторські упередження, вони використовують методи наукових даних для аналізу ДНК даних вченого.

Досить показово подивитися на навички, перелічені науковцями даних. Зауважте, що 20 найкращих навичок містять багато ІТ-навичок.

У сучасному світі, як очікується, вчений із даних може стати джеком усіх торгів; самоучок, який має міцну кількісну основу, здатність до програмування, нескінченну інтелектуальну цікавість та чудові комунікативні навички.

введіть тут опис зображення

ОНОВЛЕННЯ:

Я статистик, але чи є я вченим? Я працюю над науковими проблемами, тому я повинен бути вченим!

Якщо ви здобули науковий ступінь доктора наук, ви, швидше за все, вже вчений, особливо, якщо ви опублікували документи та активні дослідження. Не потрібно бути вченим, щоб бути науковцем даних. У деяких фірмах є такі ролі, як Walmart (див. Нижче), де необхідний доктор філософії, але зазвичай вчені мають ступінь бакалавра та MS, як ви бачите з прикладів нижче.

Як ви можете зрозуміти з наведеної вище діаграми, швидше за все, вам потрібно буде мати хороші навички програмування та обробки даних. Також нерідко наука даних пов'язана з певним рівнем, часто "глибоким", досвідом машинного навчання. Ви, звичайно, можете назвати себе науковцем даних, якщо маєте докторську ступінь у статистиці. Однак доктор технічних наук з вищих шкіл може бути більш конкурентоспроможним, ніж випускники статистики, оскільки вони можуть мати досить сильні знання з прикладної статистики, які доповнюються сильними навичками програмування - затребуваною комбінацією роботодавців. Щоб протистояти їм, ви повинні придбати сильні навички програмування, тому в балансі ви будете дуже конкурентоспроможними. Цікавим є те, що зазвичай всі докторантські науки матимуть певного досвіду програмування, але в науці даних часто ця вимога набагато вища за це,

Для мене перевага мати доктор наук у статистиці полягає в проблемі, яка міститься в решті фрази "джек всіх торгів", яка зазвичай випадає: "майстер нікому". Добре мати людей, які трохи все знають, але я завжди шукаю людей, які теж щось глибоко знають, будь то статистика чи інформатика - це не так важливо. Важливо те, що хлопець здатний дістатися до дна, це зручна якість, коли це потрібно.

Опитування також перераховує топ-роботодавців науковців даних. Microsoft, мабуть, на вершині, що мене здивувало. Якщо ви хочете краще зрозуміти, що вони шукають, корисним буде пошук LinkeIn за допомогою «науки про дані» у розділі Джобс. Нижче наведено два уривки з робіт MS та Walmart в LinkedIn, щоб зробити висновок.

  • Microsoft Data Scientist

    • 5+ років досвіду розробки програмного забезпечення в побудові систем / служб обробки даних
    • Бакалавр або вища кваліфікація з інформатики, EE або математики зі спеціалізацією в галузі статистики, видобутку даних або машинного навчання.
    • Відмінні навички програмування (C #, Java, Python тощо) для маніпулювання великомасштабними даними
    • Знання Hadoop або іншої технології обробки великих даних
    • Знання продуктів аналітики (наприклад, R, SQL AS, SAS, Mahout тощо) - плюс.

Зауважте, те, як знання стат-пакетів є лише плюсом, але відмінні навички програмування на Java - обов'язкова умова.

  • Уолмарт, науковець

    • Доктор наук з інформатики або подібної галузі або МС, що має принаймні 2-5 років досвіду роботи
    • Хороші функціональні навички кодування в C ++ або Java (Java вкрай бажана)
    • повинні бути здатні витрачати до 10% щоденного робочого дня на написання виробничого коду або на C ++ / Java / Hadoop / Hive
    • Знання на рівні експертів однієї з мов сценаріїв, таких як Python або Perl.
    • Досвід роботи з великими наборами даних та розподіленими обчислювальними інструментами плюс (Map / Reduce, Hadoop, Hive, Spark тощо)

Тут кращий доктор наук, але названо лише спеціальність інформатики. Розподілене обчислення за допомогою Hadoop або Spark - це, мабуть, незвична статистика для статистиків, але деякі фізики-теоретики та прикладні математики використовують подібні інструменти.

ОНОВЛЕННЯ 2:

"Вже пора вбити назву" вченого даних ", - каже Томас Давенпорт, який написав статтю в Harvard Business Review в 2012 році під назвою " Вчений з даними: Найсексуальніша робота 21 століття ", яка почала захоплення науковців даними:

Що означає сьогодні сказати, що ви - або хочете бути, або хочете найняти - "науковця?" Не дуже, на жаль.


3
+1 за використання даних та посилання на хороший звіт, керований даними. Але чи потрібен знімок екрана для веб-переглядача?
Пьотр Мігдал

@PiotrMigdal, я повинен навчитися обрізати або перестати лінуватися
Aksakal

4
Я обрізав це для вас.
амеба

1
Мені спокуса подати заяву після сьогоднішнього оновлення: ця тема вже дуже зайнята, і гігантська стінка цитат, щоб прокрутити вниз, не дуже корисна на мою думку ... Можливо, посилань + короткого резюме може бути достатньо?
амеба

1
@amoeba, я зняв список. Це чесний коментар
Аксакал

39

Десь я це прочитав (EDIT: Джош Вілл пояснює свій твіт ):

Даний науковець - це людина, яка краща за статистикою, ніж будь-який програміст і краща в програмуванні, ніж будь-який статистик.

Цю цитату можна коротко пояснити цим процесом вивчення даних . Перший погляд на цю схему виглядає як "добре, де частина програмування?", Але якщо у вас є тонна даних, ви повинні мати можливість їх обробляти.


11
Тож, напевно, кожен співробітник R, який є статистиком, є вченим? ;)
Тім

15
Нічого собі, я просто прогулювався по сайту, цікавившись цим питанням (враховуючи, що є наука ), а потім попутно дізнаюся, що у мене є сторінка Вікіпедії ? Це було для мене новиною ... І для того, що варто, я навчався в економетрії, а не в статистиці, але працював як "квант" протягом 20+ років. Це фактично те саме, що і наука про дані ...
Дірк Еддельбуеттель,

3
-1. Я заявляю не тому, що цитата мені не подобається (це, швидше за все, язик у щоках), а тому, що відповідь занадто коротка і несуттєва, зокрема порівняно з багатьма іншими відповідями тут. Я б запропонував перетворити його на коментар, якщо, можливо, ви його якось не розширите.
амеба

3
Ось пояснення цієї цитати її автора Джоша Віллса . Перші три абзаци після цитати є цілком доречними для цього обговорення.
амеба

3
@amoeba: До цього моменту мені сподобалася стаття Джоша Уілла: "Я підозрюю, що ми навчаємо людей просунутій статистиці таким чином, що, як правило, відлякують комп'ютерних фахівців, орієнтуючись на параметричні моделі, які вимагають багато обчислення замість непараметричних моделей. які в першу чергу є обчислювальними ". Крім того, я не згоден з ним, що простіше навчати передовій статистиці людям CS, ніж як добре програмувати статистиків (хоча я, безумовно, згоден, що більшість статистиків страшні програмісти).
Кліф АВ

15

Я написав кілька відповідей, і кожен раз, коли вони довгі, і я врешті вирішив, що встаю на мильницю. Але я думаю, що ця розмова не повністю вивчила два важливі фактори:

  1. Наука в науці даних. Науковий підхід - це той, в якому ви намагаєтеся знищити власні моделі, теорії, функції, вибір техніки тощо, і лише тоді, коли цього не можете зробити, ви приймаєте, що ваші результати можуть бути корисними. Це умонастрій, і багато хто з найкращих науковців даних, яких я зустрічав, мають важкий науковий досвід (хімія, біологія, інженерія).

  2. Наука даних - це широке поле. Хороший результат у галузі наукових даних зазвичай передбачає невелику команду науковців з даних, кожен з яких має свою спеціальність. Наприклад, один член команди є більш суворим і статистичним, інший - кращим програмістом з інженерним досвідом, а інший - сильним консультантом, який має розумну діяльність. Усі троє швидко вивчають тему, і всі троє цікаві та хочуть знайти правду - як би болісно - і робити те, що найбільше цікавить (внутрішнього чи зовнішнього) замовника, навіть якщо клієнт цього не робить ' не розумію.

Захоплення протягом останніх кількох років - тепер я згасаю, я думаю, - це набрати вчених-комп'ютерів, які освоїли кластерні технології (екосистема Hadoop тощо) і сказали, що це ідеальний дослідник даних. Я думаю, що з цим зіткнулася ОП, і я б радив ОП вкласти свої сильні сили в суворості, коректності та науковому мисленні.


@RustyStatistician: Вітаємо вас. Я додам, що консультація, в якій я працюю, має кандидатів наук (інженерія, біологія, астрономія, інформатика), але в цілому погляди на ступінь MS - часто це люди з досвідом роботи, які повертаються на ступінь MS в Analytics - як найкраще місце . Це означає, що я щодня вдячний моєму доктору біологічних наук, який зараз працює над проектом, де я є керівником технологій. Поряд із керівником проекту, який має досвід економіки (та магістра в галузі Analytics), ми чудова команда! (Мій MS знаходиться у Штучному інтелекті.)
Уейн

+1, але мені цікаво, що у вашій першій точці відзнаки сказано, що [хороша] наука про дані - це наука. Якщо так, це цікавий і, можливо, оманливий (?) Термін, оскільки "наука про дані" сама по собі не вивчає "дані"; це використання даних для вивчення чогось іншого, що б не цікавило певну програму. Навпаки, наприклад, "політологія" повинна вивчати політику, а "нейронаука" вивчає нейрони, як підказують назви.
амеба

1
@amoeba: Власне, я мав на увазі, що науковець повинен використовувати науковий метод ала Річарда Фейнмана як частину того, як вони розуміють і використовують дані. (Як ви кажете, в пошуках певної програми.) Це частина статистичної роботи: "Ця змінна видається дуже важливою - чи є витік з майбутнього?" Або "Ця модель здається розумною, але давайте запустимо резюме на весь процес виготовлення моделі, а потім давайте зробимо ще щось перекомпонування над цим". Це дуже намагається спростувати вашу модель / теорію та залучати до цього інших. Не приймаючи "Зелений М & Мс спричиняє рак".
Уейн

@Wayne є єдиним, хто поки що згадує про "науковий метод". Це так сумно.
jgomo3

Розуміння фізики, особливо одиниць, необхідне для кожного, хто намагається щось зрозуміти. Однак у цьому нашому відважному новому світі часто достатньо зробити евристичні спостереження, які мають неоптимальне прогностичне значення як "пробки", але не є реальними рішеннями.
Карл

14

Я думаю, що Bitwise охоплює більшу частину моєї відповіді, але я хочу додати 2c.

Ні, мені шкода, але статистик не є науковцем, хоча б виходячи з того, як більшість компаній визначають роль сьогодні. Зауважте, що визначення з часом змінювалося, і одним із завдань практикуючих є переконання, що вони залишаються актуальними.

Я поділюсь деякими загальними причинами того, чому ми відхиляємо кандидатів на ролі "Data Scientist":

  • Очікування щодо обсягу роботи. Зазвичай DS повинен мати можливість самостійно працювати. Це означає, що більше ніхто не може створити для нього набір даних, щоб вирішити проблему, яку йому було призначено. Отже, йому потрібно вміти знаходити джерела даних, запитувати їх, моделювати рішення, а потім, часто, також створювати прототип, який вирішує проблему. Багато разів це просто створення приладової панелі, сигналізації або звіту в реальному часі, який постійно оновлюється.
  • Зв'язок . Здається, багатьом статистикам важко "спростити" та "продати" свої ідеї діловим людям. Чи можете ви показати лише один графік і розповісти історію з даних таким чином, щоб усі в кімнаті могли це отримати? Зауважте, що це після того, як ви переконаєтесь, що ви можете захищати кожен біт аналізу, якщо буде виклик.
  • Навички кодування . Нам не потрібні навички кодування на виробничому рівні, оскільки для цього у нас є розробники, однак нам потрібна вона, щоб мати можливість скласти прототип і розгорнути його як веб-сервіс в екземплярі AWS EC2. Отже, навички кодування не означають вміння писати R-сценарії. Можливо, я можу десь тут додати вільне володіння Linux. Отже, планка просто вище, ніж схильна більшість статистиків.
  • SQL та бази даних . Ні, він не може взяти це за роботу, оскільки нам насправді потрібен він, щоб він адаптував базовий SQL, який він уже знає, і навчився запитувати декілька різних систем БД, які ми використовуємо через org, включаючи Redshift, HIVE та Presto - кожен з який використовує власний аромат SQL. Крім того, вивчення SQL на роботі означає, що кандидат буде створювати проблеми у кожного іншого аналітика, поки він не навчиться писати ефективні запити.
  • Машинне навчання . Зазвичай вони використовували логістичну регресію або кілька інших методик для вирішення проблеми на основі заданого набору даних (стиль Kaggle). Однак, навіть якщо інтерв'ю починається з алгоритмів та методів, воно скоро зосереджується на таких темах, як генерація функцій (пам’ятайте, що вам потрібно створити набір даних, більше ніхто не може створити його для вас), ремонтопридатність, масштабованість та ефективність, а також пов'язані з цим компроміси. Для певного контексту ви можете ознайомитись із відповідним документом від Google, опублікованим у NIPS 2015.
  • Аналіз тексту . Це не обов'язково, але певний досвід з обробки природних мов добре мати. Зрештою, значна частина даних знаходиться в текстовому форматі. Як обговорювалося, більше ніхто не може переробити та очистити текст для того, щоб зробити його споживчим за допомогою ML або іншого статистичного підходу. Також зауважте, що сьогодні навіть CS-програми вже зробили якийсь проект, який позначає цю скриньку.

Звичайно, для молодшої ролі у вас не може бути всього вищезазначеного. Але, скільки з цих навичок ви можете собі дозволити зниклих і взяти на роботу?

Нарешті, для уточнення, найпоширенішою причиною відхилення нестатистів є саме відсутність навіть базових знань статистики. І десь є різниця між інженером даних та науковцем даних. Тим не менш, інженери даних, як правило, застосовують до цих ролей, оскільки багато разів вони вважають, що "статистика" - це лише середнє значення, дисперсія і нормальний розподіл. Отже, ми можемо додати декілька релевантних, але страшних статистичних мовних слів в посадових інструкціях, щоб уточнити, що ми маємо на увазі під «статистикою» та запобігти плутанині.


4
З 2006 року я викладаю курси прикладної статистики та аналізу даних у програмах, що називаються «бізнес-інформатика» у двох університетах, і це стосується 100% того, що навчаються мої студенти. 1. Їм потрібно збирати реальні, можливо, безладні дані свого бізнесу, Інтернету, опитування тощо. 2. Очистіть, підготуйте та зберігайте їх у базі даних SQL для курсу. 3. Зробіть різні статистичні аналізи на даних. 4. Підготуйте 1-2 сторінки коротких керівних записів і напишіть поглиблений звіт з буквальним програмуванням (проводник тощо). Звідси наука даних - це бізнес-інформатика з додатковою статистикою / курсом ML, ні?
Момо

4
Звичайно, ваш курс охоплює багато необхідних навичок. Я припускаю, що ми можемо знайти багато комбінацій, наприклад, ступінь з інформатики з деякими курсами статистики та дисертацією / стажуванням з бізнес-проблеми, заснованої на ML. Зрештою, важливим є глибина та широта відповідних навичок, які кандидат приносить на стіл.
iliasfl

11

Дозвольте мені ігнорувати ажіотаж та голосні слова. Я думаю, що "Data Scientist" (або як би ви цього не хотіли назвати) - це реальна річ, і це відрізняється від статистики. Існує багато типів посад, які фактично є науковцями даних, але не дають такої назви - один із прикладів - люди, які працюють в геноміці.

Як я це бачу, науковець даних - це той, хто має навички та досвід для розробки та проведення досліджень великих обсягів складних даних (наприклад, високомірних, у яких основні механізми є невідомими та складними).

Це означає:

  • Програмування: вміння реалізовувати аналіз та конвеєри, часто вимагаючи певного рівня паралелізації та взаємодії з базами даних та високопродуктивними обчислювальними ресурсами.
  • Інформатика (алгоритми): Проектування / вибір ефективних алгоритмів таким чином, щоб обраний аналіз був здійсненним і швидкість помилок контролювалася. Іноді для цього можуть знадобитися знання чисельного аналізу, оптимізації тощо.
  • Інформатика / статистика (як правило, акцент на машинному навчанні): Розробка та реалізація рамки для того, щоб ставити запитання щодо даних або знаходити в них «патерни». Це включає не тільки знання різних тестів / інструментів / алгоритмів, але й те, як розробити належне проведення, перехресну перевірку тощо.
  • Моделювання: Часто ми хотіли б створити модель, яка дає простіше представлення даних, щоб ми могли зробити корисні прогнози та зрозуміти механізми, що лежать в основі цих даних. Для цього дуже популярні ймовірнісні моделі.
  • Доменний досвід: Одним з ключових аспектів успішної роботи зі складними даними є використання розуміння домену. Тож я б сказав, що критично важливим є те, що вчений, що володіє даними, або має досвід у галузі, може швидко вивчати нові галузі, або повинен вміти добре взаємодіяти з фахівцями в цій галузі, що може дати корисну інформацію про те, як наблизитись до даних. .

6
А хто, на вашу думку, статистик? Чим цей перелік навичок відрізняється від навичок, які повинен мати «статистик»?
амеба

4
@amoeba Я можу помилятися, але багато статистиків не володіють деякими з цих навичок (наприклад, широке програмування з масовими наборами даних, підготовка випускників рівня інформатики). Крім того, деякі статистичні навички не мають значення для часто даних-науковців (деякі з теорії, деякі підполі).
Побіт

4
@rocinante: Я сильно НЕ згоден , що «програмування" масивних наборів даних "насправді не перешкода». Я не думаю, що я знаю когось із назвою "статистик", який міг би реалізувати програмне забезпечення, яке приймає рішення в режимі реального часу на основі вхідних пакетів на сервері. Звичайно, не всі вчені також могли, але частка є значно вищою.
Кліф АВ

3
@rocinante необхідно добре розуміти статистику, але, на мій погляд, недостатньо. Щодо глибинності / складності статистики порівняно з іншими навичками, я можу стверджувати, що добре розуміння сторони інформатики є настільки ж глибоким / важким, якщо не більше. Крім того, що стосується питань, що стосуються цієї SE, ви знайдете такі запитання на будь-якій SE (включаючи цю) - це не означає нічого, крім того, що деякі люди хочуть легких рішень без розуміння.
Побіт

6
Єдине, що стає втомлюючим у цих дискусіях про "науку про дані та статистику", - це тонкі наслідки того, що вчені з даних схожі на вищу породу статистиків. Справа в тому, що по мірі збільшення глибини ваших знань глибина зменшується, а людей, які краще, ніж незрозумілих, у всіх завданнях, необхідних бути "науковцем даних", я вважаю, що їх знання більшості цих речей є досить поверхневий. Загалом, надзвичайно важко навіть наблизитись до того, щоб бути експертом у будь-якій галузі, яку люди очікують, що ці міфічні дані засвоїли.
dsaxton

7

Усі чудові відповіді, проте в моєму досвіді роботи по охороні праці я зазначив, що термін «науковець даних» змішується з «молодшим аналітиком даних» у свідомості рекрутерів, з якими я контактував. Таким чином, багато приємних людей, які не мають досвіду статистики, окрім вступного одноденного курсу, який вони робили пару років тому, тепер називають себе науковцями даних. Як людина, яка має досвід інформатики та багаторічний досвід роботи в якості аналітика даних, пізніше в кар’єрі я зробила доктор статистичних наук, думаючи, що це допоможе мені виділитися з натовпу, я опинився в несподівано великій натовпі "науковців даних ". Я думаю, що я можу повернутися до "статистики"!


5
Я в основному бачу те саме. Будь-яка робота, яка вимагає певної роботи з даними або якийсь аналіз, називається "Science Science". Думаю, дуже схожа річ трапилася з "Quant" у фінансах, де кожен, хто робив якусь роботу з даними, називав себе "Quant".
Акавал

6

Я молодший працівник, але моя посада - «науковець». Я думаю, що відповідь Бітліса - це влучний опис того, що мене прийняли на роботу, але я хотів би додати ще один момент, виходячи із свого щоденного досвіду на роботі:

Дані наукиСтатистика,
СтатистикаДані науки.

Наука - це процес дізнання. Коли дані - це засіб, за допомогою якого здійснюється цей запит, відбувається наукова діяльність. Це не означає, що кожен, хто експериментує або проводить дослідження з даними, обов'язково є вченим, так само, як не кожен, хто експериментує або проводить дослідження за допомогою електропроводки, обов'язково є інженером-електриком. Але це означає, що можна отримати достатню підготовку, щоб стати професійним "запитувачем даних" так само, як можна отримати достатню підготовку, щоб стати професійним електриком. Ця підготовка більш-менш складається з пунктів у відповіді Бітслоу, статистичні дані яких є складовою, але не повною мірою.

Відповідь Пьотра - це також приємний підсумок всіх речей, які мені потрібно зробити, хотілося б, щоб я знав, як це зробити за даний тиждень. Дотепер моя робота допомагала скасувати шкоду, заподіяну колишніми працівниками, які входили до складу "зони небезпеки" діаграми Венна.


2
+1. Я думаю, що в цій нитці дуже цінно почути від людей, які насправді працюють як "науковці даних".
амеба

(+1) @amoeba Я згоден на 100% з вашими настроями.
RustyStatistician

8
Дані наукиСтатистикаСтатистикаДані наукиСтатистикаДані науки

@caveman Я однозначно згоден.
RustyStatistician

1
СтатистикаДані наукиСтатистикаДані наукиДані науки

3

Нещодавно я також зацікавився наукою даних як кар'єра, і коли я думаю про те, що я дізнався про роботу в галузі даних, порівняно з численними курсами статистики, які я брав (і отримував задоволення!), Я почав думати про науковців як інформатики, які звернули свою увагу на дані. Зокрема, я зазначив наступні основні відмінності. Зауважте, що різниці виявляються настрій. Далі просто відображає мої суб'єктивні враження, і я не претендую на загальність. Просто мої враження!

  1. У статистиці ти дуже дбаєш про розподіли, ймовірності та інфекційні процедури (як робити тести гіпотез, які є основними розподілами тощо). Як я розумію, наука даних частіше за все не стосується прогнозування, а турботи щодо інфекційних тверджень певною мірою поглинаються процедурами з інформатики, такими як перехресне підтвердження.

  2. У статистичних курсах я часто просто створював власні дані або використовував якісь готові дані, які доступні у досить чистому форматі. Це означає, що він у приємному прямокутному форматі, якійсь таблиці Excel або щось подібне, що добре вписується в ОЗУ. Очищення даних, безумовно, пов'язане, але мені ніколи не доводилося мати справу з "вилученням" даних з Інтернету, не кажучи вже з баз даних, які потрібно було створити для того, щоб зберігати кількість даних, яка більше не вкладається в оперативну пам'ять. Моє враження, що цей обчислювальний аспект є набагато більш домінуючим у науці даних.

  3. Можливо, це відображає моє незнання щодо того, що статистики роблять на типових статистичних роботах, але перед наукою про дані я ніколи не замислювався над тим, щоб перетворити моделі на більший продукт. Потрібно було провести аналіз, вирішити статистичну проблему, якийсь параметр слід оцінити, і це все. У науці даних здається, що часто (хоча і не завжди) прогностичні моделі вбудовуються у щось більше. Наприклад, ви десь натискаєте, і протягом мілісекунд алгоритм прогнозування вирішить, що буде показано в результаті. Отже, перебуваючи у статистиці, я завжди замислювався над тим, "який параметр ми можемо оцінити, і як це ми можемо зробити елегантно", здається, що в науці даних акцент робиться більше на "тому, що ми можемо передбачити, що може бути корисним у продукті даних" .

Знову ж таки, вищесказане не намагається дати загального визначення. Я просто вказую на основні відмінності, які я сприйняв сам. Я ще не в науці про дані, але сподіваюся на перехід у наступному році. У цьому сенсі візьміть мої два центи тут із зерном солі.


2

Я кажу, що Data Scientist - це роль, коли можна створювати результати, зрозумілі для людини для бізнесу, використовуючи методи, щоб зробити результат статистично надійним (значущим).

Якщо будь-яка частина цього визначення не дотримується, ми говоримо про розробника, справжнього вченого / статистику, або про інженера даних.


2

Мені завжди подобається вирішити суть справи.

statistics - science + some computer stuff + hype = data science

1
Це звучить як враження, яке у мене склалося з "машинного навчання", яке я складаю як "навчитися керувати частиною програмного забезпечення, не розуміючи, як воно насправді працює" (несправедливо, звичайно, але ми бачимо багато "машинного навчання" люди, які виходять зі школи, які нічого не розуміють, окрім того, що представляють параметри настройки різних видів нейронних мереж.)
jbowman

1

Наука даних - це багатопрофільна суміш висновків даних, розробки алгоритмів та технологій для вирішення аналітично складних проблем. Але через недолік науковців даних, кар'єра в науці про дані може дійсно створити численні можливості. Однак організації шукають сертифікованих фахівців з SAS, Ради з питань наукових даних Америки (DASCA), Hortonworks тощо. Сподіваюся, що це хороша інформація!


1

Вчені з даних мають дуже досвідчені навички в розробці Python, MySQL та Java.

Вони дуже чітко розуміють аналітичні функції, дуже добре знають математику, статистику, обмін даними, навички прогнозного аналізу, а також мають дуже хороші знання кодуючих мов, таких як Python та R.

Зараз багато науковців отримали ступінь кандидата наук. або їх ступінь магістра фактично за даними досліджень, лише близько 8% мають ступінь бакалавра, так що це набагато більш поглиблено.

Побудова статистичних моделей, які приймають рішення на основі даних. Кожне рішення може бути важким, наприклад, заблокувати відображення сторінки або м'яким, наприклад, призначити бал за зловмисність сторінки, яка використовується низхідними системами або людьми.

Проведення експериментів причинності, які намагаються віднести першопричину спостережуваного явища. Це можна зробити, розробивши експерименти A / B або якщо експеримент A / B неможливо застосувати епідеміологічний підхід до проблеми, наприклад @ Причинна модель @ Рубіна

Виявлення нових продуктів або функцій, які випливають із розблокування значення даних; будучи лідером думки про значення даних. Хорошим прикладом цього є функція рекомендацій щодо продуктів, яку Amazon вперше зробив доступним для масової аудиторії.


1
Ну, ні. Я настільки високий, як ви можете потрапити в ланцюжок роботи даних вченого, і я взагалі не знаю Java, і навіть не знаю Python, і мої навички MySQL найкращі за загальну якість. У моїй групі є кілька інших людей, які знають мало Python, віддаючи перевагу R, і тільки одна людина знає Java, але він в основному кодує R та C / C ++ (як я.) Три людини знають Python, але насправді не знають жодного мова нижчого рівня. Я не хочу потрапляти у вогневі війни Python v. R, або Java v. C / C ++, але це зовсім не так, що будь-який з ваших списків навичок, пов'язаних з програмуванням, необхідний.
jbowman

0

Щоб відповісти на ваше запитання "Що таке вчений?" Можливо, варто пам’ятати про різницю між Data Scientist та Механіком даних, як зазначено в http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/


1
Щоб це було повною відповіддю, будь ласка, виділіть основні моменти статті у своїй відповіді, щоб надати ОП та іншим читачам ключові моменти.
Грінпаркер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.