Умови туманні, оскільки вони нові
Перебуваючи в середині пошуку роботи в галузі "науки про дані", я думаю, що тут відбувається дві речі. По-перше, завдання є новими, і немає встановлених визначень різних термінів, тому немає загальної згоди щодо узгодження термінів з посадовими інструкціями. Порівняйте це з "веб-розробником" або "бек-розробником". Це дві подібні роботи, які досить добре узгоджені та чіткі описи.
По-друге, багато людей, які виконують роботу, розміщуючи інформацію та початкові співбесіди, не знають, на що вони наймаються. Особливо це стосується малих та середніх компаній, які наймають рекрутерів для пошуку заявників. Саме ці посередники розміщують посадові інструкції на CareerBuilder або будь-якому іншому форумі. Це не означає, що багато з них не знають своїх речей, багато з них досить обізнані про компанії, які вони представляють, та вимоги робочого місця. Але без чітко визначених термінів для опису різних конкретних робочих місць часто виникають туманні назви.
Є три загальні підрозділи поля
На мій досвід, існує три загальні підрозділи «місця роботи» науки про дані.
Перший - це розробка математичних та обчислювальних прийомів, які роблять можливою наукову інформацію. Це стосується таких питань, як статистичні дослідження нових методів машинного навчання, впровадження цих методів та побудова обчислювальної інфраструктури для використання цих методів у реальному світі. Це підрозділ, найвіддаленіший від клієнта, і найменший підрозділ. Значна частина цієї роботи виконується або науковцями, або дослідниками великих компаній (Google, Facebook тощо). Це для таких речей, як розробка TensorFlow Google, нейронні мережі SPSS IBM або будь-яка інша база даних великих графіків.
Другий підрозділ використовує основні інструменти для створення специфічних пакетів програм для виконання будь-якого аналізу даних, який потрібно зробити. Люди наймаються на використання Python або R або будь-що інше для створення можливостей аналізу на певному наборі даних. Багато моєї роботи, на моєму досвіді, передбачає "прання даних", перетворення необроблених даних у будь-якій формі в щось корисне. Ще один великий фрагмент цієї роботи - обмін даними; з'ясування способів зберігання даних таким чином, щоб отримати доступ до них у будь-яку часову шкалу, яка вам потрібна. Ця робота полягає не стільки в тому, щоб скористатися інструментами, а використовувати існуючі бібліотеки баз даних, статистику та графічний аналіз для отримання певних результатів.
Третій підрозділ - це аналіз аналізу щойно організованих та доступних даних. Це найбільшою стороною клієнта, залежно від вашої організації. Ви повинні зробити аналіз, який лідери бізнесу можуть використовувати для прийняття рішень. Це було б найменш технічним із трьох підрозділів; На сьогоднішній день багато робочих місць є гібридами між другим та третім підрозділами, оскільки наука про дані ще зароджується. Але в майбутньому я сильно підозрюю, що між цими двома робочими місцями буде більш чіткий розподіл, коли люди виграють другу роботу, потребуючи технічної, інформатики або на основі статистики, і для цієї третьої роботи потрібна лише загальна освіта.
Загалом, усі троє могли б описати себе як "науковця даних", але лише перші два могли обґрунтовано описати себе як "інженера машинного навчання".
Висновок
Наразі вам доведеться самі з’ясувати, що передбачає кожна робота. Моя поточна робота найняла мене на посаду "аналітика", щоб займатися машинним навчанням. Але коли ми приступили до роботи, стало очевидним, що база даних компанії є неадекватною, і, напевно, 90% мого часу витрачається на роботу над базами даних. Моя експозиція на машинному навчанні зараз просто швидко працює за допомогою будь-якого пакету scikit-learn, який видається найбільш підходящим, і зйомка файлів csv аналітикам третього підрозділу, щоб робити презентації Powerpoint для замовника.
Поле в потоці. Дуже багато організацій намагаються додати рішення щодо наукових даних у свої процеси, але не знаючи чітко, що це означає. Це не їхня вина, його досить важко передбачити майбутнє, а наслідки нової технології ніколи не дуже зрозумілі. Поки ця сфера не буде створена, багато робочих місць самі будуть такими ж неясними, як і терміни, що використовуються для їх опису.
Data scientist
звучить як позначення з невеликою чіткістю щодо того, якою буде фактична робота, в той часmachine learning engineer
як більш конкретна. У першому випадку ваша компанія дасть вам мету, і вам потрібно розібратися, який підхід (машинне навчання, обробка зображень, нейронна мережа, нечітка логіка тощо) ви б використовували. У другому випадку ви вже звузили компанію до того, який підхід потрібно використовувати.