Я програміст, як я можу потрапити в сферу наукових даних?


13

Перш за все цей термін звучить так незрозуміло.

У всякому разі .. Я програмний програміст. Однією з мов, яку я можу кодувати, є Python. Якщо говорити про дані, то я можу використовувати SQL і можу робити скребки даних. Що я з’ясував поки що, прочитавши так багато статей, що в науці про дану справу все добре:

1- Статистика

2- Алгебра

3- Аналіз даних

4- Візуалізація.

5- Машинне навчання.

Що я знаю поки:

1- Програмування Python 2- Записування даних у Python

Чи можете ви мене навести експерти чи запропонувати дорожню карту, щоб підготувати як теоретичну, так і практичну? Я дав собі близько 8 місяців часу.


Будь ласка, уточнюйте, у що ви хочете "потрапити". Не тільки на полі, а й на якому рівні. Наприклад - "професійний медичний текст шахтар" або "аматорський астрофізичний дослідник всесвіту"
Піт

Я готовий стати чимось, що може працювати консультантом чи службовцем, що може зв’язатися з компаніями, щоб заглибитись у їхні дані та отримати зрозумілі дані.
Volatil3

(1) курс Ендрю з машинного навчання; (2) Курс Ясера Абу-Мостафи з вивчення даних; Обидва є доступними (час не включається), і ви отримаєте хороший рівень розуміння.
Владислав Довгалець


Термін Data Science дуже широкий. Можливо, ви могли б подумати над тим, яку роботу ви хочете, і в якій компанії ви хочете працювати, подивитися їхні вимоги та обов'язки. Тоді ви б знали, чи відповідає робота вашим очікуванням та розриву ваших можливостей. Ось вимоги науковця даних у GOOGLE. ! [Вимоги до даних вченого від Google ] ( i.stack.imgur.com/5KSN6.png )
Octoparse

Відповіді:


18

Менше зосередьтесь на здобутті навичок і більше на здобутті досвіду. Спробуйте насправді вирішити деякі проблеми та опублікуйте свою роботу на github. Ви дізнаєтесь більше в цьому процесі і зможете продемонструвати знання та досвід роботодавцям, що набагато цінніше, ніж мати нібито глибоке розуміння теми чи теорії.

Data Science - це досить навантажене поле в наші дні, тому я не впевнений, яку роботу ви конкретно хочете зробити, але припускаючи, що машинне навчання є його складовою, тоді kaggle.com - хороше місце для початку. Що стосується цілей, якщо ви зможете працювати з даними в пандах / numpy / scipy, будуйте моделі в науковому комплекті, щоб дізнатися і зробити гарні графіки у новонародженого, ggplot або навіть matplotlib, тоді у вас не буде проблеми з отриманням робота з точки зору навичок - особливо якщо у вас є зразки коду та приклади для демонстрації своїх здібностей. Якщо ви зациклюєтесь, тоді у stackexchange буде відповідь або ви можете опублікувати питання, і незабаром у вас буде відповідь. Як тільки ви будете робити роботу на життя, то навчитесь ще більше, ймовірно, від старшого члена команди, який вас наставляє.

Удачі.


7

Мені подобається курс Берклі з Data Science, дасть хорошу основу та смак Data Science, після переходу на ударність та курси та багато інших ресурсів. Тож якщо у вас є навички програмування, то знадобиться математика, статистика та багато візуалізації. Також буде чудово звикнути до IPython, тому що важливо бачити кожен крок (візуалізувати) його виконання, а не написання цілого сценарію та тестування після цього (анаконда проста в установці та роботі). Курс представлений нижче: bcourses.berkeley.edu/courses/1267848/wiki також статистика, яку я вважаю хорошим безкоштовним курсом від SAS: Статистика 1: Вступ до підтримки ANOVA, регресії та логістичної регресії.sas.com/edu/schedules.html ? ctry = us & id = 1979

Починати з МЛ рекомендую: www.kaggle.com/c/titanic/details/getting-started-with-python

ліворуч також для Excel, використовуючи таблиці Pivot, і R. DataCamp випустив підручник щодо використання R. Після того як ви виконаєте ці кроки, більшість змагань за набуття досвіду пройдуть на змаганнях (нещодавно випущений один для San Francisco Crime Classification) і в кінцевому підсумку дивовижні відеоуроки від www.dataschool.io

сподіваюся, що це допоможе ...


Дякую за вашу відповідь. Як ви дізналися?
Volatil3

1
Книги, навчальні посібники в Інтернеті та багато практичного використання коду, пов’язаного з грою з даними. Спробуйте kaggle.com та спробуйте через змагання. Чудово починає вивчати ML.
n1tk

і в кінцевому підсумку спробуйте знайти спільноту науковців даних та брати участь у проектах, ви отримаєте стільки досвіду, який поділитесь у проектах, чого жодна книга не може навчити.
n1tk

Але я
недобрий

У моєму конкретному випадку я розглядав питання про повернення до школи та перехід на докторську програму в аналітиці та науці даних ... вимагаючи обчислення 1,2, лінійної алгебри, чисельної лінійної алгебри, SAS, R, математики для великих даних, теорія графів та багато іншого ...
n1tk

5

Не погоджуючись з Девідом, справжнім науковцем даних, є прикладний статистик, який кодує та вміє використовувати алгоритми машинного навчання з правильних причин. Статистика є основою всієї науки про дані. Це "торт" сам по собі. Все інше - це лише обмерзання.

Питання полягає в тому, яким ти вченим ти хочеш стати? Ви хочете бути майстром предмета (знання про те, як, чому, коли і коли не застосовувати алгоритм чи техніку) або дитячим сценарієм Kaggle, використовуючи Scipy і думаючи, що він є вченим?

1 - Статистика

2- Все інше


2
Не впевнений, я розумію, що ти кажеш. Я ніколи не говорив, що знання "прикладної статистики" не важливо - я просто визначив, що набуття досвіду застосування методів важливіше, ніж здобуття теоретичних знань про самі методи.
Девід

1
Девід, це був саме мій погляд на незгоду. Не маючи теоретичних знань самих методів, ми просто просто малюки сценарію. Досвід важливий, але це побічний продукт теоретичних знань, а не навпаки.
Прихований Марків Модель

2
Ні, це не так. Існує велика різниця між прикладним досвідом і теоретичними знаннями, часто різниця між тим, що отримується в галузі в порівнянні з класом. Наприклад, важливіше знати, як ефективно перевірити, чи не є модель надмірно корисною за допомогою застосованого методу, як перехресне підтвердження, ніж знати теоретичні основи регуляризації. Крім того, будь ласка, перестаньте згадувати про "сценарії дітям" - ніхто не виступає за використання нового та жахливого функціоналу Kaggle для подання в один клік.
Девід

1
Якщо те, що ви говорите, є правдою, то чому компанії віддають перевагу докторантам та людям з магістратурами перед людьми, які мають просто бакалаврів? Це тому, що вони володіють теоретичними знаннями про методи, які керують алгоритмами. Вони самі є виробниками двигунів. Теоретичні знання - це глибші знання. Kaggle - утримуючий танк для дітей із сценарієм.
Прихований Марків Модель

1
Хоча я бачу точки, які ви намагаєтеся зробити, я думаю, що це можливо поза контекстом. Первісне питання було "як програміст може перейти на роботу в галузі даних?" Якщо відповідь - "киньте все, витрачайте кілька років на отримання PH.D у статистиці, потім робіть кілька проектів самостійно, а потім починайте застосовувати", це досить серйозна перешкода, і ви можете також сказати їм не турбуватися у практичному сенс. І навпаки, враховуючи кількість статистичних даних PHD (або навіть магістрів) та кількість людей, які шукають, роботодавці можуть вважати людей, які можуть демонструвати досвід без ступеня.
chrisfs

4

Якщо ви хочете бути практичною людиною з справжніми знаннями, почніть з математики (обчислення, ймовірності + статистика, лінійна алгебра). На кожному кроці намагайтеся реалізувати все за допомогою програмування, python приємний для цього. Коли ви отримаєте хороший досвід, пограйте з реальними даними та вирішіть проблеми

Курси Лінійна алгебра - edx Laff або кодування матриці Stat - edx stat 2x Barkley Calculus - читати ... її просто


2

У Девіда є хороший момент, я б запропонував вам зосередитись на тому, що саме сприяє вашому інтересу. Це єдиний спосіб досягти успіху в усіх видах зусиль. Якщо ви хочете побудувати щось класне, почніть з цього. Якщо ви хочете прочитати книгу, це теж добре. Початкова точка не має значення. Через кілька днів ви будете краще розуміти, що ви хочете і що потрібно робити далі.


1

Наука даних є настільки широкою, що існує багато різних шляхів, щоб потрапити в неї. Зазвичай він розбивається на 4 або 5 різних типів, наприклад:

введіть тут опис зображення

Ви можете побачити з інших публікацій у цій темі людей, що надходять із фону прикладної статистики (застосувавши правильний алгоритм), фону програмування (беруть участь у Kaggle) та інших, що застосовують його до бізнесу

Кмітливі компанії могли б позначати перекошену програмуванням людину як "Інженера даних". Великі компанії також використовують кожен тип для своєї команди з наукових даних, тому продемонструвати хороші Т-образні навички було б хорошою справою.


0

Якщо ви програміст, ви можете почати з класифікатора дерева рішень, зосередившись на розумінні математики, що стоїть за Entropy та Information-Gain. Важливо розуміти, що ML - це всього лише про стиснення даних.

Я дуже не погоджуюся з деякими іншими відповідями щодо значення практичних курсів. Найбільш цінним для ML є математика: теорія чисел, лінійна алгебра та теорія ймовірностей.

Якщо ви не зосереджуєтесь на математиці, єдине, що ви навчитесь, це те, як використовувати якусь бібліотеку для виконання магії, це не машинне навчання і зовсім не наука.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.