Статистика + Інформатика = Інформація? [зачинено]


10

Я хочу стати науковцем даних . Я вивчав прикладну статистику (актуарна наука), тому маю чудовий статистичний досвід (регресія, стохастичний процес, часовий ряд, лише кілька). Але зараз я збираюся зробити магістерську ступінь з фокусу на інформатиці в інтелектуальних системах.

Ось мій план навчання:

  • Машинне навчання
  • Розширене машинне навчання
  • Видобуток даних
  • Нечітка логіка
  • Системи рекомендацій
  • Розподілені системи даних
  • Хмарні обчислення
  • Відкриття знань
  • Бізнес-аналітика
  • Пошук інформації
  • Добування тексту

Врешті-решт, я можу назвати себе науковцем даних, маючи всі мої знання зі статистики та інформатики? чи я помиляюся?

Дякую за відповіді.



Це питання видається поза темою, оскільки йдеться про кар’єрні поради. Доведено, що поради щодо кар’єри призводять до орієнтованих на думку, широких питань, а іноді й до вкрай обмежених питань, більшість з яких не спричиняє корисного дискурсу. Якщо ви не згодні з цією думкою, будь ласка, поставте питання про Data Science Meta .
asheeshr

Коротше кажучи, ні. Дані + Науковий метод = Наука даних :-). Все інше - лише методологія,
куди

Відповіді:


1

Я думаю, що ви на правильному шляху до того, щоб стати експертом з питань даних . Нещодавно я відповів на відповідне запитання тут у Data Science StackExchange: https://datascience.stackexchange.com/a/742/2452 (зверніть увагу на визначення, яке я згадую там, оскільки воно, по суті, відповідає на ваше запитання самостійно, а також на аспекти практичної інженерії програмного забезпечення та застосування знань для вирішення реальних проблем). Сподіваюся, що ви знайдете все це корисним. Удачі у вашій кар’єрі!


9

Ну, це залежить від того, до якого типу "Data Science" ви хочете вступити. Для базової аналітики та звітності статистика, безумовно, допоможе, але для машинного навчання та штучного інтелекту вам потрібно ще кілька навичок

  • Теорія ймовірностей - у вас має бути міцний фон з чистою ймовірністю, щоб ви могли розкласти будь-яку проблему, чи то раніше, чи ні, на ймовірнісні принципи. Статистика дуже допомагає для вже вирішених проблем, але нові та невирішені проблеми потребують глибокого розуміння ймовірності, щоб можна було розробити відповідні методи.

  • Інформаційна теорія - це (по відношенню до статистики) - це зовсім нове поле (хоч і ще десятиліття), найважливіша робота Шеннона, але ще важливішою і часто занедбаною приміткою в літературі є робота Гобсона, яка довела, що Кулбек-Лейблер розбіжність є єдиним математичним визначенням, яке справді фіксує поняття "міра інформації" . Тепер основою для штучного інтелігентності є можливість кількісної оцінки інформації. Запропонуйте прочитати "Поняття статистичної механіки" - Артур Хобсон (дуже дорога книга, доступна лише в академічних бібліотеках).

  • Теорія складності- Велика проблема, з якою стикаються багато вчених, що не мають твердої теорії складності, полягає в тому, що їх алгоритми не масштабуються або просто займають великі дані надзвичайно багато часу. Візьмемо, наприклад, PCA, улюблений багатьма людьми відповідь на питання інтерв'ю "як зменшити кількість функцій у нашому наборі даних", але навіть якщо ти скажеш кандидату "набір даних дійсно дуже великий", вони все ще пропонують різні форми PCA, які є O (n ^ 3). Якщо ви хочете виділитися, ви хочете мати можливість вирішити кожну проблему самостійно, НЕ кидайте на неї якесь текстове рішення, розроблене давно, перш ніж Big Data була такою хіп-справою. Для цього вам потрібно зрозуміти, скільки часу потрібно тривати не тільки теоретично, але й практично - так як використовувати кластер комп'ютерів для розподілу алгоритму,

  • Навики комунікацій - Велика частина Data Science розуміє бізнес. Будь то винайдення продукту, керованого наукою даних, або надання ділової уявлення, керованої наукою даних, вміння добре спілкуватися як з менеджерами проектів, так і з продуктами, технічними командами та вашими колегами-науковцями. Ви можете мати дивовижну ідею, сказати приголомшливе рішення AI, але якщо ви не можете ефективно (а) спілкуватися, ЧОМУ заробляти гроші на бізнесі, (б) переконувати своїх колег, що це спрацює, і (в) пояснити технічним людям, як вам потрібно їх допомогу побудувати його, тоді це не буде зроблено.


6

Даний науковець (для мене) великий парасольковий термін. Я б бачив вченого даних як людину, яка вміло може використовувати методи з галузей видобутку даних, машинного навчання, класифікації моделей та статистики.

Однак ці терміни переплітаються між собою: машинне навчання пов'язане з класифікацією шаблонів, а також пошук даних перекривається, коли йдеться про пошук шаблонів даних. І всі методи мають свої основні статистичні принципи. Я завжди малюю це діаграмою Венна з величезним перетином.

Комп'ютерні науки також пов'язані з усіма цими напрямами. Я б сказав, що для інформаційно-дослідницьких досліджень вам потрібні методи "інформатики даних", але знання інформатики не обов'язково мають на увазі під "наукою даних". Однак навички програмування - я бачу програмування та інформатику як різні професії, де програмування - це більше інструмент для вирішення проблем - також важливі для роботи з даними та проведення аналізу даних.

У вас дійсно хороший план навчання, і це все має сенс. Але я не впевнений, якщо ви "хочете" називати себе просто "вченим даними", у мене складається враження, що "вчений по даних" - це такий неоднозначний термін, який може означати все або нічого. Я хочу передати, що ви нарешті будете чимось більш - більш "спеціалізованим" - ніж "просто" вченим.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.