Чи Data Science збігається з обробкою даних?


22

Я впевнений, що наука про дані, як буде обговорюватися на цьому форумі, має кілька синонімів або, принаймні, суміжних областей, де аналізуються великі дані.

Моє особливе питання стосується пошуку даних. Я взяв випускник класу Data Mining кілька років тому. У чому полягають відмінності між Data Science та Data Mining, зокрема, на що мені ще потрібно звернути увагу, щоб стати досвідченим в майнінгу даних?


Щодо другої частини Вашого запитання, я запропонував обговорення в мета: meta.datascience.stackexchange.com/questions/5/… Як це може отримати отримане рішення про те, чи відповідає Ваша ступінь кваліфікації чи в межах її рамки.
Клейтон

Відповіді:


25

@statsRus починає закладати основу для вашої відповіді в іншому запитанні /datascience/1/what-characterises-the-difference-between-data-science-and-statistics :

  • Збір даних : скребтування веб-сторінок та онлайн-опитування
  • Маніпулювання даними : перекодування брудних даних та отримання сенсу з лінгвістичних та соціальних мереж
  • Шкала даних : робота з надзвичайно великими наборами даних
  • Обмін даними : пошук моделей у великих, складних наборах даних з акцентом на алгоритмічні методи
  • Комунікація даних : сприяє перетворенню "машиночитаних" даних у "читабельну людиною" інформацію за допомогою візуалізації

Визначення

може розглядатися як один предмет (або набір навичок та додатків) в наборі інструментів вченого. Мені подобається, як він відокремлює визначення видобутку від колекції у своєрідному жаргоні, специфічному для торгівлі.

Тим НЕ менше, я вважаю , що дані видобуток буде синонімом збору даних в США англійської розмовної визначенням.

Щодо куди поїхати, щоб стати досвідченим? Я вважаю, що це питання занадто широке, оскільки наразі заявлено, і він би отримав відповіді, що ґрунтуються насамперед на думках. Можливо, якби ви могли уточнити своє запитання, можливо, буде простіше зрозуміти, що ви запитуєте.


11

Те, що опублікував @Clayton, мені здається правильним для цих термінів і для "пошуку даних", що є одним із інструментів вченого. Однак я не дуже використовував термін "збір даних", і це не вважає мене синонімом "пошуку даних".

Моя відповідь на ваше запитання: ні , умови не однакові. Визначення можуть бути вільними в цьому полі, але я не бачив, щоб ці терміни використовувалися взаємозамінно. У своїй роботі ми іноді використовуємо їх для розмежування цілей чи методологій. Для нас більше стосується тестування гіпотези, і зазвичай дані збираються саме для цієї мети. це більше просіювання наявних даних, пошук структури та, можливо, генерування гіпотез. Обмін даними може починатися з гіпотези, але це часто дуже слабко або загально, і їх важко вирішити впевнено. (Копайте досить довго, і ви щось знайдете , хоча це може виявитися піритом.)

Однак ми також використовували "науку про дані" як більш широкий термін, щоб включити "пошук даних". Ми також говоримо про "моделювання даних", яке для нас - це пошук моделі для цікавої системи на основі даних, а також інших знань та цілей. Іноді це означає намагатися знайти математику, яка пояснює реальну систему, а іноді означає знайти прогнозовану модель, достатню для досягнення мети.


8

Моя відповідь була б ні. Я вважаю, що видобуток даних є одним із різних напрямків в науці даних. Обмін даними здебільшого розглядають на питання, а не на їх відповіді. Його часто називають "виявленням чогось нового", якщо порівнювати з наукою про дані, де науковець даних намагається вирішити складні проблеми, щоб мати змогу досягти своїх кінцевих результатів. Однак обидва терміни мають багато спільного між ними. Наприклад, якщо у вас є сільськогосподарська земля, де ви прагнете знайти постраждалі рослини. Тут видобуток просторових даних відіграє ключову роль у виконанні цієї роботи. в землі, але і ступінь впливу на них ....... це неможливо з науковими даними.


Ваша відповідь є дуже приємною, і приємною також була б така ситуація, якщо ви додасте невеликий приклад, щоб підкреслити свою точку зору на пошук даних, більш пов’язаних з виявленням чогось нового, а не з намаганням вирішити та досягти результатів .
Рубенс

6

Існує багато перекриттів між обробкою даних та наукою. Я б сказав, що люди, які мають роль управління інформацією, переймаються збором даних та вилученням функцій з нефільтрованих, неорганізованих та здебільшого сировинних / диких наборів даних. Деякі дуже важливі дані можуть бути важко витягнутими, що не стосується питань впровадження, а тому, що вони можуть мати сторонні артефакти.

Напр. якщо мені потрібен був хтось, щоб переглянути фінансові дані з письмових податкових декларацій у 70-х, які були відскановані та прочитані на машині, щоб дізнатися, чи економили люди більше на страхуванні автомобіля; особа, яка отримає дані, буде отримувати дані.

Якщо мені знадобиться хтось, щоб вивчити вплив профілю Нікея в твіті Бразилії та визначити ключові позитивні риси в профілі, я би шукав даних-вчених.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.