Data Science vs Operations Research


11

Загальне питання, як випливає з назви, таке:

  • Яка різниця між DS та АБО / оптимізацією.

На концептуальному рівні я розумію, що DS намагається отримати знання з наявних даних і використовує здебільшого статистичні, методи машинного навчання. З іншого боку, АБО використовує дані для прийняття рішень на основі даних, наприклад, оптимізуючи деяку об'єктивну функцію (критерій) над даними (введення).

Цікаво, як порівнюють ці дві парадигми.

  • Чи є одна підмножина іншої?
  • Чи вважають вони додатковими полями?
  • Чи є приклади, що одне поле доповнює інше або вони використовуються спільно?

Зокрема, мене цікавить таке:

Чи є приклад, де методи АБО використовуються для вирішення питання / проблеми Data Science?


3
Я не впевнений, що це справді питання інформатики, але я вважаю, що це досить близько. Я відредагував частину про те, що люди з одного боку думають про іншу, оскільки це, здається, повністю питання думки.
Девід Річербі

@DavidRicherby спасибі Я згоден з вами, що це може бути питанням думки. Традиційно обидві дисципліни викладаються та виникають із спільноти CS, тому, я думаю, це правильне запитання.
PsySp


@DW дякую Я прочитав статті і, чесно кажучи, я не бачу жодної дискусії про перекриття та / або відмінності між двома згаданими сферами. Зокрема, як одне доповнює інше.
PsySp

1
Data Science - це головним чином робота над пошуком інформації за допомогою даних. Операційні дослідження в основному полягають у виконанні роботи з покращення прийняття рішень. Ви часто можете розглядати АБО як методи, щоб знайти оптимальну політику для прийняття рішень. Деякі методи, що використовуються в АБО, можна класифікувати як методи посилення навчання у спільноті CS, хоча не всі проблеми АБО такого типу.
спектр

Відповіді:


9

Хоча обидва дослідження операцій та наука даних охоплюють велику кількість тем та напрямків, я спробую висловити свою точку зору на те, що я вважаю найбільш репрезентативною та основною частинами кожного.

R- головний робочий коник АБО за останні шістдесят років. Якщо у вас є інші види об'єктивних функцій або обмежень, ви опинитесь у царині цілого програмування , квадратичного програмування , напіввизначеного програмування тощо ...

З іншого боку, Data Science займається висновком. Тут ти зазвичай починаєш з великої купи даних і хочеш зробити щось про дані, яких ти ще не бачив у своїй великій купі. Типові види речей, які ви бачите тут: 1) велика купа даних являє собою минулі результати двох різних варіантів, і ви хочете знати, який варіант дасть найкращі результати; 2) велика купа даних представляє час серії, і ви хочете знати, як цей часовий ряд поширюватиметься у майбутньому; 3) велика купа даних являє собою мічений набір спостережень, і ви хочете зробити висновки міток для нових незазначених спостережень. Перші два приклади прямо підпадають під класичні статистичні області (тестування гіпотез та прогнозування часових рядів), тоді як третій приклад, я думаю, більш тісно пов'язаний із сучасними темами машинного навчання (класифікація).

Отже, на мою думку, дослідження операцій та наука даних - це здебільшого ортогональні дисципліни, хоча є певне збіг. Зокрема, я думаю, що прогнозування часових рядів з’являється в нетривіальній кількості в АБО; це одна з найбільш важливих, не математичних частин програмування АБО. Операційне дослідження - це те, де ви звертаєтесь, якщо у вас є відома залежність між входами та виходами; Data Science - це те, куди ви звертаєтесь, якщо намагаєтеся визначити цю залежність (для певного визначення введення та виводу).


Дякую за чітку відповідь. Мені було цікаво, чи можна, наприклад, використовувати будь-які методи АБО для вирішення проблем DS. Мене зацікавив би такий приклад, але, з вашої відповіді, я сумніваюся, що він є.
PsySp

@Psysp Е, можливо? Я не можу думати ні про що з голови, але це далеко не остаточне.
mhum

1
Я не думаю, що розподіл між АБО та DS є строгим, як ви вважаєте, але це може бути тому, що я розглядаю теми як машинне навчання та передачу даних як частини DS, а не вважати DS синонімом статистики. (На жаль, оскільки DS - це модна мова, наскільки я не знаю, вона не має загальновизнаного визначення) Однак завдання дезінсінгу та висновку не повинні взаємно виключати. Машинне навчання - це саме те поле, де поєднуються обидва: іноді потрібно приймати розумні рішення, щоб зробити гідні висновки, в інший час розумні умовиводи використовуються для хороших рішень.
Дискретна ящірка

@Discretelizard Звичайно, я певною мірою згоден. Я представляю досить чіткий поділ (можливо, майже карикатура?) І зосереджуюсь на основних частинах кожного поля, щоб виділити відмінності у типах проблем, для яких зазвичай налаштоване поле. Краї обох полів можуть бути досить нечіткими (особливо в DS, яка набагато новіша), і там, мабуть, більше перекриттів. Крім того, я погоджуюся, що велика частина мейнстріму DS включає речі ML, але я не був впевнений, наскільки розділений DS від ML.
mhum

4

Це не є повною відповіддю, оскільки mhum's дуже добре протиставляє різні цілі АБО та DS.

Швидше, я хочу звернутися до цього Вашого коментаря:

Мені було цікаво, чи можна, наприклад, використовувати будь-які методи АБО для вирішення проблем DS.

Відповідь - так. Найяскравіший приклад, який спадає на думку, - це підтримка векторних машин (SVM) .

Щоб "підходити" модель SVM до деяких даних (що потрібно зробити, перш ніж використовувати її для отримання прогнозів), слід вирішити наступну проблему оптимізації:

Максимізуйте подвійне,

g(a)=i=1mαi12i=1mj=1mαiαjyiyjxiTxj,

з урахуванням обмежень

0αiC,i=1nyiαi=0

Це обмежена проблема оптимізації, як і багато хто в галузі АБО, і вона вирішується за допомогою методів квадратичного програмування або методів точок інтер'єру. Вони, як правило, більше пов'язані зі сферою АБО, а не з DS, але це приклад їх широкого застосування.

Більш загально, оптимізація є ключовою для багатьох статистичних і машинних моделей навчання, що застосовуються в галузі DS, оскільки процес навчання цих моделей зазвичай може бути сформульований як проблема мінімізації, що включає функцію втрати / жалю - від скромних століть модель лінійної регресії до найсвіжішої нейронної мережі глибокого навчання.

Хороший посилання на SVM - це Bishop .


2

Як стратег, я мав можливість працювати з обома сторонами дисципліни. Намагаючись пояснити, що АБО та DS - це якісний керівник MBA, моє (надмірно) спрощене введення по одному рядку для кожного

АБО: економісти, які вміють кодувати
DS: статистики, які вміють кодувати.

На практиці те, як обидві групи зазвичай збираються разом: АБО сторона розробляє модель рішення, а сторона DS визначає відповідну реалізацію даних для подачі моделі.

Кожен самостійно покладатиметься на теоретичні традиції своїх дисциплін - разом вони проводять експерименти, щоб структурувати дані та вдосконалити модель, щоб дійти до справжньої думки, необхідної для оптимальних рішень. Коли кожен пізнає іншого, їхнє мислення та мова, як правило, сходяться.


1
Я розумію практичний опис DS як "статистиків, які кодують", але опис АБО здається мені трохи дивним. АБО включає логістику та пов'язані з цим проблеми маршрутизації. Це насправді не схоже на природне місце для економіста. Можливо, ви могли б пояснити, чому АБО робиться економістами на практиці?
Дискретна ящірка

1
@Discretelizard Я не сумніваюся, що економісти роблять АБО, але, як ви кажете, є велика кількість АБО, що не має нічого спільного з економікою, і це робиться комп'ютерними науковцями, математиками та іншими.
Девід Річербі

0

Наука даних - це широке поле, яке займається даними загалом. Якщо це звучить розпливчасто, це нормально, бо воно є насправді. Це гучне слово вже досить багато років. По суті, він намагається знайти спосіб використання даних: що я можу зробити зі своїми даними (яку інформацію я можу отримати від них?).

Операційні дослідження - це наука про математичну оптимізацію: ви моделюєте задачу на «рівняння», вирішуєте цю математичну модель і переводите рішення назад у початкове завдання. Це інструмент, який допомагає приймати рішення: що я повинен / можу зробити, щоб отримати те чи інше.

Багато проблем у бізнесі можна розглядати як проблему оптимізації. З огляду на те, що я намагаюсь отримати максимум своїх доходів, враховуючи обмеження ресурсів, як саме я б здійснював свою діяльність, які значення слід встановити для змінних моїх рішень. Такі проблеми, як планування, планування об'єктів, управління ланцюгами поставок ... тощо, усі методи оптимізації використання.

Оптимізація портфеля також є класичним прикладом, коли використовується оптимізація. Припустимо, що я можу інвестувати в декілька різних активів у своєму портфелі, кожен з яких має недетерміновану віддачу, як я повинен збалансувати свій портфель, щоб мінімізувати ризик мого загального портфеля, зберігаючи рівень грошової віддачі. У цьому випадку цільова функція часто стає ризиком / дисперсією портфеля, а обмеженнями - необхідна норма прибутковості інвестицій, а також кількість грошей, які ви маєте.


3
Ви перераховуєте лише короткі підсумки обох полів. Ця відповідь не стосується відмінностей та / або подібності між DS та АБО, для яких спеціально задано питання. Ви можете вдосконалити свою відповідь, зосередившись на цій частині
Дискретна ящірка

-1

Якщо ви вважаєте ML та AI, керовані ML, як частину Science Data (що деякі люди роблять, а деякі не відповідають моєму досвіду, наприклад, професійна програма Microsoft в AI містить ключові аспекти Data Data + Machine learning (з DL та RL) ) в той час, як Вища школа економіки представляє практично ті самі передові частини курсу курікулуму Microsoft, що і Advanced Machine Learning), але в математиці існує багато подібності, яка використовується в обох галузях. Наприклад: нелінійне програмування (множники Лагранжа, умови KKT ...) -> використовується для виведення підтримуючих векторних машин ... Економетрика, яка в основному заснована на регресіях ---> Регресії є ключовою частиною обох даних Scinece загалом і більш конкретно контрольоване навчання ... Статистика (як правило, міститься в навчальній програмі АБО) ---> ключ для наукових даних та машинного навчання ... Стохастичні процеси ---> дуже важливі в навчанні підкріплення ... Динамічне програмування ---> знову знайдене в навчанні зміцнення ... Отже, я б сказав, що є деякі подібності з Data Science в цілому і досить багато подібності з ML. Звичайно, цілі цих дисциплін різні, але в математиці існує багато подібності, яка використовується в цих дисциплінах.


Як це відповідає на запитання?
Зло
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.