Наука даних без знання певної теми, чи варто займатися кар’єрою? [зачинено]


15

Нещодавно я провів бесіду з кимось і згадав про свій інтерес до аналізу даних і про те, з ким я мав намір вивчити необхідні навички та інструменти. Вони запропонували мені, що хоча чудово вивчати інструменти та формувати навички, це мало сенсу робити, якщо я не маю спеціалізованих знань у певній галузі.

Вони в основному підсумували це до того, що я просто був би будівельником з купою інструментів, який міг би побудувати кілька дерев'яних ящиків і, можливо, будувати кращі речі (кабіни, шафи тощо), але без знань у певній галузі я ніколи не буду бути будівельником, люди прийшли б до конкретного продукту.

Хтось це знайшов чи має якийсь внесок щодо того, що з цього зробити? Здавалося б, якби це правда, треба було б вивчити аспекти наукових даних речей, а потім вивчити нову сферу, щоб лише стати спеціалізованою.


Хоча ваше запитання справедливе, це не правильне місце для нього. Питання, пов'язані з кар'єрою, тут не розглядається.
sheldonkreger

Незрозуміло, про що ви питаєте - краще вивчити інструменти чи зібрати знання про домен? ймовірно, занадто відкритий та заснований на думці StackExchange.
Шон Оуен

Відповіді:


43

Дрю Конвей опублікував Діаграму Венна Дані , з якою я щиро погоджуюся:

Діаграма Венна в науці даних

З одного боку, ви дійсно повинні прочитати його допис. З іншого боку, я можу запропонувати власний досвід: моя експертиза з предметів (що мені подобається краще як термін, ніж "Суттєві експертизи", оскільки вам також слід мати "Суттєві експертизи" з математики / статистики та злому) роздрібний бізнес, моя математика / статистика - це прогнозування та інфекційна статистика, а мої навички хакерства - у Р.

З цієї точки зору, я можу поговорити з роздрібними торговцями і зрозуміти, і той, хто не має хоча б передових знань у цій галузі, повинен зіткнутися з крутою кривою навчання в проекті з роздрібною торгівлею. Як бічний концерт, я роблю статистику з психології, і там точно так само. І навіть маючи певні знання про хакерську / математичну / статистичну частину діаграми, мені було б важко піднятися на швидкість, скажімо, підрахунку кредитів або в іншому новому предметному полі.

Коли у вас є певна кількість математики / статистики та хакерських навичок, набагато краще придбати заземлення в одному або декількох предметах, ніж додавати ще одну мову програмування до своїх навичок злому, або щеще один алгоритм машинного навчання до вашого портфоліо математики / статистики. Зрештою, щойно у вас є ґрунтовна математика / статистика / хакерське заземлення, ви, за необхідності, зможете вивчити такі нові інструменти з Інтернету чи з підручників за відносно короткий проміжок часу. Але, з іншого боку, предметної експертизи ви, швидше за все, не зможете навчитися з нуля, якщо почнете з нуля. І клієнти будуть скоріше працювати з деяким вченим A, який розуміє їх конкретну сферу, ніж з іншим науковцем B, який першим повинен вивчити основи - навіть якщо B краще в математиці / статистиці / хакерстві.

Звичайно, все це також означатиме, що ви ніколи не станете експертом у жодній із трьох областей. Але це добре, адже ви - науковець, а не програміст чи статистик чи експерт з предметів. У трьох окремих колах завжди знайдуться люди, від яких можна навчитися. Що є частиною того, що мені подобається в науці про дані.


EDIT: Трохи і кілька думок пізніше, я хотів би оновити цю публікацію новою версією діаграми. Я все ще думаю, що хакерські навички, знання математики та статистики та істотні експертизи (скорочені до "Програмування", "Статистика" та "Бізнес" для розбірливості) є важливими ... але я вважаю, що важлива і роль спілкування . Усі відомості, які ви отримуєте, використовуючи хакерські виклики, статистику та діловий досвід, не змінять жодної зміни, якщо ви не зможете повідомити їх людям, у яких може бути не унікальна суміш знань. Можливо, вам доведеться пояснити свої статистичні відомості керівнику бізнесу, якому потрібно переконатись, щоб витратити гроші або змінити процеси. Або програмісту, який не думає статистично.

Отже, ось нова діаграма Venn Science Science, яка також включає спілкування як один незамінний інгредієнт. Я позначив ці ділянки способами, які повинні гарантувати максимальне полум'я, при цьому легко запам'ятовується.

Прокоментуйте подалі.

нова діаграма Венна в науці даних

R код:

draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
    shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
    tt <- seq(0,2*pi,length.out=1000)
    foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
    polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)

png("Venn.png",width=600,height=600)
    opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
        plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
        draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
        draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
        draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
        draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)

        name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
        name(8,62,"Communi-\ncation",cex=1.5,pos=3)
        name(30,78,"Statistics",cex=1.5)
        name(70,78,"Programming",cex=1.5)
        name(92,62,"Business",cex=1.5,pos=3)

        name(10,45,"Hot\nAir")
        name(90,45,"The\nAccountant")
        name(33,65,"The\nData\nNerd")
        name(67,65,"The\nHacker")
        name(27,50,"The\nStats\nProf")
        name(73,50,"The\nIT\nGuy")
        name(50,55,"R\nCore\nTeam")
        name(38,38,"The\nGood\nConsultant")
        name(62,38,"Drew\nConway's\nData\nScientist")
        name(50,24,"The\nperfect\nData\nScientist!")
        name(31,18,"Comp\nSci\nProf")
        name(69,18,"The\nNumber\nCruncher")
        name(42,11,"Head\nof IT")
        name(58,11,"Ana-\nlyst")
        name(50,5,"The\nSalesperson")
    par(opar)
dev.off()

1
Мене сюди привело повідомлення в блозі, де посилається на вашу оновлену діаграму. Я думаю, що це є великим вдосконаленням оригінальної версії Conway, хоча я не можу зовсім пройти через те поняття - мається на увазі розмір перекриття - про те, що «Професор статистики» - це людина, що має однакові навички в статистиці та спілкуванні.
Роберт де Граф

1

Звичайно, можна. Компанії вимагають науковців даних. Будьте уважні, хоча всі вони по-різному трактують цей термін. Залежно від компанії, вас можуть попросити зробити що-небудь від статистики до написання виробничого коду. Або одна - сама повна робота, і ви повинні бути готовими до обох, тому просити глибокі спеціалізовані знання, крім того, на мою думку, і компанії, з якими я спілкувався, наголосили на інших двох сферах ( особливо програмування). Однак я виявив, що це допомагає ознайомитися з типом проблем, з якими ви можете зіткнутися. Залежно від сектору, це може бути виявлення аномалії, рекомендації / персоналізація, прогнозування, зв'язок запису тощо. Це те, що ви можете вивчити як приклади одночасно з математикою та програмуванням.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.