Дозвольте спочатку уточнити, що я починаю свій шлях у науку даних з позицій програміста та розробника баз даних. Я не є десятирічним експертом з питань даних та не є статистичним богом. Однак я працюю вченим і великими наборами даних для компанії, яка працює з досить великими клієнтами по всьому світу.
З мого досвіду, науковець даних використовує всі необхідні інструменти, щоб виконати роботу. Excel, R, SAS, Python і багато іншого - це всі інструменти в наборі інструментів для хорошого вченого. Кращі можуть використовувати найрізноманітніші інструменти для аналізу та стискання даних.
Тому, якщо ви порівнюєте R з Python, то ви, ймовірно, робите все неправильно у світі науки даних. Хороші дані вчені використовують і тоді, коли є сенс використовувати одне над іншим. Це стосується і Excel.
Я вважаю, що досить важко знайти когось, хто матиме досвід у такій кількості різних інструментів та мов, в той час як у всьому відмінний. Я також думаю, що важко буде знайти науковця, який би міг не тільки програмувати складні алгоритми, але й знати, як їх використовувати і зі статистичної точки зору.
Більшість науковців, з якими я працював, мають приблизно два аромати. Ті, хто може програмувати, і ті, хто не може. Я рідко працюю з науковцем, який може витягувати дані в Python, маніпулювати ними чимось на зразок Pandas, підходити модель до даних в R і потім представляти їх для управління в кінці тижня.
Я маю на увазі, я знаю, що вони існують. Я читав багато блогів із наукових даних від хлопців, які розробляють веб-скраппери, штовхають його в Hadoop, витягують його назад у Python, програмують складні речі та проводять його через R до завантаження. Вони існують. Вони там. Я просто не наткнувся на занадто багато людей, які можуть все це зробити. Можливо, це просто моя область?
Отже, чи означає це лише спеціалізація на одній поганій справі? Ні. Багато моїх друзів спеціалізуються лише на одній основній мові і вбивають її. Я знаю безліч хлопців даних, які знають тільки R і вбивають його. Я також знаю багато людей, які просто використовують Excel для аналізу даних, тому що це єдине, що може відкрити та використовувати більшість науковців, які не мають даних (особливо в компаніях B2B). Питання, на яке вам дійсно потрібно відповісти, це чи є ця річ ЄДНЕ, що вам потрібно для цієї посади? І найголовніше, чи можуть вони навчитися новому?
PS
Data Science не обмежується лише "BIG DATA" або NoSQL.