Я R
мовний програміст. Я також в групі людей, яких вважають науковцями даних, але які виходять з наукових дисциплін, відмінних від CS.
Це добре справляється з моєю роллю вченого даних, однак, розпочинаючи свою кар’єру R
і маючи лише базові знання інших сценаріїв / веб-мов, я почувався дещо неадекватним у двох ключових сферах:
- Відсутність ґрунтовних знань з теорії програмування.
- Відсутність конкурентоспроможного рівня навичок у більш швидких та широко використовуваних мовах, таких як
C
,C++
іJava
які можна було б використати для збільшення швидкості конвеєра та обчислень Big Data, а також для створення продуктів DS / даних, які можна легше перетворити на швидкі резервні сценарії або автономні програми.
Рішення звичайно просте - перейдіть, вивчіть програмування, чим я займався, записавшись у деякі класи (зараз програмування на С).
Однак тепер, коли я починаю вирішувати проблеми №1 та №2 вище, я залишаюсь запитувати себе " Наскільки життєздатні такі мови, як C
і C++
для Data Science? ".
Наприклад, я можу дуже швидко переміщувати дані та взаємодіяти з користувачами, але як бути з розширеною регресією, машинним навчанням, вилученням тексту та іншими більш досконалими статистичними операціями?
Тому. можна C
зробити роботу - які інструменти доступні для передової статистики, ML, AI та інших областей Science Data? Або я повинен втратити більшу частину ефективності, отриманої програмуванням, за C
допомогою виклику R
сценаріїв або інших мов?
Найкращий ресурс, який я поки що знайшов у C, - це бібліотека під назвою Shark , яка дає C
/ C++
можливість використовувати підтримку векторних машин, лінійну регресію (нелінійну та інші розширені регресії, такі як багаточленний probit тощо) та шорт-лист інших (чудові, але) статистичні функції.