Розглядаючи інші критерії, я думаю, що в деяких випадках використання Python може бути набагато перевершує R для великих даних. Я знаю широко розповсюджене використання R в навчальних матеріалах з наукових даних і в хороших бібліотеках для аналізу даних, наявних у ньому, але іноді це просто залежить від команди.
З мого досвіду, для людей, які вже знайомі з програмуванням, використання Python забезпечує набагато більшу гнучкість та підвищення продуктивності порівняно з мовою на зразок R, яка не є настільки продуманою та потужною порівняно з Python з точки зору мови програмування. Як доказ, в курсі обміну даними в моєму університеті найкращий заключний проект був написаний на Python, хоча інші мають доступ до багатої бібліотеки аналізу даних R. Тобто, іноді загальна продуктивність (враховуючи навчальні матеріали, документацію тощо) для Python може бути кращою за R навіть за відсутності спеціальних бібліотек аналізу даних для Python. Крім того, є кілька хороших статей, що пояснюють швидкий темп роботи Python в науці даних: Python Displacing R та Rich Science Data Structures in Python які незабаром можуть заповнити прогалину доступних бібліотек для Р.
Ще однією важливою причиною невикористання R є те, що в роботі з проблемами Big Data в реальному світі, всупереч проблемам, що стосуються лише академічних наук, є велика потреба в інших інструментах і методах, таких як аналіз даних, очищення, візуалізація, веб-переробка даних та багато інших, які набагато простіше використовувати мову програмування загального призначення. Це може бути причиною того, що мовою за замовчуванням, що використовується у багатьох курсах Hadoop (включаючи онлайн-курс Udacity ), є Python.
Редагувати:
Нещодавно DARPA також інвестувала 3 мільйони доларів, щоб допомогти фінансувати обробку та візуалізацію даних Python для роботи з великими даними, що, очевидно, є ознакою майбутнього Python в Big Data. ( деталі )