Будь-яка невелика обробка бази даних може бути легко вирішена сценаріями Python / Perl / ..., що використовує бібліотеки та / або навіть утиліти з самої мови. Однак, що стосується продуктивності, люди, як правило, тягнуться до мов C / C ++ / низького рівня. Можливість адаптації коду до потреб, здається, є тим, що робить ці мови настільки привабливими для BigData - будь то управління керуванням пам’яттю, паралелізм, доступ до диска або навіть оптимізація низького рівня (через складання конструкцій на рівні C / C ++).
Звичайно, такий набір переваг не обійдеться без витрат: написання коду, а іноді навіть винахід колеса , може бути досить дорогим / стомлюючим. Хоча доступно багато бібліотек, люди схильні писати код самостійно, коли їм потрібно забезпечити ефективність. Що відключає твердження про ефективність використання бібліотек під час обробки великих баз даних?
Наприклад, розгляньте підприємство, яке постійно сканує веб-сторінки та аналізує зібрані дані. Для кожного розсувного вікна над отриманими даними запускаються різні алгоритми виведення даних. Чому розробники відмовляються від використання наявних бібліотек / фреймворків (будь то для сканування, обробки тексту та пошуку даних)? Використання вже реалізованих матеріалів не тільки полегшить тягар кодування всього процесу, але й заощадить багато часу.
В одному кадрі :
- що робить написання коду самим собою гарантією виконання?
- Чому ризикувати покладатися на рамки / бібліотеки, коли ви повинні забезпечити високу продуктивність?