У нашій компанії у нас є база даних MongoDB, що містить безліч неструктурованих даних, на якій нам потрібно запустити алгоритми зменшення карт для створення звітів та інших аналізів. У нас є два підходи для вибору необхідних аналізів: Один із підходів - витягнути дані з MongoDB до кластеру Hadoop та зробити …
У мене великий набір даних з 9м JSON-об'єктів по ~ 300 байт кожен. Це повідомлення з агрегатора посилань: в основному посилання (URL, назва та ідентифікатор автора) та коментарі (текст та ідентифікатор автора) + метадані. Вони цілком можуть бути реляційними записами в таблиці, за винятком того, що вони мають одне поле …