Яка різниця між Hadoop і noSQL


15

Я чув про багато інструментів / рамок, які допомагають людям обробляти свої дані (середовище великих даних).

Один називається Hadoop, а інший - noSQL. Чим відрізняється точка обробки?

Вони доповнюють один одного?


3
Проголосували за відсутність науково-дослідних робіт. Hadoop і noSQL добре визначені в інших місцях.
Спайдермен

@Spacedman Я погоджуюся, але це був приклад запитання з Area51, тоді, якщо він не був видалений, перш ніж я думаю, що він дійсний, і, навіть, я знав відповідь, коли розміщую питання (принаймні загалом).
рüффп

Відповіді:


16

Hadoop - це не база даних , hadoop - це ціла екосистема.

екосистема Хадопа

Більшість людей будуть звертатися до картографування робочих місць під час розмови про hadoop. Завдання mapreduce розбиває великі набори даних на деякі невеликі шматки даних і розподіляє їх по кластеру вузлів, щоб продовжити. Зрештою, результат від кожного вузла буде зібраний знову як один набір даних.


Припустимо, ви завантажуєте в hadoop набір <String, Integer>з населенням деяких мікрорайонів у межах міста, і ви хочете отримати середню кількість населення в усіх кварталах кожного міста (рисунок 1).

Фігура 1

    [new york, 40394]
    [new york, 134]
    [la, 44]
    [la, 647]
    ...

Тепер hadoop спочатку відобразить кожне значення за допомогою клавіш (рисунок 2)

цифра 2

[new york, [40394,134]]
[la, [44,647]]
...

Після відображення воно зменшить значення кожної клавіші до нового значення (у цьому прикладі середнє значення набору значень кожної клавіші) (рисунок 3)

фіг.3

[new york, [20264]]
[la, [346]]
...

тепер hadoop би робився з усім. Тепер ви можете завантажити результат у HDFS (файлова система, що розподіляється hadoop), або в будь-яку СУБД або файл.

Це лише один дуже простий і простий приклад того, що може зробити hadoop. Ви можете виконувати набагато складніші завдання в hadoop.

Як ви вже згадували у своєму запитанні, hadoop та noSQL є взаємодоповнюючими. Я знаю декілька налаштувань, де мільярди наборів даних від датчиків зберігаються в HBase і проходять через hadoop, щоб нарешті зберігатись у СУБД.


5

NoSQL - це спосіб зберігання даних, який не вимагає наявності якихось відносин. Простота його дизайну та горизонтальна здатність до масштабування, одним із способів зберігання даних є key : valueпарний дизайн. Це піддається обробці, подібній Hadoop. Використання dB NoSQL дійсно залежить від типу проблеми, яка виникає.

Ось хороше посилання на вікіпедію NoSQL

Hadoop - це система, яка призначена для зберігання та обробки величезних фрагментів даних. Це dfs з розподіленою файловою системою. Причина цього полягає в тому, що головне в його дизайні - це припущення, що збої в апаратному забезпеченні є загальними, таким чином, роблячи кілька копій однієї інформації та поширюючи її на декілька машин та стелажів, тож, якщо один знизиться, немає проблем, мати ще два примірники. Ось чудове посилання для Hadoop також із Вікіпедії, ви побачите, що це, на мій погляд, більше, ніж просто зберігання, а й обробка: Hadoop

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.