Що таке Hadoop і для чого він використовується? [зачинено]


28

Я деякий час насолоджувався читанням ServerFault, і натрапив на досить багато тем на Hadoop. У мене були невеликі труднощі з з’ясуванням того, що це робить з глобальної точки зору.

Тож моє запитання досить просте: що таке Hadoop? Що це робить ? Для чого він використовується? Чому б'є дупа?

Редагувати: Якщо у когось трапляються демонстрації / пояснення випадків використання, в яких використовувався Hadoop, це було б фантастично.


Facebook сильно використовує Hadoop (ну справді вулик, який є шаром на вершині Hadoop). На сторінці інженерії у Facebook є хороший запис про це. facebook.com/note.php?note_id=89508453919
John Meagher

Hadoop - це структура, яка робить обробку великого обсягу даних ( Big data ) простою, розподіляючи кластери даних між вузлами / серверами та роблячи процес паралельним. Цей процес / алгоритм відомий як MapReduce.
Mr_Green

Відповіді:


26

Прямо з уст коня :

Hadoop - це основа для запуску програм на великих кластерах, побудованих з товарного обладнання. Рамка Hadoop прозоро забезпечує додаткам і надійність, і рух даних. Hadoop реалізує обчислювальну парадигму під назвою Map / Reduce, де додаток розділено на безліч невеликих фрагментів роботи, кожен з яких може бути виконаний або повторно виконаний на будь-якому вузлі кластера. Крім того, вона забезпечує розподілену файлову систему (HDFS), яка зберігає дані про обчислювальні вузли, забезпечуючи дуже високу сукупну пропускну здатність у кластері. І Map / Reduce, і розподілена файлова система розроблені таким чином, що збої вузлів автоматично обробляються рамкою.

Map / Reduce - парадигма програмування, популярна Google, де завдання розбивається на невеликі порції та розподіляється на велику кількість вузлів для обробки (карта), а результати потім підсумовуються до остаточної відповіді (зменшити ). Google та Yahoo використовують це для своїх пошукових технологій, серед іншого.

Hadoop - це загальна основа для реалізації подібної схеми обробки. Що стосується того, чому він б'є попку, здебільшого тому, що він надає акуратні функції, такі як відмовостійкість і дозволяє зблизити майже будь-яке обладнання для обробки. Він також масштабує надзвичайно добре, якщо ваша проблема відповідає парадигмі.

Ви можете прочитати все про це на веб-сайті .

Що стосується деяких прикладів, то Павло наводив декілька, але ось ще декілька, які ви можете зробити, не такі вже орієнтовані на веб:

  • Надання 3D-фільму. Крок "map" розподіляє геометрію для кожного кадру на інший вузол, вузли надають його, а виведені кадри рекомбінують на кроці "зменшення".
  • Обчислення енергії в системі в молекулярній моделі. Кожен кадр системної траєкторії розподіляється на вузол на кроці "map". Вузли обчислюють енергію для кожного кадру,
    а потім результати підсумовуються на кроці "зменшення".

По суті, модель дуже добре справляється з проблемою, яка може бути розбита на аналогічні дискретні обчислення, які є абсолютно незалежними і можуть бути рекомбіновані для отримання кінцевого результату.


Спасибі за вашу відповідь. Отже, в основному це займає додатки (PHP? Java?), І це розбиває їх і розсилає роботу між купою вузлів? Що стосується HDFS, це схоже на OCFS, за винятком купи вузлів?
Антуан Бенкемун

Зацікавлені в цьому також. Мені хотілося б побачити кілька конкретніших, реальних прикладів слів.
Кароліс Т.

Це те, що я шукав також :-)
Антуан Бенкемун

10

У Cloudera є кілька чудових відео, які пояснюють принципи, які стоять за програмою Map Reduce та Hadoop.

http://www.cloudera.com/hadoop-training-basic

Однією з головних ідей MapReduce є те, що для великих наборів даних ви будете пов'язані на своїх дисках, тому Hadoop HDFS надає можливість розділяти речі між великими вузлами, що дозволяє паралельну обробку.

Деякі способи використання Hadoop, що цікавлять системних адміністраторів, часто стосуються обробки великих наборів файлів журналів - я можу розміщувати лише одне посилання, але до них належить, google повинен знайти такі:

  1. Запит журналу електронної пошти Rackspace
  2. Аналіз журналу Apache зі свинею - див. Блог Cloudera
  3. Yahoo! боротися зі спамом

Виглядає добре, я
погляну

1

Спочатку hadoop розроблений для великої кількості наборів даних у середовищі OLAP.

З впровадженням Hbase поверх hadoop, тростину також використовуватимуть для обробки OLAP. Hadoop - це рамка з усіма підкомпонентами, такими як map map, hdfs, hbase, pig.

Якщо знайдете статтю з основою hadoop в " Чому Hadoop" .

У Hadoop зберігання даних у вигляді файлів, а не в таблицях, стовпцях.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.