Коли використовувати Hadoop, HBase, вулик та свиню?


185

Які переваги використання Hadoop або HBase або вулика ?

Наскільки я розумію, HBase уникає використання зменшення карт і має схоже на стовпчик сховище поверх HDFS. Hive - це інтерфейс, схожий на sql, для Hadoop та HBase .

Я також хотів би знати, як вулик порівнює зі Свині .


Hadoop : розподілена файлова система Hadoop + модель обчислювальної обробки MapReduce. HBase : сховище ключових значень, добре для читання та запису в реальному часі. Вулик : використовується для вилучення даних з HDFS за допомогою SQL-подібного синтаксису. Pig : є мовою потоку даних для створення ETL.
dbustosp

Відповіді:


348

MapReduce - це лише обчислювальна основа . HBase нічого спільного з цим не має. З огляду на це, ви можете ефективно розміщувати або отримувати дані в / з HBase, написавши завдання MapReduce. Крім того, ви можете писати послідовні програми, використовуючи інші API HBase, такі як Java, для розміщення або отримання даних. Але ми використовуємо Hadoop, HBase тощо для роботи з гігантськими обсягами даних, так що це не має особливого сенсу. Використання звичайних послідовних програм було б дуже неефективним, коли ваші дані занадто великі.

Повертаючись до першої частини вашого питання, Hadoop - це в основному 2 речі: розподілена файлова система (HDFS) + рамка обчислень або обробки (MapReduce) . Як і всі інші FS, HDFS також забезпечує нам зберігання, але у відмовостійці з високою пропускною здатністю та меншим ризиком втрати даних (через реплікацію). Але, будучи FS, HDFS не має доступу до випадкового читання та запису . Ось тут на малюнок входить HBase. Це розподілений, масштабований, великий сховище даних , за зразком BigTable від Google. Він зберігає дані як пари ключів / значень.

Приходьте до вулика. Він надає нам сховища даних поверх існуючого кластеру Hadoop. Поряд з цим він пропонує інтерфейс, подібний SQL, що полегшує вашу роботу, якщо ви приїжджаєте з фону SQL. Ви можете створювати таблиці у вулику та зберігати там дані. Поряд з цим ви навіть можете зіставити наявні таблиці HBase в вулик і оперувати ними.

У той час як Pig - це мова потоку даних, яка дозволяє нам обробляти величезну кількість даних дуже легко і швидко. Свиня в основному складається з 2 частин: Перекладач свиней та мова, PigLatin . Ви пишете скрипт Pig у PigLatin та обробляєте їх за допомогою інтерпретатора Pig. Свиня набагато полегшує наше життя, інакше писати MapReduce завжди непросто. Адже в деяких випадках це справді може стати болем.

Я писав статтю про коротке порівняння різних інструментів екосистеми Hadoop деякий час тому. Це не глибоке порівняння, а короткий вступ до кожного з цих інструментів, який може допомогти вам розпочати роботу. (Просто для доповнення до моєї відповіді. Не передбачається самореклама)

І запити Hive, і Pig перетворюються на завдання MapReduce під кришкою.

HTH


Ви забули поговорити про yarnекосистему
Хадооп

53

Нещодавно у своїй фірмі я впровадив платформу Hive Data і можу з нею говорити від першої особи, оскільки я був людиною, що працює в команді.

Об'єктивна

  1. Щоб щоденні файли веб-журналів збиралися з 350+ серверів, щодня підлягають запиту через деякі мови, подібні SQL
  2. Для заміни щоденних даних агрегації, створених через MySQL, на Hive
  3. Створюйте спеціальні звіти за запитами в вулику

Параметри архітектури

Я визначив такі варіанти:

  1. Вулик + HDFS
  2. Hive + HBase - запити були занадто повільними, тому я скидав цю опцію

Дизайн

  1. Файли щоденних журналів перевозяться до HDFS
  2. MR-завдання проаналізували ці файли журналу та вивели файли в HDFS
  3. Створіть таблиці вуликів з розділами та місцями, що вказують на HDFS- місця
  4. Створіть сценарії запитів Hive (називайте його HQL, якщо вам подобається відмінне від SQL ), які, у свою чергу, виконували завдання MR у фоновому режимі та генерували дані агрегації
  5. Введіть усі ці кроки в робочий процес Oozie - запланований разом із щоденним координатором Oozie

Підсумок

HBase - це як карта. Якщо ви знаєте ключ, ви можете негайно отримати значення. Але якщо ви хочете знати, скільки цілих ключів у Hbase становить від 1000000 до 2000000, що не підходить лише для Hbase .

Якщо у вас є дані, які потрібно зібрати, згорнути, проаналізувати по рядках, то розгляньте вулик .

Сподіваємось, це допомагає.

Вулик насправді скеля ... Я знаю, я прожив це вже 12 місяців ... Так і HBase ...


1
HBase - це база даних NonSQL, яка зберігає дані у форматі HDFS. Він використовується, коли вам потрібен випадковий доступ для читання / запису в реальному часі до великих даних.
Root Loop

28

Hadoop - це рамка, яка дозволяє розподіляти обробку великих наборів даних по кластерах комп'ютерів за допомогою простих моделей програмування.

У Hadoop є чотири основні модулі.

  1. Hadoop Common : загальні утиліти, які підтримують інші модулі Hadoop.

  2. Розподілена файлова система Hadoop ( HDFS ™ ): розподілена файлова система, що забезпечує доступ з високою пропускною здатністю до даних програми.

  3. Hadoop Пряжа : основи для планування робочих місць та управління ресурсами кластера.

  4. Hadoop MapReduce : Система, заснована на ПІВНІ для паралельної обробки великих наборів даних.

Перш ніж піти далі, зазначимо, що у нас є три різні типи даних.

  • Структуровані : Структуровані дані мають міцну схему, і схема буде перевірена під час операції запису та читання. наприклад Дані в таких системах RDBMS, як Oracle, MySQL Server тощо.

  • Неструктуровані : Дані не мають будь-якої структури, і вони можуть бути будь-якими формами - журнали веб-сервера, електронна пошта, зображення тощо.

  • Напівструктуровані : Дані не строго структуровані, але мають певну структуру. наприклад XML-файли.

Залежно від типу даних, що підлягають обробці, ми повинні вибрати правильну технологію.

Ще кілька проектів, які входять до Hadoop:

  • HBase ™ : масштабована, розподілена база даних, яка підтримує структуроване зберігання даних для великих таблиць.

  • Hive ™: інфраструктура сховища даних, яка забезпечує узагальнення даних та спеціальний запит.

  • Pig ™ : мова потоку даних високого рівня та структура виконання для паралельних обчислень.

Порівняння Hive Vs PIG можна знайти в цій статті та в моїй іншій публікації на це питання SE .

HBASE не замінить зменшення карт. HBase - це масштабована розподілена база даних, а Map Reduce - це модель програмування для розподіленої обробки даних. Зменшення карт може діяти на дані в HBASE при обробці.

Ви можете використовувати HIVE / HBASE для структурованих / напівструктурованих даних та обробляти їх за допомогою Hadoop Map Reduce

Ви можете використовувати SQOOP для імпорту структурованих даних із традиційної бази даних RDBMS Oracle, SQL Server тощо та обробляти їх за допомогою Hadoop Map Reduce

Ви можете використовувати FLUME для обробки неструктурованих даних та обробки за допомогою Hadoop Map Reduce

Погляньте на: випадки використання Hadoop .

Вулик слід використовувати для аналітичного запиту даних, зібраних за певний проміжок часу. наприклад, обчислюйте тенденції, підсумовуйте журнали веб-сайтів, але їх не можна використовувати для запитів у режимі реального часу.

HBase підходить для запиту великих даних у режимі реального часу. Facebook використовує його для обміну повідомленнями та в режимі реального часу.

PIG можна використовувати для побудови потоків даних, виконання запланованих завдань, стискання великих обсягів даних, агрегації / узагальнення та зберігання у системах баз даних. Добре підходить для спеціального аналізу.

Вулик можна використовувати для спеціального аналізу даних, але він не може підтримувати всі неструктуровані формати даних на відміну від PIG.


Facebook більше не використовує HBase з відкритим кодом для систем обміну повідомленнями в реальному часі. Вони замінили його власною службою [база даних Myrocks]. ( Engineering.fb.com/core-data/… )
ППК

23

Подумайте, що ви працюєте з RDBMS і вам потрібно вибрати, що використовувати - повне сканування таблиці або доступ до індексу - але лише один із них.
Якщо ви вибрали повне сканування таблиці - використовуйте вулик. Якщо доступ до індексу - HBase.


Насправді ви можете побудувати Hive на HBase, так що ви можете використовувати HQL для повного сканування hbase, маючи можливість робити індексований запит на hbase безпосередньо. Але я сумніваюся, що це дає вам повільнішу продуктивність при повному скануванні.
FrostNovaZzz

HBase - система, орієнтована на запис, вона не є оптимальною при скануванні, хоча дані зберігаються відсортованими. Тож сканування деяких діапазонів може бути хорошим вибором, повне сканування буде набагато повільніше, ніж безпосередньо з HDFS
David Gruzman

5

Для порівняння між Hadoop Vs Cassandra / HBase читайте цей пост .

В основному HBase дозволяє дійсно швидко читати і записувати з масштабуванням. Як швидко і масштабовано? Facebook використовує його для управління статусами своїх користувачів, фотографіями, повідомленнями в чаті і т.д.

Where As Hive більше нагадує рішення для зберігання даних. Ви можете використовувати синтаксис, подібний SQL, для запиту вмісту вулика, що призводить до завдання зменшення карти. Не ідеально підходить для швидких транзакційних систем.


5

Я працював над архітектурою Lambda, обробляючи в режимі реального часу та пакетні навантаження. Обробка в режимі реального часу потрібна, коли потрібно швидко приймати рішення у разі надсилання пожежної сигналізації за допомогою датчика або виявлення шахрайства у разі банківських операцій. Пакетна обробка потрібна для узагальнення даних, які можна подати в BI-системи.

ми використовували екосистемні технології Hadoop для наведених вище застосувань.

Обробка в режимі реального часу

Apache Storm: Потокова обробка даних, застосування правил

HBase: Магазин даних для обслуговування інформаційної панелі в реальному часі

Пакетна обробка Hadoop: стискає величезний фрагмент даних. 360 градусів огляд або додавання контексту до подій. Інтерфейси або рамки, такі як Pig, MR, Spark, Hive, Shark, допомагають в обчисленні. Цей шар потребує планувальника, для якого Oozie - хороший варіант.

Шар обробки подій

Apache Kafka був першим шаром, який споживав події з високою швидкістю від датчика. Kafka обслуговує як потоки даних в режимі реального часу, так і пакетної аналітики через роз'єми Linkedin.


5

Розуміння в глибині

Hadoop

Hadoop- проект із відкритим кодом Apacheфонду. Це рамка, написана Javaвперше, розроблена Дугом Різком у 2005 році. Він був створений для підтримки розповсюдження Nutchтекстової пошукової системи. Hadoopвикористовує технології Google Map Reduceта файлову систему Google як основу.

Особливості Hadoop

  1. Оптимізовано для обробки великої кількості структурованих, напівструктурованих та неструктурованих даних із використанням товарного обладнання.
  2. У ній архітектури немає нічого.
  3. Він реплікує свої дані на декілька комп'ютерів, так що якщо один знизиться, вони все ще можуть бути оброблені з іншої машини, яка зберігає його репліку.
  4. Hadoopпризначений для високої пропускної здатності, а не низької затримки. Це пакетна операція, що обробляє великі кількості даних; тому час реакції не є негайним.
  5. Він доповнює Інтернет-обробку транзакцій та Інтернет-аналітичну обробку. Однак це не є заміною для RDBMS.
  6. Це не добре, коли робота не може бути паралельною або коли в даних є залежності.
  7. Це не добре для обробки невеликих файлів. Найкраще він працює з величезними файлами даних та наборами даних.

Версії Hadoop

Доступні дві версії Hadoop:

  1. Hadoop 1.0
  2. Hadoop 2.0

Hadoop 1.0

Він має дві основні частини:

1. Рамка зберігання даних

Це файлова система загального призначення під назвою Hadoop Distributed File System (HDFS ).

HDFS не є схемою

Він просто зберігає файли даних, і ці файли даних можуть бути майже в будь-якому форматі.

Ідея полягає в тому, щоб зберігати файли якомога ближче до їх початкової форми.

Це, в свою чергу, надає бізнес-підрозділам та організації необхідну гнучкість та спритність, не надто переживаючи те, що вона може впровадити.

2. Рамка обробки даних

Це проста функціональна модель програмування, спочатку популяризована Google як MapReduce.

Він по суті використовує дві функції: MAPі REDUCEдля обробки даних.

"Mappers" приймають набір пар ключових значень і генерують проміжні дані (це ще один список пар ключ-значення).

Потім "Редуктори" діють на цьому вході для отримання вихідних даних.

Дві функції, здавалося б, працюють ізольовано одна від одної, завдяки чому обробку можна розподілити високо паралельно, відмовно і масштабується.

Обмеження Hadoop 1.0

  1. Першим обмеженням була вимога MapReduceекспертного досвіду програмування.

  2. Він підтримував лише пакетну обробку, яка хоч і підходить для таких завдань, як аналіз журналів, масштабні проекти видобутку даних, але в значній мірі непридатні для інших видів проектів.

  3. Одним з головних обмежень було те, що Hadoop 1.0було щільно обчислено, а MapReduceце означало, що створені постачальники управління даними не мали двох думок:

    1. Або перепишіть їх функціональність, MapReduceщоб він міг бути виконаний в Hadoopабо

    2. Витягнути дані HDFSабо обробити їх поза межами Hadoop.

Жоден із варіантів не був життєздатним, оскільки це призвело до неефективності процесу, спричиненої переміщенням даних у Hadoopкластер та поза ними .

Hadoop 2.0

В Hadoop 2.0,HDFS продовжує бути основою для зберігання даних.

Тим НЕ менше, новий і індивідуальний структура управління ресурсами називається Y і ін Вказати R esource N egotiater ( ПРЯЖІ ) був доданий.

YARN підтримує будь-яку програму, здатну розділити себе на паралельні завдання.

YARN координує розподіл підзадач поданої програми, тим самим додатково підвищуючи гнучкість, масштабованість та ефективність програм.

Це працює, якщо замість Job Tracker працює мастер додатків , який працює з додатками на ресурсах, керованих новим диспетчером вузлів .

ApplicationMaster здатний запускати будь-яку програму і не тільки MapReduce .

Це означає, що він підтримує не лише пакетну обробку, але й обробку в режимі реального часу. MapReduceбільше не є єдиним варіантом обробки даних.

Переваги Hadoop

Він зберігає дані рідною мовою від. Під час введення даних або зберігання даних жодна структура не накладається. HDFSсхема менше. Лише пізніше, коли дані потрібно обробляти, структура накладається на необроблені дані.

Це масштабується. Hadoopможе зберігати та поширювати дуже великі набори даних на сотні недорогих серверів, які працюють паралельно.

Він стійкий до відмови. Hadoopє відмовою. Він старанно практикує реплікацію даних, тобто кожен раз, коли дані надсилаються на будь-який вузол, ті самі дані також реплікуються в інші вузли кластеру, тим самим гарантуючи, що у разі виходу з ладу вузла завжди буде доступна інша копія даних, доступних для використання.

Він гнучкий. Однією з ключових переваг компанії Hadoopє те, що вона може працювати з будь-якими видами даних: структурованими, неструктурованими або напівструктурованими. Крім того, обробка надзвичайно швидка Hadoopзавдяки парадигмі "переміщення коду до даних".

Екосистема Hadoop

Нижче перелічені компоненти Hadoopекосистеми:

HDFS : Hadoopрозподілена файлова система. Він просто зберігає файли даних максимально наближені до початкової форми.

HBase : Це база даних Hadoop і добре порівнює з an RDBMS. Він підтримує структуроване зберігання даних для великих таблиць.

Вулик : Це дозволяє проводити аналіз великих наборів даних за допомогою мови, дуже подібної до стандартної ANSI SQL, що означає, що кожен, хто знає, SQLповинен мати доступ до даних на Hadoopкластері.

Свиня : це легко зрозуміти мову потоку даних. Це допомагає при аналізі великих наборів даних, що цілком впорядковано Hadoop. Pigсценарії автоматично перетворюються на MapReduceзавдання Pigперекладачем.

ZooKeeper : Це служба координації розподілених додатків.

Oozie : Це schedularсистема робочих процесів для управління Hadoopроботами Apache .

Mahout : Це масштабована бібліотека машинного навчання та обміну даними.

Чуква : Це система збору даних для управління великою розподіленою системою.

Sqoop : використовується для передачі об'ємних даних між Hadoopструктурованими сховищами даних, такими як реляційні бази даних.

Амбарі : Це веб-інструмент для забезпечення, керування та моніторингу Hadoopкластерів.

Вулик

Hive є інструментом інфраструктури сховища даних для обробки структурованих даних в Hadoop . Він розташований на вершині, Hadoopщоб узагальнити великі дані, а запити та аналіз спрощуються.

Вулик ні

  1. Реляційна база даних

  2. Дизайн для обробки веб-транзакцій (OLTP ).

  3. Мова для запитів у режимі реального часу та оновлень на рівні рядків.

Особливості вулика

  1. Він зберігає схему в базі даних та обробляє дані в HDFS .

  2. Він призначений для OLAP.

  3. Він надає SQLмову типу для запиту під назвою HiveQLабо HQL.

  4. Це звичне, швидке, масштабоване та розширюване.

Архітектура вуликів

Наступні компоненти містяться в архітектурі вуликів:

  1. Інтерфейс користувача : Hiveце data warehouseінфраструктура, яка може створювати взаємодію між користувачем та користувачем HDFS. Користувацькі інтерфейси, які Hiveпідтримують, - це інтерфейс інтерфейсу Hive, командна лінія Hive та Hive HD Insight (у Windows Server).

  2. MetaStore : Hiveвибирає відповідну database serversдля зберігання схеми або Metadataтаблиць, баз даних, стовпців у таблиці, їх типів даних та HDFSвідображення.

  3. HiveQL Process Engine : HiveQLподібний до SQLзапитів на інформацію про схему в Metastore. Це одна із замін традиційного підходу до MapReduceпрограми. Замість того , щоб писати MapReduceв Java, ми можемо написати запит дляMapReduce і обробити його.

  4. Двигун винятку : сполучна частина HiveQLтехнологічного двигуна MapReduceє двигуном Hiveвиконання. Двигун виконання обробляє запит і генерує результати такі ж, як і MapReduce results. Він використовує аромат MapReduce.

  5. HDFS або HBase : Hadoopрозподілена файлова система або HBaseє методами зберігання даних для зберігання даних у файловій системі.


1

Перш за все, нам слід зрозуміти, що Hadoop був створений як більш швидка альтернатива RDBMS . Обробляти велику кількість даних з дуже швидкою швидкістю, яка раніше забирала багато часу в RDBMS.

Тепер слід знати два терміни:

  1. Структуровані дані : Це дані, які ми використовували в традиційних RDBMS і розділені на чітко визначені структури.

  2. Неструктуровані дані : Це важливо, щоб зрозуміти, що близько 80% світових даних є неструктурованими або напівструктурованими. Це дані, які знаходяться в необробленому вигляді і не можуть бути оброблені за допомогою RDMS. Приклад: дані facebook, twitter. ( http://www.dummies.com/how-to/content/unstructured-data-in-a-big-data-environment.html ).

Отже, протягом останніх кількох років було створено велику кількість даних, а дані були переважно неструктурованими, що породило HADOOP. В основному він використовувався для дуже великого обсягу даних, який забирає нездійсненну кількість часу за допомогою RDBMS. У нього було багато недоліків, що вони не могли використовуватися для порівняно невеликих даних у режимі реального часу, але їм вдалося усунути його недоліки в новій версії.

Перш ніж піти далі, я хотів би сказати, що новий інструмент Big Data створюється, коли вони бачать несправності в попередніх інструментах. Отже, який би інструмент ви не побачили, що було створено для подолання проблеми попередніх інструментів.

Hadoop можна сказати просто як дві речі: Mapreduce та HDFS . Mapreduce - це місце, де відбувається обробка, а HDFS - це база даних, де зберігаються дані. Ця структура слідує принципу WORM, тобто записуйте один раз прочитане кілька разів. Отже, коли ми зберігаємо дані в HDFS, ми не можемо вносити зміни. Це призвело до створення HBASE , продукту NOSQL, де ми можемо внести зміни в дані також після того, як один раз їх записати.

Але з часом ми побачили, що у Hadoop було багато несправностей, і для цього ми створили різні середовища над структурою Hadoop. PIG і HIVE - це два популярні приклади.

HIVE створений для людей із фоном SQL . Написані запити схожі на SQL з назвою HIVEQL . HIVE був розроблений для обробки повністю структурованих даних . Він не використовується для структурованих даних.

PIG, з іншого боку, має власну мову запиту, тобто PIG LATIN . Він може використовуватися як для структурованих, так і для неструктурованих даних .

Переходячи до різниці, коли використовувати HIVE і коли використовувати PIG, я не думаю, що хто-небудь, крім архітектора PIG, може сказати. Перейдіть за посиланням: https://developer.yahoo.com/blogs/hadoop/comparing-pig-latin-sql-constructing-data-processing-pipelines-444.html


1

Hadoop:

HDFS розшифровується як розподілена файлова система Hadoop, яка використовує модель обчислювальної обробки Map-Reduce.

HBase:

HBase - це ключове значення для зберігання та письма в реальному часі.

Вулик:

Вулик використовується для вилучення даних з HDFS за допомогою SQL-подібного синтаксису. У вулику використовують мову HQL.

Свиня:

Pig - мова потоку даних для створення ETL. Це сценарна мова.


0

Дозвольте спробувати відповісти кількома словами.

Hadoop - екосистема, яка складається з усіх інших інструментів. Отже, ви не можете порівняти Hadoop, але ви можете порівняти MapReduce.

Ось мої кілька центів:

  1. Вулик: Якщо ваша потреба дуже SQLish, тобто ваш вислів проблеми може бути задоволений SQL, то найпростіше зробити це Hive. Інший випадок, коли ви використовуєте вулик, - це коли ви хочете, щоб сервер мав певну структуру даних.
  2. Свиня: Якщо вам подобається латинська свиня, і вам потрібно більше каналів передачі даних. Також у ваших даних бракує структури. У цих випадках ви можете використовувати Pig. Чесно кажучи, різниця між Hive & Pig щодо випадків використання не велика.
  3. MapReduce: Якщо вашу проблему неможливо вирішити за допомогою прямого використання SQL, спершу слід спробувати створити UDF для Hive & Pig, а потім, якщо UDF не вирішує проблему, потім зробити це через MapReduce має сенс.

0

Свиня: краще обробляти файли та прибирати дані приклад: видалення нульових значень, обробка рядків, непотрібні значення вулик: для запитів на очищені дані


0

1.Ми використовуємо Hadoop для зберігання великих даних (тобто структури, даних про структуру та семіструктуру) у форматі файлу форми, наприклад txt, csv.

2.Якщо ми хочемо стовпчастих оновлень у своїх даних, тоді ми використовуємо інструмент Hbase

3.У випадку з вуликом ми зберігаємо великі дані, які є в структурованому форматі, і на додаток до цього ми надаємо аналіз цих даних.

4.Pig - це інструмент, який використовує латинську мову Pig для аналізу даних, що є у будь-якому форматі (структура, напівструктура та неструктура).


0

Очищення даних у Свині дуже легко, підходящим підходом буде очищення даних через свиню, а потім обробка даних через вулик і пізніше їх завантаження в hdfs.


0

Використання вулика, хабара та свині - це мій досвід у реальному часі у різних проектах.

Вулик використовується в основному для:

  • Ціль Analytics, де потрібно зробити аналіз даних історії

  • Створення бізнес-звітів на основі певних стовпців

  • Ефективне управління даними разом із інформацією про метадані

  • Об'єднання таблиць на певних стовпцях, які часто використовуються з використанням концепції ковзання

  • Ефективне зберігання та запити за допомогою концепції розділення

  • Не корисно для операцій на рівні транзакцій / рівнів, таких як оновлення, видалення тощо.

Свиня в основному використовується для:

  • Частий аналіз даних про величезні дані

  • Генерування агрегованих значень / розраховує на величезні дані

  • Створення ключових показників ефективності на рівні підприємства дуже часто

Hbase в основному використовується:

  • Для обробки даних у режимі реального часу

  • Для ефективного управління складною та вкладеною схемою

  • Для запитів у реальному часі та швидшого результату

  • Для легкої масштабованості за допомогою стовпців

  • Корисно для операцій на рівні транзакцій / рядків, таких як оновлення, видалення тощо.


0

Коротка відповідь на це питання -

Hadoop - це рамка, яка полегшує розподілену файлову систему та модель програмування, що дозволяє нам зберігати дані з великим розміром і обробляти дані в розподіленому вигляді дуже ефективно та з дуже меншим часом обробки порівняно з традиційними підходами.

(HDFS - розподілена файлова система Hadoop) (Зменшення карти - Модель програмування для розподіленої обробки)

Вулик - це мова запитів, яка дозволяє читати / записувати дані з розподіленої файлової системи Hadoop у дуже популярному SQL, наприклад. Це полегшило життя багатьом фоновим людям, які не програмують, оскільки їм більше не потрібно писати програму зменшення карт, за винятком дуже складних сценаріїв, коли вулик не підтримується.

Hbase - це стовпчаста база даних NoSQL. Основним шаром зберігання для Hbase знову є HDFS. Найважливіший випадок використання цієї бази даних - це можливість зберігати мільярди рядків з мільйонами стовпців. Функція Hbase з низькою затримкою допомагає швидшому та випадковому доступу до запису над розподіленими даними, є дуже важливою особливістю, щоб зробити її корисною для складних проектів, таких як двигуни рекомендацій. Крім того, можливість редагування рівня записів дозволяє користувачеві зберігати дані транзакцій дуже ефективно (це вирішує проблему оновлення записів у нас із HDFS та Hive)

Сподіваємось, це корисно для швидкого розуміння вищезгаданих 3 особливостей.


0

Я вважаю, що ця нитка не зробила особливої ​​справедливості для HBase та Pig, зокрема. Хоча я вважаю, що Hadoop - це вибір розподіленої, стійкої файлової системи для реалізацій озера великих даних, вибір між HBase та Hive особливо добре розділений.

Як і в багатьох випадках використання конкретних вимог інтерфейсів типу SQL або No-SQL. Якщо Phoenix на вершині HBase, хоча можливості, подібні SQL, безумовно досяжні, однак, продуктивність, сторонні інтеграції, оновлення інформаційної панелі є своєрідним болючим досвідом. Однак це відмінний вибір для баз даних, які потребують горизонтального масштабування.

Свиня, зокрема, чудова для нерекурсивної партії, наприклад, для обчислень або трубопроводів ETL (десь там, де вона перевершує Іскру на зручній відстані). Крім того, це реалізація потоку даних високого рівня - відмінний вибір для пакетного запиту та сценаріїв. Вибір між Pig та Hive також визначається потребою клієнта чи сервера, сценаріїв, необхідних форматів файлів тощо. Pig підтримує формат файлів Avro, що не стосується випадку Hive. Вибір для "процедурної мови передачі даних" проти "декларативної мови потоку даних" також є вагомим аргументом для вибору між свинею та вуликом.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.