Що таке визначення "великі дані"?


23

Є такий?

Усі визначення, які я можу знайти, описують розмір, складність / різноманітність або швидкість даних.

Визначення Вікіпедії - це єдине, що я знайшов із фактичним числом

Великі розміри даних - це ціль, що постійно рухається, станом на 2012 рік - від кількох десятків терабайт до багатьох петабайт даних в одному наборі даних.

Однак це, здавалося б, суперечить визначенню MIKE2.0 , на яке посилається в наступному параграфі, що вказує на те, що "великі" дані можуть бути невеликими і що 100 000 датчиків на літаку, що створює лише 3 ГБ даних, можна вважати великими.

IBM, незважаючи на те, що:

Великі дані - це просто питання, ніж питання розміру.

підкреслили розмір у своєму визначенні .

О'Рейлі також наголосив "volume, velocity and variety" . Хоча це пояснено добре і більш глибоко, визначення, здається, є повторним хеш-рештом інших - або навпаки, звичайно.

Я думаю, що заголовок статті Computer Weekly досить добре підсумовує ряд статей "Що таке великі дані та як їх можна використовувати для отримання конкурентної переваги" .

Але ZDNet виграє наступне з 2012 року :

"Великі дані" - це виразна фраза, яка вибухнула з високоефективної комп'ютерної ніші ІТ-ринку ... Якщо ви можете прочитати презентації десяти постачальників технологій, ймовірно, вийдуть п'ятнадцять чи більше різних визначень. Кожне визначення, звичайно, має тенденцію підтримувати потребу в продуктах та послугах цього постачальника. Уяви це.

В основному "великі дані" є "великими" певним чином або формою.

Що таке "великий"? Чи можна його оцінити в поточний час?

Якщо "великий" неможливо оцінити, чи існує визначення, яке не покладається лише на загальні положення?


7
"Що таке" велике "? Чи можна його оцінити в даний час?". Звичайно. Велике - це більше, ніж ви можете впоратися в даний час;)
Одід

1
@ Додано, то вам потрібно буде визначити "обробляти" тоді :-).
Бен

14
Якщо ви повинні запитати, ваш не достатньо великий, щоб рахувати. ;)
FrustratedWithFormsDesigner

@Ben - Це визначено по-різному для кожної людини та системи ...
Одід

4
"Велике", швидше за все, відноситься до "важкого в обробці". Достатньо, щоб не вміститися в пам'яті, поповнити диск, зайняти час для передачі по мережі тощо

Відповіді:


42

Немає жодної; це казкове слово.

Розмежувачем є те, що ваші дані виходять за межі можливостей традиційних систем. Дані занадто великі для зберігання на найбільшому диску, запити займають тонни занадто довго без спеціальної оптимізації, мережа чи диск не можуть підтримувати потік вхідного трафіку; звичайний старий огляд даних не збирається обробляти візуалізацію для форми / розмір / ширина даних ...

В основному, ваші дані виходять за межі певної точкової точки, коли "просто додайте більше апаратних засобів" не збирається їх зменшувати.


+1 і більше, те, що вважається "великим", завжди змінюється в міру того, як поліпшується апаратне забезпечення, а попередньо налаштовані інструменти стають зрілими, стандартизованими та продаються комерційно для вирішення подібних проблем.
FrustratedWithFormsDesigner

Іншими словами: ні, ні ідея, ні, ні :-).
Бен

Крім того, перш ніж великі дані стали великою справою, багато компаній і науково-дослідних інститутів вже робили великі дані. Лише тепер, коли всі проблеми з великими даними в соціальних мережах та в Інтернеті стали більш головними.
Пол Хіемстра

2

Як зазначено у посиланні Oracle (коментар Іммада Керема) oracle.com/us/technologies/big-data/index.html. Big Data - це все, що не є реляційними даними, що зберігаються в RDBMS. Кілька років до ажіотажу було просто "багато даних". Тепер він зростав і його рекламували маркетологи, щоб вони були якимись спеціальними даними.

Існує кілька вторинних причин (крім маркетингу), щоб вважати Big Data справжніми.

  1. Винахід зменшення карт
  2. Такі технології NOSQL, як Hadoop
  3. Деяка еволюція в традиційних RDBMS впливала на вимогу неструктурованих типів даних
  4. Можливо, деякі апаратні технології, пропоновані корпорацією EMC2

2
"Винахід зменшення карти"? Ви повинні жартувати.
Теластин

1
"Все, що не є реляційними даними" - це визначення, яке могло б походити лише від когось, орієнтованого на RDB, як Oracle (і це неправильно). Згідно з цим визначенням, кожен індекс SolR, кожна база даних MongoDB і кожна БД Берклі є "великими даними". І це просто нерозумно.
Йоахім Зауер

0

Використовуючи відповідь Дуга Лейні як вихідну точку, ми переробили інженерний перелік визначень великих даних, яких вже понад 30, і вони процвітають. Наш перелік визначень для "великих даних" розміщено тут .

Ми вітаємо виправлення, записи, графіку тощо.


-1

Чудово бачити, що О'Рейлі та інші нарешті зачепилися за великі дані Gartner, які ми вперше представили понад 11 років тому. Для довідки, ось оригінальний твір, який я написав у 2001 році: http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ .

Нещодавно оновлене визначення Gartner також визнає ціннісний аспект: "Великі дані - це інформаційні активи з обсягами, швидкістю та / або різноманітністю, що потребують інноваційних форм обробки інформації для розширеного пошуку інформації, прийняття рішень та автоматизації процесів".

Ми також розробили метод кількісної оцінки величини даних за трьома векторами, які є приписуючими щодо прийняття технологій. Однак я не можу цим поділитися публічно.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.