Як ви правильно зазначаєте, в наші дні "великі дані" - це те, що кожен хоче сказати, що має, що тягне за собою певну нещільність у тому, як люди визначають цей термін. Однак, як правило, я б сказав, що ви, звичайно, маєте справу з великими даними, якщо масштаб такий, що керувати більш традиційними технологіями, такими як RDBMS, принаймні неможливо, принаймні, не доповнюючи їх такими технологіями великих даних, як Hadoop.
Наскільки насправді мають бути ваші дані для того, щоб це було так, є дискусійним. Ось (дещо провокаційний) пост у блозі, який стверджує, що насправді це не так для менш ніж 5 ТБ даних. (Щоб було зрозуміло, він не стверджує, що "менше 5 ТБ - це не великі дані", а просто "Менше 5 ТБ недостатньо велике, що вам потрібно Hadoop".)
Але навіть у менших наборах даних великі технології даних, такі як Hadoop, можуть мати інші переваги, включаючи те, що вони добре підходять для пакетних операцій, добре грають з неструктурованими даними (а також з даними, структура яких не відома заздалегідь або можуть змінитися), горизонтальна масштабованість ( масштабування, додаючи більше вузлів замість покращення існуючих серверів) та (як один із коментаторів вищезазначених поштових приміток) можливість інтегрувати обробку даних із зовнішніми наборами даних (подумайте про зменшення карти, де відображається здійснює дзвінок на інший сервер). Інші технології, пов’язані з великими даними, такі як бази даних NoSql, підкреслюють швидку продуктивність та постійну доступність під час роботи з великими наборами даних, а також здатні обробляти напівструктурні дані та масштабувати горизонтально.
Звичайно, традиційні RDBMS мають свої переваги, включаючи гарантії кислотних кислот (Atomicity, Consistency, Isolation, Durability) та кращі показники для певних операцій, а також більш стандартизовані, зріліші та (для багатьох користувачів) більш звичні. Тож навіть для безперечно "великих" даних може бути доцільним завантаження хоча б частини ваших даних у традиційну базу даних SQL та використання її у поєднанні з великими технологіями передачі даних.
Отже, більш щедрим визначенням буде те, що у вас є великі дані, якщо вони досить великі, що технології великих даних надають вам додаткову вартість. Але, як ви бачите, це може залежати не тільки від розміру ваших даних, але і від того, як ви хочете працювати з ними, і яких вимог ви маєте щодо гнучкості, послідовності та продуктивності. Як ви використовуєте ваші дані більш безпосереднє відношення до питання , ніж те , що ви використовуєте його для (наприклад , інтелектуального аналізу даних). Однак, такі випадки, як обробка даних та машинне навчання, швидше дають корисні результати, якщо у вас є достатньо великий набір даних для роботи.