Що саме є великими даними?


44

Мені кілька разів задавали таке питання:

Що таке Big-Data?

Як студентами, так і моїми родичами, які переживають інформацію про статистику та ML.

Я знайшов цей CV-пост . І я відчуваю, що згоден з єдиною відповіддю там.

Сторінка Вікіпедії також має деякі коментарі до цього, але я не впевнений, чи дійсно я згоден з усім там.

EDIT: (Я відчуваю, що на сторінці Вікіпедії бракує пояснень щодо методів вирішення цього питання та парадигми, яку я згадую нижче) .

Нещодавно я відвідував лекцію Еммануеля Кандеса , де він представив парадигму Big-Data як

Спочатку збирайте дані Задайте питання пізніше

Це головна відмінність від досліджень, орієнтованих на гіпотези, де спочатку формулюєте гіпотезу, а потім збираєте дані, щоб сказати про неї щось.

Він багато зайнявся питаннями кількісної оцінки надійності гіпотез, породжених під час прослуховування даних. Головне, що я вийняв з його лекції, це те, що нам дійсно потрібно почати контролювати FDR, і він представив метод knockoff для цього.

Я думаю, що в резюме повинно виникнути питання про те, що таке Big-Data та яке ваше визначення щодо нього. Я відчуваю, що існує стільки різних "визначень" , що важко реально зрозуміти, що це таке, або пояснити це іншим, якщо немає загального консенсусу щодо того, з чого він складається.

Я вважаю, що "визначення / парадигма / опис", яке надає Candès, - це найближче, про що я погоджуюся, які ваші думки?

EDIT2: Я вважаю, що відповідь має дати щось більше, ніж просто пояснення самих даних. Це має бути поєднання даних / методів / парадигми.

EDIT3: Я вважаю, що це інтерв'ю з Майклом Джорданом також може щось додати до столу.

EDIT4: Я вирішив обрати найбільш правильну відповідь. Хоча я думаю, що всі відповіді щось додають до дискусії, і я особисто вважаю, що це більше питання парадигми того, як ми генеруємо гіпотези та працюємо з даними. Я сподіваюсь, що це запитання послужить пулом посилань для тих, хто шукає, що таке Big-Data. Я сподіваюся, що сторінка Вікіпедії буде змінена, щоб додатково наголосити на проблемі багаторазового порівняння та контролю FDR.


55
"Великі дані - це як секс для підлітків. Усі говорять про це, ніхто насправді не знає, як це зробити. Всі думають, що всі інші це роблять, тому всі стверджують, що роблять це". Саймон Меттьюз
Олександр Луценко

4
ця цитата більше не діє. Останнім часом люди творять багато неординарних робіт. Якщо ви подивитеся на змагання на Kaggle, компанії вдосконалюють свій бізнес і заробляють багато грошей, витрачаючи не багато грошей. Інші приклади для застосування Big Data можна знайти тут: linkedin.com/pulse/…
Менаріат

5
@XuanQuangDO, я згоден. Не сприймайте цю цитату всерйоз.
Олександр Луценко

6
@XuanQuangDO: ну, я впевнений, що деякі підлітки займаються надзвичайним сексом, але це не змінює факту, що навколо також багато некомпетентних або неправильно хитаються, з яких люди безжально знущаються ;-)
Стів Джессоп,

Відповіді:


54

Я мав задоволення відвідати лекцію доктора Хедлі Вікхема про славу RStudio. Він визначив це таким, що

  • Великі дані: Не вдається вписатись у пам'ять на одному комп’ютері:> 1 ТБ
  • Середні дані: вміщається в пам'яті на сервері: 10 ГБ - 1 ТБ
  • Невеликі дані: вміщається в пам'яті на ноутбуці: <10 Гб

Хедлі також вважає, що більшість даних можна принаймні звести до керованих проблем, і що дуже невелика кількість насправді є справжніми великими даними. Він позначає це "великим міражем даних".

  • 90% Може бути зведено до малої / середньої проблеми даних із підмножиною / вибіркою / узагальненням
  • 9% Можна звести до дуже великої кількості дрібних проблем з даними
  • 1% невиправдано великий

Слайди можна знайти тут .


2
@ GuðmundurEinarsson, я щойно його відредагував, дякую за пропозицію.
Кріс С

5
Хоча я не думаю, що чіткі межі існують, я вважаю, що цей пост є дуже проникливим. Коли я працював у компанії SW, я спілкувався з чималою кількістю клієнтів, які шукали «рішення великих даних »; насправді вони пропустили 16 ГБ SODIMM.
usεr11852 повідомляє Відновити Моніку

2
На сьогоднішній день на SSD 1 ТБ енергонезалежне сховище не надто далеко за мінливим сховищем. Мені здається, я б очікував, що великі дані будуть більшими за 1 ТБ, можливо, принаймні 50 ТБ або щось таке.
Мехрдад

3
Зважаючи на вас та Хедлі, дані ставок стосуються не лише обсягу. Зазвичай дані ставок визначаються за допомогою 3V, а останнім часом 4V моделі (запропонованої Gartner) - див. Відповідь Dawny33 нижче. Однак деякі експерти (в тому числі від Gartner) вважають ще одним, і вони стверджують найважливіший V-вимір, де V означає бізнес-цінність . Наприклад, зверніться до цієї публікації та до цієї публікації .
Олександр Блех

2
@AleksandrBlekh Ваш коментар містить як нюансову дискусію щодо суперечок щодо критеріїв "великих даних" серед експертів, так і деякі посилання на підтвердження ваших тверджень щодо цього. Я думаю, що вам слід розглянути можливість перетворення її у відповідь.
Срібна рибка

19

Набір даних / потік називається Big Data, якщо він задовольняє всі чотири V

  • Обсяг
  • Швидкість
  • Правда
  • Різноманітність

Якщо цей параметр не задоволений, набір даних не можна називати великими даними.

Аналогічна моя відповідь, для довідки.


Сказавши це, як науковець даних; Мені здається, що карта-скорочення є дуже приємною. Розбиття даних, їх відображення, а потім результати кроку картографування зводяться до єдиного результату. Я вважаю цю рамку дійсно захоплюючою, і як вона отримала користь у світі даних.

Ось декілька способів, як я щодня вирішую проблему даних під час своєї роботи:

  1. Стовпчасті бази даних: Це користь для науковців даних. Я використовую Aws Red Shift як свій стовпчастий сховище даних. Це допомагає виконувати складні запити SQL і приєднує менше болю. Я вважаю це дійсно добре, особливо коли моя команда з питань росту задає кілька справді складних питань, і мені не потрібно говорити "Так, запустили запит; ми отримаємо його за день!"
  2. Іскра та рамка скорочення карти: причини були пояснені вище.

Ось як проводиться експеримент з даними:

  • Проблема, на яку потрібно відповісти, визначена
  • Зараз перелічені можливі джерела даних.
  • Трубопроводи призначені для отримання даних у Redshift з локальних баз даних. Так, Іскра приходить сюди. Це дійсно корисно під час руху даних DB -> S3 -> Redshift.
  • Потім запити та SQL-аналіз виконуються на даних Redshift.

Так, існують такі алгоритми великих даних, як гіперлогічний журнал тощо; але я не знайшов необхідності їх використовувати.

Отже, так. Дані збираються спочатку перед формуванням гіпотези.


5
Я погоджуюся з цими речами, але думаю, що термін Big Data охоплює щось більше, ніж самі дані. Це також застосовані до нього методи та парадигма першого збору даних перед створенням гіпотез про них.
Гумео

1
@ GuðmundurEinarsson я поспішав, тому хотів за короткий час дати тобі найкращу відповідь. Отже, я зараз відредагував і розширив його за допомогою робочого процесу та розумінь із щоденного досвіду з великими даними в галузі.
Зорі33

1
Чотири V тут інвертуються як визначення великих даних, а не як важливі помітні властивості великих даних. Багато прикладів можна зробити з великих даних без декількох з цих 4, а деякі навіть перелічені в інфографіці IBM.
Джон

@John Так, V справді сильно змінюються. Є також аргумент для нового V ( Value )
Dawny33

1
Я не кажу, що вони змінюються, я кажу, що ви неправильно перетворюєте опис деяких властивостей у визначення. Це як би хтось описував їм важливі речі про собаку, як вірність, сміх та облизування, а хтось інший підійшов і сказав, що це визначення собаки. З цього приводу я думаю, що ви були більше на правильному шляху, розглядаючи можливість змінити напрямок аналізу, але його потрібно певним чином прив’язати до розміру даних. Я думаю, що існує багато хороших способів зробити це, і було б чудово, якби ви розробили його.
Джон

14

Я думаю, що єдине корисне визначення великих даних - це дані, які каталогізують всю інформацію про певне явище. Я маю на увазі під цим те, що замість того, щоб брати відбір проб з певної сукупності, що цікавить, і збирати деякі вимірювання для цих одиниць, великі дані збирають вимірювання для всієї сукупності, що цікавить. Припустимо, вас цікавлять клієнти Amazon.com. На Amazon.com цілком можливо зібрати інформацію про всі покупки їхніх клієнтів, а не лише відстежувати деяких користувачів або лише відстежувати деякі транзакції.

На мій погляд, визначення, які залежать від розміру пам'яті самих даних, мають дещо обмежену корисність. За цією метрикою, враховуючи достатньо великий комп'ютер, жодні дані насправді не є великими даними. На відміну від нескінченно великого комп’ютера, цей аргумент може здатися вичерпним, але розглянемо випадок порівняння мого ноутбука з споживчим рівнем із серверами Google. Зрозуміло, що у мене виникнуть величезні логістичні проблеми при спробі просіювання терабайт даних, але Google має ресурси для того, щоб легко виконати це завдання. Що ще важливіше, розмір вашого комп’ютера не є сутнісним властивістю даних , тому визначення даних суто посиланням на будь-яку технологію, яка є у вас під рукою, схоже на вимірювання відстані з точки зору довжини ваших рук.

Цей аргумент не просто формалізм. Необхідність у складних схемах паралелізації та розподілених обчислювальних платформ зникає, коли у вас є достатня обчислювальна потужність. Отже, якщо ми приймаємо визначення, що Big Data є занадто великим, щоб вписатися в оперативну пам’ять (або виходить з ладу Excel чи будь-що інше), то після оновлення наших машин Big Data припиняє своє існування. Це здається дурним.

Але давайте подивимося на деякі дані про великі дані, і я назву це "Великі метадані". У цьому дописі в блозі спостерігається важлива тенденція: наявна оперативна пам’ять зростає швидше, ніж розміри даних, і провокаційно стверджує, що "Велика оперативна пам'ять їсть великі дані" - тобто з достатньою інфраструктурою у вас більше немає великих проблем з даними, ви просто у вас є дані, і ви повертаєтесь назад в область звичайних методів аналізу.

Більше того, різні методи представлення матимуть різний розмір, тому не точно зрозуміло, що означає мати "великі дані", визначені стосовно його розміру в пам'яті. Якщо ваші дані побудовані таким чином, що зберігається багато зайвої інформації (тобто ви вибираєте неефективне кодування), ви можете легко переступити поріг того, що ваш комп'ютер може легко обробити. Але чому ви хочете, щоб визначення мало властивість? На мій погляд, незалежність того, чи є набір даних "великими даними", не повинен залежати від того, чи ви робили ефективний вибір у розробці досліджень.

З точки зору практикуючого, великі дані, як я його визначаю, також несуть у собі обчислювальні вимоги, але ці вимоги залежать від застосування. Мислення за допомогою проекту баз даних (програмне забезпечення, обладнання, організація) для спостережень дуже відрізняється, ніж для10 7104107спостереження, і це цілком чудово. Це також означає, що великі дані, як я це визначаю, можуть не потребувати спеціалізованих технологій, ніж те, що ми розробили в класичній статистиці: зразки та інтервали довіри все ще є абсолютно корисними та дійсними інструментами для перенесення, коли потрібно екстраполювати. Лінійні моделі можуть дати абсолютно прийнятні відповіді на деякі запитання. Але для великих даних, як я визначаю, це може знадобитися нова технологія. Можливо, вам потрібно класифікувати нові дані в ситуації, коли у вас більше прогнозів, ніж даних про навчання, або коли ваші прогнози зростають із розміром даних. Для цих проблем потрібні новіші технології.


Як осторонь, я вважаю, що це питання важливе, оскільки воно неявно торкається того, чому важливі визначення - тобто для кого ви визначаєте тему. Обговорення доповнення для першокласників не починається з теорії множин, воно починається з посилання на підрахунок фізичних об'єктів. З мого досвіду, більша частина використання терміна "великі дані" відбувається в популярній пресі або в спілкуванні між людьми, які не є фахівцями зі статистики або машинного навчання (наприклад, маркетингові матеріали, які вимагають професійного аналізу), і це використовується для висловлюють думку про те, що сучасна обчислювальна практика означає, що існує безліч наявної інформації, яку можна використовувати. Це майже завжди в контексті даних, що розкривають інформацію про споживачів, яка, можливо, якщо не приватна, то не відразу очевидна.

Тож конотація та аналіз, що стосуються загального використання "великих даних", також несе в собі ідею, що дані можуть виявити незрозумілі, приховані або навіть приватні подробиці життя людини за умови застосування достатнього інфекційного методу. Коли ЗМІ повідомляють про великі дані, це погіршення анонімності зазвичай є тим, на що вони рухаються - визначення того, що "великі дані", виглядає дещо помилковим у цьому світлі, оскільки популярна преса та неспеціалісти не турбуються про достоїнства випадкових ліси та підтримуючі векторні машини тощо, і вони не відчувають труднощів аналізу даних у різних масштабах. І це добре.Турбота з їх точки зору зосереджена на соціальних, політичних та правових наслідках інформаційної доби. Точне визначення для ЗМІ та неспеціалістів не дуже корисне, оскільки їх розуміння теж не є точним. (Не думайте, що я самовдоволений - я просто зауважую, що не кожен може бути експертом у всьому.)


7
Це. "З мого досвіду, найчастіше використання терміна" великі дані "відбувається в популярній пресі або в спілкуванні між людьми, які не є фахівцями зі статистики або машинного навчання (наприклад, маркетингові матеріали, які вимагають професійного аналізу)"
Момо

2
Я думаю, ти останнім абзацом вдарив цвях по голові. Я думаю, що існує дуже чіткий розрив між розумінням популярної преси та тим, що люди в статистиці / ML / Data Science думають про термін великі дані. Я просто відчуваю, що потрібно бути більш чітким консенсусом щодо того, що це насправді. Однією з причин цього є посилання на таке, щоб люди не могли маніпулювати цим терміном або неправомірно використовувати, коли це, очевидно, не застосовується.
Гумео

1
Я думаю, я починаю все більше погоджуватися з вами. Я все ще вважаю, що резюме потрібне референтне запитання, коли люди, які цікавляться предметом, ставлять свої два центи з цього питання. Я шукав тут питань і відчував, що цього обговорення бракує.
Гумео

1
Я думаю, що це цінна розмова, і я радий, що ти задав це питання! І я радий, що ви знайшли мої коментарі корисними.
Відновіть Моніку

1
Я люблю цю відповідь з кількох причин. По-перше, я думаю, що насправді важливо підкреслити, що "великі дані" мають мало спільного з алгоритмами, які використовуються для його аналізу. Більшості з них 20-30 років (випадковий ліс, лінійна регресія тощо), і вони працюють прекрасно. Деякі люди в галузі вважають, що "великі дані" поєднуються з фантазійними новими алгоритмами, оскільки вони, мабуть, навіть не знали, що машинне навчання існує вже багато років. По-друге, "великі дані" - це не про розмір. Якщо у вас є доступний сервер із 128 Гб оперативної пам’яті і ви можете помістити все в пам'ять, що просто чудово. (продовж.)
skd

7

введіть тут опис зображення

Перехресно перевіряючи величезну літературу про Big Data, я зібрав до 14 термінів "V", 13 з них приблизно з 11 вимірами:

  • Дійсність,
  • Значення,
  • Змінність / варіативність,
  • Різноманітність,
  • Швидкість,
  • Правдивість / правдивість,
  • Життєздатність,
  • Віртуальність,
  • Візуалізація,
  • Нестабільність,
  • Обсяг.

14-й термін - Вакуумність. Згідно з останнім провокаційним повідомленням, Big Data не існує . Його основні моменти:

  • "Великі дані" не великі
  • Більшість "великих даних" насправді не корисні
  • [Ми повинні бути] Максимальна кількість малих даних

Правильне визначення Big Data змінюватиметься з обладнання, програмного забезпечення, потреб та знань, і, ймовірно, не повинно залежати від фіксованого розміру. Отже, чітке визначення у Великих даних: Наступний кордон для інновацій, конкуренції та продуктивності , червень 2011 року:

"Великі дані" відносяться до наборів даних, розмір яких перевищує можливості типових програмних засобів бази даних для збору, зберігання, управління та аналізу.


1
Стаття, на яку посилається "вакуумність", здається жахливо слабкою. Мається на увазі, що 30 ГБ даних / день не є великими (і цей розмір є єдиним компонентом визначення). Крім того, стверджується, що оскільки компанії кажуть, що їхніх даних набагато більше, ніж насправді, це означає, що вони не великі. Ніде не визначено великого даного. І всі приклади, які використовуються для припущення "не великі", містять багато перелічених V сторінок.
Джон

"Вакуумність" не стосується лише розміру. Дійсно, в останньому одношаровому визначенні визначення великого має на увазі розвиватися з сучасним станом практики. Те, що було великим у минулому, можна вважати малим через кілька років. Тут я використовував термін для випадку, коли "великі дані" використовуються як магічна мантра з малою кількістю речовини, як це проілюстровано у наведеному вище мультфільмі.
Лоран Дюваль

1
Наскільки ймовірно, що 14 критеріїв почнуться з літери V? Ми всі тут налаштовані на статистику, давай!
Аксакал

В основному, я згоден, це було лише для того, щоб показати, що такий термін, як «Великі дані», швидше належить до сфери маркетингу, ніж до статистики. Однак я хотів поділитися моєю "колекцією" прочитаних термінів. Він розпочався з 3В, потім 5В, а іноді і 7 тощо. Цей термін може нечітко допомогти визначити риси в даних, які є
Ларан Дюваль

4

Люди, схоже, фіксують на великому класифікаторі у Big Data. Однак розмір є лише однією із складових цього терміна (домену). Мало того, що ваш набір даних був великий, щоб назвати вашу проблему (домен) великими даними, вам також потрібно, щоб було важко зрозуміти та проаналізувати і навіть обробити. Деякі називають цю функцію неструктурованою , але це не лише структура, але й нечітка взаємозв'язок між різними фрагментами та елементами даних.

Розглянемо набір даних про те, що фізики високої енергії працюють у таких місцях, як CERN . Вони працювали з даними про розмір петабайт протягом багатьох років до введення терміну Big Data . Але навіть зараз вони не називають цих великих даних, наскільки я знаю. Чому? Оскільки дані досить регулярні, вони знають, що з цим робити. Вони можуть ще не в змозі пояснити кожне спостереження, тому вони працюють над новими моделями тощо.

Тепер ми називаємо Big Data проблемами, які стосуються наборів даних, які мають розміри, які можуть бути сформовані за кілька секунд від LHC у ЦЕРНі. Причина полягає в тому, що ці набори даних є, як правило, елементами даних, що надходять із безлічі джерел різного формату, незрозумілих зв’язків між даними та невизначеного значення для бізнесу. Це може бути лише 1 Тб, але так важко обробити всі аудіо, відео, тексти, мовлення тощо. Отже, за складністю та ресурсами, необхідними для цього, козир петабайтів даних ЦЕРН. Ми навіть не знаємо, чи є в наших наборах даних помітна корисна інформація.

Отже, вирішення проблем Big Data включає аналіз, вилучення елементів даних невідомого значення, а потім зв'язування їх один з одним. "Розбір зображення" сам по собі може бути великою проблемою. Скажімо, ви шукаєте кадри відеоспостереження з вулиць міста, намагаючись дізнатись, чи стають люди зле і чи впливає це на дорожньо-транспортні пригоди, пов’язані з пішоходами. Там є багато відео, ви знайдете обличчя, намагаєтеся оцінити їх настрій за виразами, потім пов’язуєте це з кількістю наборів даних про нещасні випадки, звіти поліції тощо, і все це контролює погоду (преципіонат, температура) та затори. . Вам потрібні засоби зберігання та аналітичні засоби, які підтримують ці великі набори даних різного виду, і можуть ефективно зв’язувати дані один з одним.

Big Data - це складна проблема аналізу, коли складність випливає як із самого розміру, так і зі складності кодування структури та інформації в ньому.


Хороший вхід. Контраст, який ви даєте між LHC та проблемою відеоспостереження, - це те, чого люди часто сумують.
Гумео

3

Я думаю, що причина, чому люди плутаються у тому, що є Big Data, полягає в тому, що вони не бачать її переваг. Значення Big Data (техніка) не лише в обсязі даних, який ви можете зібрати, але і в прогнозному моделюванні, що з часом важливіше:

  1. Прогностичне моделювання повністю змінило те, як ми робимо статистику та прогнози, воно дає нам більш глибоке розуміння наших даних, оскільки нові моделі, нові методи можуть краще виявляти тенденції, шуми даних, можуть захоплювати "багато" -вимірну базу даних. Чим більше розмірів у нашій базі даних, тим більше шансів створити хорошу модель. Передбачувальне моделювання є серцем цінності Big Data.
  2. Великі дані (з точки зору розміру даних) є попереднім кроком, і чи є він для подання прогнозного моделювання шляхом: збагачення бази даних щодо: 1. кількості передбачувачів (більше змінних), 2. кількості спостережень.

Більше прогнозів, тому що ми тепер здатні фіксувати дані, які раніше неможливо було зафіксувати (через обмежену потужність обладнання, обмежену здатність працювати над неструктурованими даними). Більше передбачувачів означає більше шансів мати значущі прогнози, тобто краща модель, краще прогнозування, краще рішення може бути прийнято для бізнесу.

Більше спостережень не тільки робить модель більш стійкою з часом, але й допомагає моделі вивчити / виявити всі можливі зразки, які можна представити / створити в реальності.


3

Найважливіша річ у Big Data та його антонімі (мабуть, Малі Дані?) - це те, що це континуум. Люди з великими даними пішли в одну сторону спектру, люди з невеликими даними перейшли в іншу, але в піску немає чіткої лінії, з якою всі можуть погодитися.

Я б дивився на поведінкові відмінності між ними. У ситуаціях з невеликими даними у вас є "невеликий" набір даних, і ви прагнете ви стиснути якомога більше інформації з кожної точки, яку ви можете. Отримайте більше даних, ви можете отримати більше результатів. Однак отримати більше даних може бути дорого. Дані, які один збирає, часто обмежуються для того, щоб відповідати математичним моделям, таким як проведення часткової факторної перевірки для виявлення цікавої поведінки.

У ситуаціях з великими даними у вас є "великий" набір даних, але ваш набір даних, як правило, не такий обмежений. Зазвичай ви не можете переконати своїх клієнтів придбати меблі з латинським квадратом, просто щоб зробити аналіз простішим. Натомість у вас є схильність погано структурованих даних. Для вирішення цих проблем мета прагне не "вибирати найкращі дані та витискати з неї все, що можна", як можна наївно намагатися, якщо ви звикли до малих даних. Ціль, як правило, більше відповідає «якщо ви можете просто отримати крихітний космос з кожної точки даних, сума буде величезною і глибокою».

Між ними розташовані набори даних середнього розміру, з хорошою структурою. Це "справді важкі проблеми", тому зараз ми схильні організовуватись у два табори: один з невеликими даними витісняє кожен останній шматочок з нього, а другий з великими даними намагається встигнути, щоб кожна точка даних світилася по-своєму. правильно. Коли ми рухаємось вперед, я очікую, що ми побачимо більше процесів з невеликими даними, які намагаються адаптуватися до великих наборів даних, і більше процесів з великими даними, які намагаються адаптуватися для використання більш структурованих даних.


Ваша характеристика невеликих даних дуже нагадує книгу про аналіз Бема. Будь ласка, зверніться до критики цього питання, оскільки це невідповідний спосіб поводження з невеликими наборами даних, окрім як для приватного дослідження, на якому базуватись майбутній збір даних.
Джон

@John Мені, можливо, доведеться подивитися на них. Чи достатньо критики, що я навіть не можу використовувати характеристику як точку, щоб описати континуум?
Корт Аммон

Справді довго зайнятися тут, але головне повідомлення полягає в тому, що ви не видавлюєте все, що можете, з кожної точки даних з невеликими даними. Можливо, google Gelman та Forking Paths; або, експериментаторських ступенів свободи. Ви повинні думати про аналіз малих та великих даних по-різному, а не лише як точки на континуумі.
Джон

3

Я б сказав, що є три компоненти, які є важливими при визначенні великих даних: напрямок аналізу, розмір даних щодо сукупності та розмір даних стосовно обчислювальних проблем.

У самому питанні йдеться про те, що гіпотези розробляються після наявності даних. Я не використовую "зібране", тому що думаю, що слово "зібране" має на увазі певну мету, і дані часто існують для невідомої мети на той час. Збір часто відбувається у великих даних, об'єднуючи наявні дані для обслуговування запитання.

Друга важлива частина полягає в тому, що це не просто будь-які дані, для яких використовується спеціальний аналіз, який можна назвати дослідним аналізом з меншими наборами даних. Він повинен мати достатній розмір, щоб вважати, що оцінки, зібрані з нього, є досить близькими до оцінок населення, що багато менших вибіркових питань можна ігнорувати. Через це я трохи стурбований тим, що зараз у полі є поштовх до кількох виправлень порівняння. Якщо у вас було все населення чи наближення, що у вас є вагомі підстави вважати, що це справедливо, такі виправлення мають бути суперечливими. Хоча я усвідомлюю, що іноді виникають проблеми, які справді перетворюють "великі дані" на невеликий зразок (наприклад, великі логістичні регресії), це зводиться до розуміння, що таке великий вибірки для конкретного питання. Натомість багато запитань щодо порівняння слід перетворити на питання щодо розміру ефекту. І, звичайно, вся ідея, якою ви користуєтесь тестами з альфа = 0,05, як це багато хто робить із великими даними, просто абсурдна.

І нарешті, невелике населення не може кваліфікуватися. У деяких випадках населення невелике, і можна зібрати всі дані, необхідні для їх вивчення, дуже легко та дозволити виконувати перші два критерії. Дані повинні мати достатню величину, щоб вони стали обчислювальною проблемою. Таким чином, ми маємо визнати, що "великі дані" можуть бути тимчасовим мовним словом і, можливо, явищем постійно у пошуках суворого визначення. Деякі речі, які роблять «великі дані» великими зараз, зникнуть через кілька коротких років, і такі визначення, як Хедлі, засновані на ємності комп'ютера, здадуться химерними. Але на іншому рівні обчислювальні проблеми - це питання, які стосуються не ємності комп'ютера чи, можливо, про ємності комп'ютера, які ніколи не можна вирішити. Я думаю, що в цьому сенсі проблеми визначення "

Можна відзначити, що я не наводив прикладів або чітких визначень того, що складна обчислювальна проблема для цього домену (є багато прикладів, як правило, в науці, і деякі застосовні, що я не буду вникати). Я не хочу робити жодного, тому що думаю, що це доведеться залишатися дещо відкритим. З часом зібрані твори багатьох людей збираються разом, щоб зробити такі речі легшими, частіше за допомогою розробки програмного забезпечення, ніж апаратних засобів. Можливо, поле доведеться дозрівати більш повно, щоб зробити цю останню вимогу більш міцно обмеженою, але краї завжди будуть нечіткими.


дякую за ваш внесок! Я думаю, що ви даєте цінні відомості для цієї теми. Я думаю, що тут розмір даних про кількість населення дещо не помічений.
Гумео

1

Вікіпедія дає досить чітке визначення

Великі дані - це широкий термін для наборів даних, настільки великих чи складних, що традиційні програми для обробки даних є неадекватними. (джерело https://en.wikipedia.org/wiki/Big_data )

інше просте визначення, яке я знаю

Дані, які не відповідають пам’яті комп’ютера.

На жаль, не пам’ятаю посилання на це. З цього визначення випливає все інше - вам доведеться якось поводитися з великими обсягами даних.


0

Я хочу додати, що Big Data - це посилання на роботу над великим набором даних (мільйони та / або мільярди рядків) або намагання знайти інформацію / зразки на широких ресурсах даних, які ви зараз можете збирати скрізь.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.