Що саме означає "набір даних"?


10

Це просто агрегація точок даних? Або це представлення точок даних для різних елементів у табличному форматі, розташованому зі значеннями різних змінних? Чим він відрізняється від необроблених даних?


Що ви маєте на увазі під «точкою даних», чи вважаєте ви, що вона буде принаймні 2D? Часовий ряд або набір балів для іспитів можуть бути набором даних; як мінімум, вони можуть бути просто рядками в одній змінній, можливо, без міток рядків. Відповідь @FranckDernoncourt
smci

1
Я дійсно просто думаю, що це збір даних. Це звичайно те, як я використовую цей термін. Я не думаю, що в цьому занадто багато. Незалежно від того, чи є дані "необробленими", чи попередньо обробленими, чи очищеними тощо, це ортогональність.
gung - Відновити Моніку

Відповіді:


9

На мій досвід, "набір даних" (або "набір даних") - це неофіційний термін, який відноситься до колекції даних. Як правило, набір даних містить більше однієї змінної і стосується однієї теми; ймовірно, це стосується однієї вибірки.

Помилка, яку я часто бачу у письменників перехресних перевірених питань, це використання "набору даних" як синоніму "змінної" або "вектора".


3
Узгоджено на наборі даних проти змінної чи вектора. Не запускайте мене з "даних", як у "У мене є дані". І навпаки, "у мене є набір даних" - чудовий спосіб не дратувати жодним чином, або дратувати тих, хто наполягає на тому, що дані множинні, або дратує тих, хто вважає це наполягання педантичним, якщо вони взагалі думають про це.
Нік Кокс

3
@ NickCox У граматичних війнах за "дані" я перебуваю в найменш популярній фракції, яка стверджує, що "дані" є масовим іменником.
Кодіолог

3
Я підозрюю, що це більшість зараз і все сильніше вважаю, що це набирає популярності.
Нік Кокс

8

Я думаю, що Вікіпедія справляє гідну роботу, визначаючи це:

Найчастіше набір даних відповідає вмісту однієї таблиці бази даних або єдиної матриці статистичних даних, де кожен стовпець таблиці являє собою певну змінну, а кожен рядок відповідає даному члену відповідного набору даних. Набір даних перераховує значення для кожної зі змінних, наприклад висоту та вагу об'єкта, для кожного члена набору даних. Кожне значення відоме як дата. Набір даних може містити дані для одного або декількох членів, що відповідають кількості рядків.

Термін набір даних також може використовуватися більш вільно для позначення даних у колекції тісно пов'язаних таблиць, що відповідають певному експерименту чи події. Прикладом такого типу є набори даних, зібрані космічними агенціями, які проводять експерименти з інструментами на борту космічних зондів.

У навчальній дисципліні відкритих даних набір даних - це одиниця для вимірювання інформації, що надходить у відкрите сховище даних. Європейський портал відкритих даних об'єднує понад півмільйона наборів даних. У цій галузі запропоновано інші визначення, але в даний час не існує офіційного. Деякі інші проблеми (джерела даних у режимі реального часу, нереляційні набори даних тощо) збільшують труднощі досягти консенсусу щодо цього.

Як бачите, термін дещо розпливчастий.


А в налаштуваннях комп’ютерного зору набір даних може бути просто колекцією природних зображень та їх мітками або анотаціями.
Sycorax каже, що повернеться до Моніки

Що означає "база даних *?"
ankit

@ankit Традиційне значення CS, що означає en.wikipedia.org/wiki/Database
Франк Дернонкурт

@Sycorax Так, я думаю, що ми могли б розглядати одне зображення (або якийсь інший сигнал) як одну дату крапки в базі даних.
Франк Дернонкурт

7

Я думаю, вам може знадобитися визначити точку даних, перш ніж ви зможете визначити набір даних : чому одне примітивне і не потребує визначення, а не навпаки?

Принаймні два визначення мають для мене сенс:

  1. Одне або кілька спостережень (випадки, записи, рядки) для однієї або декількох змінних (поля. Стовпці).

  2. Що б не зберігалося як дані у файлі, читаному програмою на вибір.

Табличне розташування є загальним, але я не думаю, що це частина будь-якого визначення; природно, як зберігаються дані, може бути практично важливим.

PS Слово "формат" настільки перевантажено, що мені найкраще уникати, якщо не вказано однозначно. Я бачив, як це використовувалося

  1. Загальний або конкретний текстовий або двійковий формат файлу

  2. Структура даних, наприклад таблична або інша

  3. Зберігання даних або типи змінних, наприклад, біт, ціле число, речовина, символ

  4. Формат відображення, що контролює презентацію, наприклад, деталі про кількість десяткових знаків; десятковий, шістнадцятковий або двійковий екран.


6

Тут уже є кілька хороших відповідей, і я не думаю, що я можу проникнути глибше, ніж Нік Кокс або Франк Дернонкур, питання про те, чи "набір даних" стосується концептуальної колекції пов'язаних даних або конкретного розташування цих даних, наприклад, у таблиця / матриця або файл, читаний на комп'ютері. У витязі Франка згадуються крайні випадки, такі як безперервно зібрані дані або дані, розповсюджені в декількох таблицях, які варто пам’ятати, якщо ви припускали, що буде просте визначення. (Не все програмне забезпечення для статистики може впоратися з цим, але дуже легко уявити випадок, коли дані зберігаються у реляційній базі даних з кількома таблицями. Чи є вся база даних єдиним "набором даних"?)

Я хочу додати одне, що в математичному сенсі набори даних, як правило, не є наборами! Sensu stricto або набір містить об'єкт, або він не містить, але не може містити більше однієї копії цього об'єкта. Якщо я перекину штамп вісім разів і набрав 1, 4, 3, 5, 5, 4, 6, 4, то безліч балів прокатується лише {1, 3, 4, 5, 6}. Зауважте, що елементи можуть бути в будь-якому порядку, я щойно записав їх за зростанням, але множина {5, 4, 1, 6, 3}, математично, дорівнює, наприклад. Це не те, що ми зазвичай маємо на увазі під набором даних!

х¯=1нi=1нхiх1х2

Але вектори призначені лише для запису однієї змінної - для кількох може бути зручніше використовувати матрицю для складання таблиць із збереженим порядком. У більш складних ситуаціях, таких як вимірювання властивості тривимірної сітки вокселів з часом, ви можете навіть перейти до упорядкування даних у тензорі (див., Наприклад, це питання ).

Але зауважте, що концептуально мультисети можуть бути достатніми в більшості простих ситуацій, навіть якщо це незручно для практичних цілей. Якби я кинув монету одночасно з прокаткою матриці і хотів записати два результати разом, я міг би використовувати мультисети типу {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} замість матриці. Звичайного набору не буде достатньо, оскільки, наприклад, він би не рахував кратності (4, H).


1
Я міг би купити ідею, що набір даних - це набір спостережень із простою зморшкою, яка може знадобитися їх ідентифікаторам, щоб зробити їх чіткішими. Але ти маєш рацію, що сенс тут - це деяка відстань від теорії множин. Підкресліть, як ви натякаєте тут, що порядок спостережень часто має вирішальне значення і часто, але не завжди, визначатиметься часовою чи іншою змінною впорядкування.
Нік Кокс

@ NickCox (+1) Дійсно, що я ще не знайшов часу, або, тим більше, висловити це те, що спостереження часто приходять з ідентифікатором - іноді тимчасовим, іноді на основі місця розташування, іноді обом. Коли ми кодуємо дані у вектор, матрицю або тензор, це часто безпосередньо забезпечує структуру, яку ми хочемо, і явний ідентифікатор (як жорстко закодований індекс) може бути непотрібним, особливо якщо це має значення лише порядку чи відносної позиції. Без сумніву, для всього цього є правильна термінологія.
Срібна рибка

У мене немає проблем з тим, що замовлення не має значення. Він не має жодної змінної. Порядок має значення, коли у вас є парні значення X з / скажімо, часом вимірювання. Але тоді ми можемо подумати про те, що точки є багатовимірними, і порядок набору багатовимірних даних знову не має значення. У мене також немає проблеми з думкою про те, що існує в дійсності, або мається на увазі ідентифікатор, який робить дві 5 унікальними.
gung - Відновіть Моніку

@gung Я думав про набори даних, у яких час або послідовний порядок неявний. Я б сказав, що це була погана практика, і тепер непотрібно мати чітку змінну замовлення, але відсутність такої змінної замовлення не позбавляє себе набору даних. Насправді в 1970-х я звичайно обробляв просторові ряди з неявним ідентифікатором, оскільки мої власні програми Fortran зробили (не тривіальною) працею введення одного непотрібним.
Нік Кокс

Мені це здається прекрасним, @NickCox. Я б сказав, що змінна замовлення неявна, в цьому випадку, але в певному сенсі все ще існує.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.