Це просто агрегація точок даних? Або це представлення точок даних для різних елементів у табличному форматі, розташованому зі значеннями різних змінних? Чим він відрізняється від необроблених даних?
Це просто агрегація точок даних? Або це представлення точок даних для різних елементів у табличному форматі, розташованому зі значеннями різних змінних? Чим він відрізняється від необроблених даних?
Відповіді:
На мій досвід, "набір даних" (або "набір даних") - це неофіційний термін, який відноситься до колекції даних. Як правило, набір даних містить більше однієї змінної і стосується однієї теми; ймовірно, це стосується однієї вибірки.
Помилка, яку я часто бачу у письменників перехресних перевірених питань, це використання "набору даних" як синоніму "змінної" або "вектора".
Я думаю, що Вікіпедія справляє гідну роботу, визначаючи це:
Найчастіше набір даних відповідає вмісту однієї таблиці бази даних або єдиної матриці статистичних даних, де кожен стовпець таблиці являє собою певну змінну, а кожен рядок відповідає даному члену відповідного набору даних. Набір даних перераховує значення для кожної зі змінних, наприклад висоту та вагу об'єкта, для кожного члена набору даних. Кожне значення відоме як дата. Набір даних може містити дані для одного або декількох членів, що відповідають кількості рядків.
Термін набір даних також може використовуватися більш вільно для позначення даних у колекції тісно пов'язаних таблиць, що відповідають певному експерименту чи події. Прикладом такого типу є набори даних, зібрані космічними агенціями, які проводять експерименти з інструментами на борту космічних зондів.
У навчальній дисципліні відкритих даних набір даних - це одиниця для вимірювання інформації, що надходить у відкрите сховище даних. Європейський портал відкритих даних об'єднує понад півмільйона наборів даних. У цій галузі запропоновано інші визначення, але в даний час не існує офіційного. Деякі інші проблеми (джерела даних у режимі реального часу, нереляційні набори даних тощо) збільшують труднощі досягти консенсусу щодо цього.
Як бачите, термін дещо розпливчастий.
Я думаю, вам може знадобитися визначити точку даних, перш ніж ви зможете визначити набір даних : чому одне примітивне і не потребує визначення, а не навпаки?
Принаймні два визначення мають для мене сенс:
Одне або кілька спостережень (випадки, записи, рядки) для однієї або декількох змінних (поля. Стовпці).
Що б не зберігалося як дані у файлі, читаному програмою на вибір.
Табличне розташування є загальним, але я не думаю, що це частина будь-якого визначення; природно, як зберігаються дані, може бути практично важливим.
PS Слово "формат" настільки перевантажено, що мені найкраще уникати, якщо не вказано однозначно. Я бачив, як це використовувалося
Загальний або конкретний текстовий або двійковий формат файлу
Структура даних, наприклад таблична або інша
Зберігання даних або типи змінних, наприклад, біт, ціле число, речовина, символ
Формат відображення, що контролює презентацію, наприклад, деталі про кількість десяткових знаків; десятковий, шістнадцятковий або двійковий екран.
Тут уже є кілька хороших відповідей, і я не думаю, що я можу проникнути глибше, ніж Нік Кокс або Франк Дернонкур, питання про те, чи "набір даних" стосується концептуальної колекції пов'язаних даних або конкретного розташування цих даних, наприклад, у таблиця / матриця або файл, читаний на комп'ютері. У витязі Франка згадуються крайні випадки, такі як безперервно зібрані дані або дані, розповсюджені в декількох таблицях, які варто пам’ятати, якщо ви припускали, що буде просте визначення. (Не все програмне забезпечення для статистики може впоратися з цим, але дуже легко уявити випадок, коли дані зберігаються у реляційній базі даних з кількома таблицями. Чи є вся база даних єдиним "набором даних"?)
Я хочу додати одне, що в математичному сенсі набори даних, як правило, не є наборами! Sensu stricto або набір містить об'єкт, або він не містить, але не може містити більше однієї копії цього об'єкта. Якщо я перекину штамп вісім разів і набрав 1, 4, 3, 5, 5, 4, 6, 4, то безліч балів прокатується лише {1, 3, 4, 5, 6}. Зауважте, що елементи можуть бути в будь-якому порядку, я щойно записав їх за зростанням, але множина {5, 4, 1, 6, 3}, математично, дорівнює, наприклад. Це не те, що ми зазвичай маємо на увазі під набором даних!
Але вектори призначені лише для запису однієї змінної - для кількох може бути зручніше використовувати матрицю для складання таблиць із збереженим порядком. У більш складних ситуаціях, таких як вимірювання властивості тривимірної сітки вокселів з часом, ви можете навіть перейти до упорядкування даних у тензорі (див., Наприклад, це питання ).
Але зауважте, що концептуально мультисети можуть бути достатніми в більшості простих ситуацій, навіть якщо це незручно для практичних цілей. Якби я кинув монету одночасно з прокаткою матриці і хотів записати два результати разом, я міг би використовувати мультисети типу {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} замість матриці. Звичайного набору не буде достатньо, оскільки, наприклад, він би не рахував кратності (4, H).