Перший швидкий погляд на набір даних


10

Пробачте про моє незнання, але ...

Я постійно опиняюся в ситуації, коли мені стикається з купою нових даних, які мені вдалося знайти. Ці дані зазвичай виглядають приблизно так:

Date     Number1  Number2  Category1  Category2
20120125      11      101        Dog      Brown
20120126      21       90        Cat      Black
20120126      31      134        Cat      Brown
(...)

Зазвичай на перший погляд я не можу реально сказати, чи є тут якісь тенденції. Кореляції між різними стовпцями можуть бути не дуже вагомими, але я був би радий, якби мені не довелося вручну створювати графік для кожної можливої ​​комбінації стовпців / категорій.

Чи є там інструмент, який би приймав таблицю даних разом із інформацією, які стовпці слід розглядати як числа, дати та категорії, а потім переходити до графіку:

  • кореляції між кожними двома числовими стовпцями
  • кореляції між кожними двома числовими стовпцями, з окремими рядками тренду для кожної категорії
  • кожен стовпчик цифр як часовий ряд,
  • кожен стовпець числа як часовий ряд, розділений категорією,
  • тощо.

Зрештою, це створило б велику кількість сюжетів, більшість з яких показувала б лише шум. В ідеалі інструмент міг би оцінювати сюжети за допомогою співвідношення та в кінці показувати слайд-шоу, починаючи з найбільш високих балів. Це був би дуже недосконалий, але корисний перший погляд на набір даних.

Тому? Чи є інструмент, який всі використовують для цього, і я просто не знаю про це, чи це щось нам потрібно зробити?


Дуже дякую всім за відповіді. Я витрачаю свій час на тестування кожного з інструментів, які ви згадуєте у своїх даних. Я підберу відповідь після моїх тестів. Я думаю, це дуже погано, я не можу вибрати більше одного :)
пострадальний

Відповіді:


15

@Ondrej та @Michelle надали тут хорошу інформацію. Цікаво, чи можу я зробити свій внесок, звернувшись до деяких пунктів, які не згадуються в інших місцях. Я б не збивав себе з приводу того, що не в змозі отримати багато інформації з табличної форми, таблиці, як правило, не дуже вдалий спосіб подання інформації (пор., Gelman et al., Перетворення таблиць у графіки ). З іншого боку, просити інструмент, який автоматично генерує всі потрібні графіки, які допоможуть вам вивчити новий набір даних, це майже як запит інструменту, який зробить ваше мислення для вас. (Не сприймайте це неправильним шляхом. Я визнаю, що ваше запитання дає зрозуміти, що ви не йдете так далеко; я просто маю на увазі, що такого інструменту дійсно ніколи не буде.) Гарна дискусія, пов’язана з цим, може бути знайдена тут .

Якщо говорити про це, я хотів трохи поговорити про види сюжетів, які ви можете використати для вивчення своїх даних. Сюжети, перелічені у запитанні, були б гарним початком, але ми могли б трохи оптимізувати це. Для початку, створення "великої кількості сюжетів", що співвідносять пари змінних, може бути не ідеальним. Скейтплот відображає лише граничну залежність між двома змінними. Важливі відносини часто можна приховати в якійсь комбінації декількох змінних. Отже, перший спосіб покращити цей підхід - це зробити матрицю розсіюванняякий відображає всі парні розсіювачі одночасно. Матриці розсіювання можуть бути розширені різними способами: Наприклад, вони можуть поєднуватися з однофакторними графіками щільності ядра розподілу кожної змінної, різні маркери / кольори можуть бути використані для побудови різних груп, а можливі нелінійні зв’язки можна оцінити, накладаючи льосовий пристрій. scatterplot.matrixФункція в пакеті автомобіля в R може робити всі ці речі красиво (приклад можна побачити на півдорозі вниз сторінки пов'язані вище).

Однак, хоча матриці розсіювання є гарним початком, вони все ще відображають лише граничні проекції. Є кілька способів спробувати вийти за рамки цього. Перший полягає у дослідженні тривимірних графіків за допомогою пакету rgl у Р. Інший підхід - використання умовних графіків; коплети можуть допомогти одночасно з 3 або 4 змінними. Особливо корисним підходом є використання матриці розсіювача в інтерактивному режимі(хоч для цього знадобиться більше зусиль, щоб навчитися), наприклад, «чищенням». Кисть дозволяє виділити точку або точки в одному кадрі матриці, і ці точки будуть одночасно виділятися у всіх інших кадрах. Пересуваючи пензлик, ви можете бачити, як всі змінні змінюються разом. ОНОВЛЕННЯ: Ще одна можливість, яку я забув згадати, - використовувати графік паралельних координат . Це має недолік у тому, що не робить вашу змінну відповіді різною, але може бути корисною, наприклад, при вивченні взаємозв'язків між вашими X змінними.

Я також хочу подякувати вам за вивчення ваших даних, відсортованих за зібраною датою. Хоча дані завжди збираються з часом, люди не завжди роблять це. Складання лінійного графіка приємно, але я б запропонував вам доповнити це графіками автокореляцій та часткових автокореляцій . У R функції для них є acfі pacfвідповідно.

Я усвідомлюю, що все це не зовсім відповідає на ваше запитання в сенсі надання вам інструменту, який зробить всі сюжети для вас автоматично, але одне значення - це, що вам насправді не доведеться робити стільки сюжетів, скільки ви боїтесь , наприклад, матриця розсіювання - це лише один рядок коду. Крім того, у R має бути можливість написати функцію / якийсь код для багаторазового використання для себе, який би частково автоматизував частину цього (наприклад, я можу уявити функцію, яка містить список змінних та упорядкування дат, сортує їх , з'являється нове вікно для кожного з графіків рядків, acf та pacf).


Як завжди, відмінні бали. :)
Мішель

2
(+1) Не пропустіть ggobi та marginal.plotз пакету решетуванняExtra .
chl

7

Кореляції між кожною парою числових стовпців можуть бути показані у кореляційній матриці. Він не повинен бути чисто числовим, він може бути кольоровим, щоб забезпечити швидку оцінку. Ознайомтеся з пакетом corrplot для Р.

Для подальшого аналізу Rattle є досить корисним інструментом GUI.

Якщо ви будете шукати обмін стеками за допомогою ключових слів «corrplot», а точніше - «Rattle», ви знайдете кілька тем, де висвітлюються ці інструменти та їх альтернативи. Як ця .

Удачі!


4

@Ondrej дав кілька корисних порад, тому я зупинюсь на вашому питанні про те, як програмне забезпечення поводиться з імпортованими даними. З символьними даними, "Категорія 1" та "Категорія 2", програмне забезпечення автоматично розглядає їх як групи або фактори, оскільки математичні операції не можуть проводитись над цими фрагментами даних. Це означає, що вам не вдасться ввести що-небудь із цих категорій (як альтернатива, ви отримаєте помилку, якщо спробуєте використовувати синтаксис або командний рядок замість системи, керованої меню) в аналіз, який вимагає цифр.

Для таких даних, як "Число 1" та "Число 2", програмне забезпечення читає їх як числові. Якщо у вас є якісь групи / фактори, які містять чисто числові дані, вам потрібно буде доручити вашому програмному забезпеченню, що це групи / фактори.

Іноді дати можуть бути погано імпортовані в статистичне програмне забезпечення. Після імпорту ваших даних ви побачите, що тип даних у вашому статистичному програмному забезпеченні відображає певну форму типу "дата" для "Дата". Якщо ви бачите тип даних як інакший, ніж дата, у вас є проблема. Навіть якщо він відображається як дата, перевірте імпорт деяких рядків, у яких є такі дати, як дні, наприклад, 13-й або 25-й місяця - залежно від налаштування програмного забезпечення, іноді американське / британське форматування дати спричиняє чіткі дані від імпорту , через перевернення дня / місяця.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.