Досліджувати взаємозв'язки між змінними досить невиразно, але дві, більш загальні цілі вивчення таких розсіювачів, як я думаю, є;
- Визначте основні латентні групи (змінних чи випадків).
- Визначте інших людей (у одномірному, двоваріантному чи багатоваріантному просторі).
Обидва зводять дані до більш керованих підсумків, але мають різні цілі. Визначаючи латентні групи, як правило, зменшуються розміри даних (наприклад, за допомогою PCA), а потім досліджується, чи змінюються змінні чи випадки разом у цьому зменшеному просторі. Див., Наприклад, Friendly (2002) або Cook et al. (1995).
Визначення залишків може означати пристосування моделі та побудову графіків відхилень від моделі (наприклад, побудова залишків від регресійної моделі) або зменшення даних у її основні компоненти та лише виділення точок, які відхиляються від моделі чи основного масиву даних. Напр. Коробки в одному або двох вимірах, як правило, показують лише окремі точки, що знаходяться поза петлями (Wickham & Stryjewski, 2013). Складання залишків має гарну властивість, що вона має розгладжувати ділянки (Tukey, 1977), тому будь-які докази стосунків у іншій хмарі точок є "цікавими". Це запитання щодо резюме має кілька чудових пропозицій щодо виявлення багатоваріантних людей, що виживають.
Поширений спосіб дослідження таких великих СПЛОМ - це не побудувати графік усіх окремих точок, а якийсь спрощений підсумок, а потім, можливо, бали, які значною мірою відхиляються від цього резюме, наприклад, еліпси впевненості, скептичні підсумки (Wilkinson & Wills, 2008), двозначні коробчасті ділянки, контурні ділянки. Нижче наводиться приклад побудови еліпсів, які визначають коваріацію та накладення льосового плавнішого для опису лінійної асоціації.
(джерело: statmethods.net )
Так чи інакше, справжньому успішному інтерактивному сюжету з такою кількістю змінних, ймовірно, знадобиться інтелектуальне сортування (Wilkinson, 2005) та простий спосіб фільтрації змінних (на додаток до функцій чищення / зв'язування). Крім того, будь-який реалістичний набір даних повинен мати можливість перетворення осі (наприклад, побудувати дані в логарифмічному масштабі, перетворити дані за допомогою коренів тощо). Удачі, і не дотримуйтесь лише одного сюжету!
Цитати
- Кук, Діанна, Андреас Буджа, Хав'єр Кабрера та Кетрін Херлі. 1995. Грандіозне гастрольне та проекційне заняття. Журнал обчислювальної та графічної статистики 4 (3): 155-172.
- Дружній, Майкл. 2002. Відображення: Дослідницькі екрани для кореляційних матриць. Американський статистик 56 (4): 316-324. Переддрук PDF .
- Тукі, Джон. 1977. Дослідницький аналіз даних. Аддісон-Веслі. Читання, Месса.
- Вікхем, Хадлі та Ліза Стриєвські. 2013. 40 років боксерів .
- Вілкінсон, Леланд та Грем Уіллз. 2008. Масштабні розподіли. Журнал обчислювальної та графічної статистики 17 (2): 473-491.
- Вілкінсон, Леланд. 2005. Граматика графіки . Спрингер. Нью-Йорк, Нью-Йорк.