Пакет R для виявлення зв’язків між змінними [закритий]


13

Чи є пакет R, який я можу використовувати, щоб дослідити, чи існують зв’язки між змінними?

Як правило, коли я шукаю шаблони, я переглядаю кореляції, а потім фацельний сюжет. Потім я вручну застосовую деякі перетворення до змінних даних. Мені було цікаво, чи зможу я прискорити цей процес через пакет R.


Якщо у вас є власний процес, ви завжди можете прокатати свій власний пакет. Або просто функцію багаторазового використання в якомусь файлі, завантаженому на початку вашого сценарію.
Брендон Бертелсен

Відповіді:


9

AFAIK, ні. Якщо бути точнішим, я не знаю жодного пакету R, який би зробив частину того, що називається дослідницьким аналізом даних (EDA) за допомогою єдиного виклику функції - я думаю про аспекти повторного вираження та виявлення обговорювались у Хогліна, Мостелера та Тукі, Розуміння надійного та дослідницького аналізу даних . Wiley-Interscience, 1983, зокрема.

Однак у R є кілька чудових альтернатив, особливо щодо інтерактивного дослідження даних (Дивіться тут цікаву дискусію: Коли корисна у використанні інтерактивна візуалізація даних? ). Я можу придумати

  • iplots , або його наступник Acinonyx , для інтерактивної візуалізації (дозволяючи чистити щітки, пов'язані сюжети тощо) (Деякі з цих функцій можна знайти в пакеті латицистів ; нарешті, rgl чудово підходить для інтерактивної 3D-візуалізації.)
  • ggobi для інтерактивних та динамічних дисплеїв, включаючи скорочення даних (багатовимірне масштабування) та проектування

Це стосується лише інтерактивного дослідження даних, але я б сказав, що це суть EDA. У будь-якому випадку вищезазначені методи можуть допомогти при дослідженні двовимірних чи вищих порядків між числовими змінними. Для категоричних даних гарний варіант vcd- пакету (таблиці візуалізації та зведення). Тоді, я б сказав, що вегетаріанські пакети та пакети ade4 спочатку при вивченні взаємозв'язків між змінними типами даних.

Нарешті, що з видобутком даних в R? (Спробуйте це ключове слово на Rseek )


(+1) Приємно бачити, що ви відповідали на запитання!
whuber

+1 Btw: маленький друкарський помилок - ацинонікс (i & y переносяться).
Ітератор

@Iterator Дякуємо, що ввели друкарську помилку. (Я вже поставив +1 вашій відповіді, добре, що ви цитували роботу Вілкінсона).
chl

2
Зараз loonтакож є waddella.github.io/loon Кредит до @hadleywickham для вказівки на це.
Арі Б. Фрідман

11

Якщо ви просто хочете швидко ознайомитись із співвідношенням змінних у вашому наборі даних, подивіться на функцію пар (), а ще краще, функцію пар.панелі () в пакеті психіки. Я трохи писав про функцію пар тут .

За допомогою функції пар () або psych :: pair.panels () зробити матриці розсіювання досить просто.

pairs.panels(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21,lm=TRUE)

введіть тут опис зображення


7

Ознайомтесь із scagnosticsупаковкою та оригінальною науковою роботою . Це дуже цікаво для двосторонніх відносин. Для багатоваріантних стосунків переслідування проекцій є дуже хорошим першим кроком.

Однак, як правило, експертиза доменів і даних одночасно звузить і покращить ваші методи швидкого дослідження взаємозв'язків.


7

Функція char.Correlation в PerformanceAnalytics забезпечує аналогічну функціональність згаданою функцією plot.pairs @Stephen Turner, за винятком того, що вона згладжує функцію льосу, а не лінійну модель, і значення для кореляцій.

library(PerformanceAnalytics)
chart.Correlation(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21)

Діаграма


5

Якщо ви шукаєте можливі перетворення для роботи з кореляцією, то інструмент, про який ще не було сказано, який може бути корисним, є той, aceякий можна знайти в acepackпакеті (і, мабуть, також і в інших пакетах). Це робить інтерактивний процес спроб безлічі різних перетворень (використовуючи плавніші), щоб знайти перетворення для максимального співвідношення між набором x змінних та ay змінною. Графік перетворень може запропонувати змістовні перетворення.


2

Ви можете використовувати функцію DCOR у пакеті "енергія" для обчислення вимірювання нелінійної залежності, яка називається кореляцією відстані та графіком, як зазначено вище. Проблема кореляції Пірсона полягає в тому, що він може виявляти лише лінійні зв’язки між змінними. Переконайтеся, що ви вибрали параметр запису для індексу в функції DCOR, яка вказала.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.