Статистика та великі дані data-visualization

8

Функція огляду графічних даних (резюме) в R

Я впевнений, що раніше я стикався з такою функцією в пакеті R, але після обширного гуглінгу я не можу знайти його ніде. Функція, про яку я думаю, створила графічний підсумок для заданої йому змінної, даючи вихід з деякими графіками (гістограмою, можливо, графікою коробки та вуса) та деяким текстом, що дає …

39 r data-visualization descriptive-statistics eda

4

Для побудови графіку з R я повинен вивчити ggplot2 або ggvis?

Для побудови графіку з R я повинен вивчити ggplot2 або ggvis? Я не обов'язково хочу вчитися обом, якщо хтось із них вищий у будь-якому відношенні. Чому R-спільнота продовжує створювати нові пакети з функціями, що перекриваються? Після введення блогу не згадує ні слова , чому ggvis створюється з урахуванням того, що …

38 r data-visualization software

3

Чи може PCA працювати для булевих (бінарних) типів даних?

Я хочу зменшити розмірність систем вищого порядку і захопити більшу частину коваріації на переважно двовимірне або 1 мірне поле. Я розумію, що це можна зробити за допомогою аналізу основних компонентів, і я використовував PCA у багатьох сценаріях. Однак я ніколи не використовував його з булевими типами даних, і мені було …

38 pca data-visualization binary-data dimensionality-reduction correspondence-analysis

5

Як візуалізувати / зрозуміти, що робить нейромережа?

Нейронні мережі часто трактуються як «чорні скриньки» через їх складну структуру. Це не ідеально, оскільки часто вигідно зрозуміти, як модель працює всередині країни. Які методи візуалізації роботи тренованої нейронної мережі? Як варіант, як ми можемо отримати легкозасвоювані описи мережі (наприклад, цей прихований вузол в першу чергу працює з цими входами)? …

37 data-visualization neural-networks

2

Коли t-SNE вводить в оману?

Цитуючи одного з авторів: t-Розподілене стохастичне сусідське вбудовування (t-SNE) - це ( виграшний ) метод зменшення розмірності, який особливо добре підходить для візуалізації високомірних наборів даних. Так це звучить досить чудово, але це той, хто говорить Автору. Ще одна цитата автора (ре: вищезгаданий конкурс): Що ви зняли з цього змагання? …

37 data-visualization dimensionality-reduction tsne

3

Експериментальні докази, що підтверджують візуалізацію у стилі Туфте?

Питання: Чи існують експериментальні докази, що підтримують туфтеві, мінімалістичні візуалізації, що говорять на даних, над візуалізаціями, притаманними діаграмою, скажімо, Найджела Холмса ? Я запитав, як додати сюди графік-мотлох до сюжетів R, і відповідачі відкинули на мене здоровенну кількість примх. Тож, безумовно, повинні бути деякі експериментальні докази, до яких я не …

36 data-visualization

4

Як інтерпретувати задум силуету?

Я намагаюся використовувати силуетний графік, щоб визначити кількість кластерів у моєму наборі даних. З огляду на набір даних Train , я використав наступний код matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` …

34 data-visualization clustering matlab

3

Чому існує різниця між ручним обчисленням логістичної регресії 95% довірчого інтервалу та використанням функції conint () в R?

Дорогі всі - я помітив щось дивне, чого я не можу пояснити, чи не так? Підсумовуючи: ручний підхід до обчислення довірчого інтервалу в моделі логістичної регресії та функції R confint()дають різні результати. Я пережив прикладну логістичну регресію Hosmer & Lemeshow (2-е видання). У 3-й главі є приклад обчислення коефіцієнта шансів …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

2

Чи існує варіант коробки для розподілених даних Пуассона?

Мені хотілося б дізнатися, чи існує варіант боксплотів, адаптований до розподілених даних Пуассона (чи, можливо, інших розподілів)? При гауссовому розподілі вуса, розміщені при L = Q1 - 1,5 IQR і U = Q3 + 1,5 IQR, боксплот має властивість того, що буде приблизно стільки ж низьких залишків (балів нижче L), …

33 data-visualization poisson-distribution boxplot

3

Набори даних, побудовані для цілей, подібних до квартету Anscombe

Я щойно натрапив на квартет Anscombe (чотири набори даних, які мають майже нерозрізнену описову статистику, але виглядають зовсім інакше, якщо побудовано на графіці), і мені цікаво, чи є інші більш-менш відомі набори даних, які були створені для демонстрації важливості певних аспектів статистичних аналізів.

32 regression data-visualization dataset

2

Виконання статистичного тесту після візуалізації даних - драгування даних?

Я запропоную це питання на прикладі. Припустимо, у мене є набір даних, такий як набір даних про ціни на житло в Бостоні, в якому я маю безперервні і категоричні змінні. Тут ми маємо змінну «якість» від 1 до 10 та ціну продажу. Я можу розділити дані на будинки "низької", "середньої" …

31 hypothesis-testing data-visualization p-value dataset inference

5

Багато написано про вибір кольорових сліпих кольорів для карт, полігонів та затінених регіонів загалом (див., Наприклад, http://colorbrewer2.org ). Мені не вдалося знайти рекомендації щодо кольорів ліній та різної товщини ліній для графіків ліній. Цілі: легко розрізнити лінії, навіть коли вони переплітаються лінії легко відрізнити окремими особами з найпоширенішими формами кольорової …

31 r data-visualization

2

Як побудувати межу рішення k-найближчого класифікатора сусіда з елементів статистичного навчання?

Я хочу створити сюжет, описаний у книзі ElemStatLearn "Елементи статистичного навчання: видобуток даних, висновок та прогнозування. Друге видання" Тревор Хасті та Роберт Тібширані та Джером Фрідман. Сюжет: Мені цікаво, як я можу створити цей точний графік R, особливо зверніть увагу на сітку графіку та обчислення, щоб показати межу.

31 r data-visualization k-nearest-neighbour

3

Візуалізуючи мільйон, видання PCA

Чи можливо візуалізувати результати аналізу основних компонентів способами, які дають більше розуміння, ніж просто зведені таблиці? Чи можна це зробити, коли кількість спостережень велика, скажімо ~ 1e4? І чи можна це робити в R [інші середовища]?

31 r data-visualization pca biplot

8

Інструменти з відкритим кодом для візуалізації багатовимірних даних?

Крім gnuplot і ggobi , які інструменти з відкритим кодом використовують люди для візуалізації багатовимірних даних? Gnuplot - це більш-менш базовий графічний пакет. Ггобі може зробити ряд чудових речей, таких як: анімувати дані в межах виміру або серед дискретних колекцій анімувати лінійні комбінації, що змінюють коефіцієнти обчислити основні компоненти та …

31 data-visualization open-source

Запитання з тегом «data-visualization»