Статистика та великі дані data-visualization

4

Як візуалізувати незалежний два зразки t-тесту?

Які найприйнятніші способи візуалізації результатів незалежного двох вибіркових тестів? Чисельніша таблиця частіше використовується чи якийсь сюжет? Мета полягає у тому, щоб випадковий спостерігач подивився на фігуру і відразу побачив, що вони, ймовірно, з двох різних груп населення.

11 data-visualization t-test

6

Як зменшити кількість точок даних у серії?

Я не вивчав статистику більше 10 років (а потім просто основний курс), тому, можливо, моє питання трохи важко зрозуміти. У будь-якому випадку, я хочу зробити це зменшити кількість точок даних у серії. Вісь x - це кількість мілісекунд від початку вимірювання, а вісь y - це показник для цієї точки. …

11 data-visualization

2

Чи охоплює парадокс Сімпсона всі випадки повернення від прихованої змінної?

Далі йде питання про безліч візуалізацій, пропонованих як «доказ за картиною» існування парадоксу Сімпсона, і, можливо, питання про термінологію. Парадокс Сімпсона - досить просте явище для опису та надання чисельних прикладів (причина, чому це може статися, є глибокою та цікавою). Парадокс полягає в тому, що існують таблиці на випадок 2–2x2 …

10 mathematical-statistics data-visualization causality contingency-tables simpsons-paradox

1

Інтервал між полями та інтервалом Тукі-Крамера

Довідковий документ "notch" ( або оригінальний текст ) від boxplot у "R" містить таке: Якщо виїмки двох сюжетів не перетинаються, це є «вагомим доказом» того, що два медіани відрізняються (Chambers et al, 1983, p. 62). Дивіться boxplot.stats для використаних розрахунків. а " boxplot.stats " містить таке: Виїмки (якщо вимагається) поширюються …

10 data-visualization median boxplot tukey-hsd

1

Позначення прогнозованих значень у часових рядах ARIMA в R

У цьому питанні, мабуть, існує більше ніж одне серйозне непорозуміння, але воно не має на меті правильне обчислення, а мотивувати вивчення часових рядів з деякою увагою. Намагаючись розібратися у застосуванні часових рядів, здається, що неначе тренд даних робить передбачення майбутніх значень неправдоподібними. Наприклад, gtempчасовий ряд із astsaпакету виглядає приблизно так: …

10 r time-series data-visualization

2

Як називається цей тип сюжету за допомогою горизонтальних смуг, розташованих поруч з центром?

Як би ви назвали цей тип сюжетів, і чи можливо їх створити в R? EDIT: велике спасибі всім - дуже корисно. Найкраща назва досі: квантовані сюжетні скрипки!

10 r data-visualization

1

Що розуміється під PCA збереженням лише великих парних відстаней?

Зараз я читаю техніку візуалізації t-SNE, і було зазначено, що одним із недоліків використання аналізу основних компонентів (PCA) для візуалізації високомірних даних є те, що він зберігає лише великі парні відстані між точками. Значущі точки, які знаходяться далеко в просторі великого розміру, також з'являтимуться далеко в низькомірному підпросторі, окрім того, …

10 machine-learning data-visualization pca tsne

1

Уточнення щодо читання номограми

Далі йде номограма, створена з набору даних mtcars з пакетом rms для формули: mpg ~ wt + am + qsec Сама модель здається гарною з R2 0,85 і P <0,00001 > mod Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination …

10 regression multiple-regression data-visualization predictive-models regression-strategies

3

Підхід та приклад кластеризації графіків у “R”

Я шукаю згрупувати / об’єднати вузли в графі, використовуючи кластеризацію граф у 'r'. Ось надзвичайно іграшка варіація моєї проблеми. Є два "кластери" Існує "міст", що з'єднує кластери Ось кандидатська мережа: Коли я дивлюсь на відстань з'єднання, "рахунок", якщо ви хочете, то я можу отримати таку матрицю: mymatrix <- rbind( c(1,1,2,3,3,3,2,1,1,1), …

10 r clustering data-visualization numerics

2

Як візуалізувати відсотки порівняно з кількістю записів.

Я намагаюся знайти найкращий спосіб візуалізації наведеної нижче діаграми та підкреслити ефективність лікування, призначену для кількості пацієнтів, які пробували лікування. Ось посилання на фактичну сторінку: http://curetogether.com/cluster-headaches/treatments/ Який найкращий спосіб підкреслити ефективність, при цьому полегшуючи порівняння методів лікування та бачити, скільки пацієнтів оцінили кожен? Моя думка полягала в тому, щоб показати …

10 data-visualization pie-chart

3

Як витягнути інформацію з матриці розсипання, коли у вас великий N, дискретні дані та багато змінних?

Я граю з набором даних про рак молочної залози і створив розсип усіх атрибутів, щоб зрозуміти, які з них мають найбільший вплив на прогнозування класу malignant(синій) benign(червоний). Я розумію, що рядок являє собою вісь x, а стовпець являє собою вісь y, але я не бачу, які спостереження я можу зробити …

10 r data-visualization interpretation scatterplot

1

Візуалізація багатьох дистрибуторів з лівою косою

У мене є серія дистрибуцій з лівим косим / важким хвостом, які я хотів би показати. Є 42 розподілу через три фактори (позначено як A, Bі Cнижче). Також варіація зменшується в залежності від фактору B. Проблема в мені полягає в тому, що розподіли важко розрізнити за шкалою результату (коефіцієнт чи …

10 data-visualization multivariate-analysis heteroscedasticity skewness boxplot

2

Складання зведеної статистики із середнім значенням, sd, min та max?

Я з економічного походження, і зазвичай в цій дисципліні підсумкова статистика змінних подається в таблиці. Однак я хочу їх скласти. Я міг би змінити графік коробки, щоб він міг відображати середнє, стандартне відхилення, мінімум та максимум, але я не хочу цього робити, оскільки графічні коробки традиційно використовуються для відображення медіанів …

10 r data-visualization boxplot

2

Дослідження матриці розсіювання графіків для багатьох змінних

Я аналізую набір даних з багатьма параметрами (скажімо, 50-200) і мені цікаво розглянути співвідношення між змінними (наприклад, з точки зору 2-змінних графіків розсіювання або 2-х гістограм). Однак для такої кількості параметрів видається нездійсненним намалювати масив ділянок розміром 200x200 (якщо тільки я не надрукую його і не повішу на стіну). З …

10 correlation data-visualization multivariate-analysis scatterplot

3

Як візуалізувати байєсовську користь пристосованості для логістичної регресії

Для проблеми байєсівської логістичної регресії я створив задній прогнозний розподіл. Я беру вибірку з прогнозного розподілу і отримую тисячі зразків (0,1) за кожне маю спостереження. Візуалізація корисності придатності є менш ніж цікавою, наприклад: Цей сюжет показує 10 000 зразків + спостережна точка даної точки (шлях зліва може виділити червону лінію: …

10 bayesian data-visualization classification goodness-of-fit binary-data

Запитання з тегом «data-visualization»