Статистика та великі дані data-visualization

1

Об'єднання калібрувальних графіків після багаторазової імпутації

Я хотів би поради щодо об'єднання графіків / статистичних даних щодо калібрування після багаторазової імпутації. Налагоджуючи розробку статистичних моделей з метою прогнозування майбутньої події (наприклад, використовуючи дані з лікарняних записів для прогнозування виживання після лікарні або після подій у лікарні), можна уявити, що є дещо до безлічі відомостей. Множинна імпутація …

15 data-visualization data-imputation multiple-imputation pooling calibration

4

Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій

Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

11

Відображення трьох фрагментів інформації на графіку

Примітка: зараз додається 50 балів вихідних даних. Я хочу відобразити, скільки я проробив, і скільки сторінок я закінчив протягом тижня, розбиваючись по днях, і я зробив так, як показано нижче: У мене люди говорили, що вони не можуть зрозуміти графіки, але я не маю уявлення, як ще я можу їх …

15 data-visualization

1

Яка інтуїція за обмінними зразками під нульовою гіпотезою?

Перестановочні тести (також називаються тестом рандомизації, тестом на повторну рандомізацію або точним тестом) дуже корисні і корисні, коли припущення про нормальний розподіл, необхідне, наприклад, t-testне виконується, і при перетворенні значень за ранжуванням непараметричний тест, як-от Mann-Whitney-U-test, призведе до втрати більше інформації. Однак одне і єдине припущення не слід оминути увагою …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

Інтерпретація змінних графіків трасування LASSO

Я новачок у glmnetпакеті, і досі не знаю, як інтерпретувати результати. Може хто-небудь, будь ласка, допоможе мені прочитати наступний сюжетний сюжет? Графік отримували, виконавши наступне: library(glmnet) return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ]) data <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), ncol=num.factors) model <- cv.glmnet(data, return, standardize=TRUE) op <- par(mfrow=c(1, 2)) plot(model$glmnet.fit, "norm", label=TRUE) plot(model$glmnet.fit, "lambda", …

15 r data-visualization interpretation lasso glmnet

1

Візуалізація змішаних результатів моделі

Однією з проблем, які у мене завжди були зі змішаними моделями, є розбір даних про візуалізацію даних - такого, який міг би опинитися на папері чи плакаті - як тільки вони отримають результати. Зараз я працюю над моделлю змішаних ефектів Пуассона з формулою, яка виглядає приблизно так: a <- glmer(counts …

15 r data-visualization mixed-model

2

Поєднання класифікаторів, гортаючи монету

Я вивчаю курс машинного навчання, а слайди лекцій містять інформацію, що мені суперечить рекомендованій книзі. Проблема полягає в наступному: є три класифікатори: класифікатор A, що забезпечує кращі показники роботи в нижньому діапазоні порогів, класифікатор B, що забезпечує більш високу продуктивність у більш високому діапазоні порогів, класифікатор C, що ми отримуємо, …

15 machine-learning probability data-visualization classification roc

3

Найкращий спосіб візуалізації виснаження за допомогою R?

Через цей сайт я нещодавно відкрив діаграми Sankey - прекрасний спосіб візуалізації того, що відбувається в традиційній схемі потоків. Ось хороший приклад діаграми Санкі Джорджа М. Уайтсайдса та Джорджа В. Кребтрі , Джерело; Не забувайте про довгострокові фундаментальні дослідження в галузі енергетики , наука 9 лютого 2007: Вип. 315. ні. …

15 r data-visualization sankey-diagram

1

Як побудувати функцію сходових сходів за допомогою ggplot?

Заблокований . Це запитання та його відповіді заблоковано, оскільки це питання поза темою, але має історичне значення. Наразі не приймає нових відповідей чи взаємодій. У мене такий графік: R код для його генерації: DF <- data.frame(date = as.Date(runif(100, 0, 800),origin="2005-01-01"), outcome = rbinom(100, 1, 0.1)) DF <- DF[order(DF$DateVariable),] #Sort by …

15 r data-visualization ggplot2

4

Як я можу покращити аналіз впливу репутації на голосування?

Нещодавно я провів аналіз впливу репутації на рекламних рефератах (див. Допис у блозі ), а згодом у мене виникло кілька питань щодо можливо більш просвічуючого (або більш підходящого) аналізу та графіки. Отож кілька запитань (і сміливо відповідайте на когось, зокрема, ігноруйте інших): У своєму втіленні я не мав на увазі …

15 data-visualization large-data fixed-effects-model

2

Показати середній замість медіани у boxplot [закрито]

Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 5 місяців тому . При побудові графіки коробки з пітон-матплотлібом рядки на півдорозі ділянки є медіаною розподілу. Чи є можливість замість цього рядка в середньому. Або …

15 data-visualization python matplotlib boxplot

5

Хороший спосіб графічно показати багато даних

Я працюю над проектом, який включає 14 змінних та 345 000 спостережень за даними про житло (такі речі, як рік побудови, квадратні метри, продана ціна, графство проживання тощо). Мене хвилює намагання знайти хороші графічні прийоми та бібліотеки R, які містять приємні методики побудови графіків. Я вже бачу, що в ggplot …

15 r data-visualization large-data eda

8

Альтернативна графіка для графіків "обробляти смугу"

У моєму дослідженні популярним способом відображення даних є використання комбінації діаграми з "ручками". Наприклад, "Ручки" чергуються між стандартними помилками та стандартними відхиленнями залежно від автора. Зазвичай розміри вибірки для кожного «бруска» досить невеликі - близько шести. Ці сюжети здаються особливо популярними в біологічних науках - див. Перші приклади BMC Biology, …

15 data-visualization

1

Найкращий спосіб візуально представити відносини з декількох лінійних моделей

У мене є лінійна модель з приблизно 6 провісниками, і я буду представляти оцінки, значення F, значення p тощо. Однак мені було цікаво, що було б найкращим візуальним сюжетом для представлення індивідуального ефекту одного прогноктора змінна відповідь? Діаграма розкиду? Умовна ділянка? Ефекти сюжету? тощо? Як би я трактував цей сюжет? …

15 r regression data-visualization multiple-regression partial-plot

3

Як побудувати графік виведення даних кластеризації?

Я спробував згрупувати набір даних (набір знаків) і отримав 2 кластери. Я хотів би це графічно представити. Трохи розгублений у поданні, оскільки у мене немає координат (x, y). Також шукає функцію MATLAB / Python для цього. EDIT Я думаю, що розміщення даних робить питання зрозумілішим. У мене є два кластери, …

15 clustering data-visualization python

Запитання з тегом «data-visualization»