Запитання з тегом «descriptive-statistics»

Описова статистика узагальнює особливості вибірки, такі як середні та стандартні відхилення, медіана та квателі, максимум та мінімум. З декількома змінними може включати кореляції та перехресні вкладки. Може включати візуальні дисплеї - боксплоти, гістограми, розсіювачі тощо.

5
Яка різниця між нормалізацією та стандартизацією?
На роботі ми обговорювали це, оскільки мій начальник ніколи не чув про нормалізацію. У лінійній алгебрі нормалізація ніби позначає ділення вектора на його довжину. А в статистиці стандартизація, схоже, посилається на віднімання середнього, а потім ділення на його SD. Але вони здаються взаємозамінними і з іншими можливостями. Коли ви створюєте …


3
Приклад: регресія LASSO з використанням glmnet для двійкового результату
Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
Як "підбити" стандартне відхилення?
У мене є середньомісячне значення та стандартне відхилення, що відповідає цьому середньому. Зараз я обчислюю річну середню як суму середньомісячних середніх, як я можу представити стандартне відхилення для підсумованого середнього? Наприклад, враховуючи вихід з вітроелектростанції: Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 …

8
Які хороші основні статистичні дані використовувати для порядкових даних?
У мене є деякі порядкові дані, отримані з питань опитування. У моєму випадку це відповіді у стилі Лікерта (категорично не погоджуюсь-не погоджуюся-нейтрально-погоджуюся - сильно погоджуюсь). У моїх даних вони кодуються як 1-5. Я не думаю, що засоби означатимуть тут багато чого, тому яка основна підсумкова статистика вважається корисною?


8
Сучасний наступник дослідницького аналізу даних Tukey?
Я читав книгу Тукі «Дослідницький аналіз даних». Написана в 1977 році, книга наголошує на методах паперу / олівця. Чи є більш «сучасний» наступник, який враховує, що ми можемо миттєво побудувати великі набори даних?

5
Кореляції між неперервними та категоричними (номінальними) змінними
Я хотів би знайти співвідношення між суцільною (залежною змінною) та категоріальною (номінальною: стать, незалежна змінна) змінною. Постійні дані зазвичай не поширюються. Раніше я обчислював це за допомогою Spearman . Однак мені сказали, що це неправильно.ρρ\rho Під час пошуку в Інтернеті я виявив, що boxplot може дати уявлення про те, наскільки …

3
Емпірична залежність між середньою, медіаною та модою
Для унімодального розподілу, який помірно перекошений, ми маємо таку емпіричну залежність між середньою, медіаною та модою: Яким чином були виведені ці відносини?(Середній - режим) ∼ 3(Середній - середній)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Чи побудував Карл Пірсон тисячі цих відносин, перш ніж сформувати цей висновок, …

8
Функція огляду графічних даних (резюме) в R
Я впевнений, що раніше я стикався з такою функцією в пакеті R, але після обширного гуглінгу я не можу знайти його ніде. Функція, про яку я думаю, створила графічний підсумок для заданої йому змінної, даючи вихід з деякими графіками (гістограмою, можливо, графікою коробки та вуса) та деяким текстом, що дає …

6
Чому знаменник оцінки коваріації не повинен бути n-2, а не n-1?
Знаменник (неупередженого) оцінювача дисперсії дорівнює n−1n−1n-1 оскільки є nnn спостережень і оцінюється лише один параметр. V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Тим самим я дивуюсь, чому не повинен знаменник коваріації бути n−2n−2n-2 коли оцінюються два параметри? Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

3
Чому існує різниця між ручним обчисленням логістичної регресії 95% довірчого інтервалу та використанням функції conint () в R?
Дорогі всі - я помітив щось дивне, чого я не можу пояснити, чи не так? Підсумовуючи: ручний підхід до обчислення довірчого інтервалу в моделі логістичної регресії та функції R confint()дають різні результати. Я пережив прикладну логістичну регресію Hosmer & Lemeshow (2-е видання). У 3-й главі є приклад обчислення коефіцієнта шансів …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

7
Як інтерпретувати коефіцієнт варіації?
Я намагаюся зрозуміти коефіцієнт варіації . Коли я намагаюся застосувати його до наступних двох зразків даних, я не можу зрозуміти, як інтерпретувати результати. Скажімо, зразок 1 дорівнює а зразок 2 - . Тут зразок 2 зразок 1 як ви бачите.10 , 15 , 17 , 22 , 21 , 27 …

5
Як боротися з ієрархічними / вкладеними даними в машинному навчанні
Я поясню свою проблему на прикладі. Припустимо, ви хочете передбачити дохід фізичної особи за деякими ознаками: {Вік, стать, країна, регіон, місто}. У вас такий навчальний набір даних train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
Чи варіація збігається з дисперсією?
Це моє перше питання щодо перехресної перевірки тут, тому, будь ласка, допоможіть мені, навіть якщо це здається тривіальним :-) Перш за все, питання може бути результатом мовних розбіжностей або, можливо, у мене справжні недоліки в статистиці. Тим не менш, ось це: Чи є зміна та відхилення в статистиці населення однаковими …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.