Запитання з тегом «z-test»

Z-критерій - це статистичний тест для перевірки гіпотез, який використовує стандартний нормальний розподіл як розподіл вибірки статистичної проби. Поширеним прикладом є тест на різницю двох пропорцій.

2
Який взаємозв'язок між тестом чи-ква та тестом рівних пропорцій?
Припустимо, у мене є три групи з чотирма взаємовиключними характеристиками. Я беру випадкові зразки з кожної сукупності і будую перехресну таблицю або таблицю частот для характеристик, які я вимірюю. Чи правильно я кажу, що: Якщо я хотів би перевірити, чи існує взаємозв'язок між сукупністю та характеристиками (наприклад, чи одна популяція …

5
Як боротися з ієрархічними / вкладеними даними в машинному навчанні
Я поясню свою проблему на прикладі. Припустимо, ви хочете передбачити дохід фізичної особи за деякими ознаками: {Вік, стать, країна, регіон, місто}. У вас такий навчальний набір даних train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
Вибір між -test та -test
Передумови: я викладаю колегам, які працюють на тестуванні гіпотез, і розумію більшу частину цього чудово, але є один аспект, який я зав’язую у вузли, намагаючись зрозуміти, а також пояснюю іншим. Це я думаю, що знаю (будь ласка, виправте, якщо не так!) Статистика, яка була б нормальною, якби відома дисперсія, слідкуйте …

4
Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій
Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
На якому рівні тест
Передумови: Пропустити безпечно - це тут для довідки та узаконити питання. У відкритті цього документу написано: "Знаменитий тест на випадок надзвичайної ситуації Карла Пірсона отриманий з іншої статистики, званої z статистикою z, заснованої на нормальному розподілі. Найпростіші версії χ2χ2\chi^2 можуть бути математично ідентичні еквівалентним z тестам. Тести дають той же …

2
T-тест незалежних зразків: Чи дійсно потрібно нормально розподіляти дані для великих розмірів вибірки?
Скажімо, я хочу перевірити, чи мають два незалежні зразки різні засоби. Я знаю, що базовий розподіл не є нормальним . Якщо я правильно розумію, моя тестова статистика - це середнє значення , а для достатньо великих розмірів вибірки середнє значення повинно стати нормально розподіленим, навіть якщо вибірки не є. Отже, …

5
Як виконати імпутацію значень у дуже великій кількості точок даних?
У мене дуже великий набір даних, і близько 5% випадкових значень відсутні. Ці змінні співвідносяться між собою. Наступний приклад набору даних R - це лише іграшковий приклад з манекено-корельованими даними. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Тест на співвідношення ймовірності та тест Вальда дають різний висновок щодо glm в R
Я відтворюю приклад із узагальнених, лінійних та змішаних моделей . Мій MWE нижче: Dilution <- c(1/128, 1/64, 1/32, 1/16, 1/8, 1/4, 1/2, 1, 2, 4) NoofPlates <- rep(x=5, times=10) NoPositive <- c(0, 0, 2, 2, 3, 4, 5, 5, 5, 5) Data <- data.frame(Dilution, NoofPlates, NoPositive) fm1 <- glm(formula=NoPositive/NoofPlates~log(Dilution), family=binomial("logit"), …

6
Як ми можемо дізнатися коливання населення?
У тестуванні гіпотез поширене питання - що таке дисперсія населення? Моє запитання - як ми можемо коли-небудь знати дисперсію населення? Якби ми знали весь розподіл, ми також могли б знати середню кількість всього населення. Тоді в чому сенс тестування гіпотез?
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.