Запитання з тегом «multivariate-analysis»

Аналізи, де є декілька змінних, що аналізуються разом, і ці змінні або залежні (відповіді), або єдині в аналізі. Це може протиставлятися "багаторазовому" або "багатоваріантному" аналізу, який передбачає більше однієї прогнозної (незалежної) змінної.

5
Які навички потрібні для проведення масштабних статистичних аналізів?
Багато статистичних робочих місць вимагають досвіду з великими масштабами даних. Назвіть види статистичних та обчислювальних навичок, які знадобляться для роботи з великими наборами даних. Наприклад, як щодо побудови регресійних моделей з набором даних з 10 мільйонів зразків?

13
Який найкращий спосіб визначити людей, що переживають люди в багатовимірних даних?
Припустимо, у мене є великий набір багатоваріантних даних, принаймні три змінні. Як я можу знайти аутлієрів? Парні розсіювачі не працюватимуть, оскільки можливе існування зовнішньої структури в трьох вимірах, що не є стороннім у жодному з двох розмірних підпросторів. Я думаю не про проблему регресії, а про справжні багатовимірні дані. Тож …

3
Чи можливо мати пару гауссових випадкових величин, для яких спільний розподіл не є гауссовим?
Хтось задав мені це запитання в інтерв'ю для роботи, і я відповів, що їх спільний розподіл завжди гауссовий. Я думав, що я завжди можу написати двозначного гаусса їх засобами та дисперсією та коваріацією. Мені цікаво, чи може бути випадок, для якого спільна ймовірність двох гауссів не є гауссом?

3
Приклад: регресія LASSO з використанням glmnet для двійкового результату
Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Багатовимірна множинна регресія в R
У мене є 2 залежні змінні (DV), на кожну з яких може впливати набір 7 незалежних змінних (IV). ДВ є безперервними, тоді як набір ІV складається з суміші безперервних і двійкових кодованих змінних. (У коді нижче безперервні змінні записуються великими літерами, а двійкові змінні - малими літерами.) Метою дослідження є …

2
Який взаємозв'язок між незалежним компонентним аналізом та факторним аналізом?
Я новачок у незалежному аналізі компонентів (ICA) і просто розумію цей метод. Мені здається, що ІКА схожа на Факторний аналіз (FA) за одним винятком: ICA передбачає, що спостережувані випадкові величини є лінійною комбінацією незалежних компонентів / факторів, які не є гауссовими, тоді як класична модель FA передбачає, що спостережувані випадкові …

5
Чи коригування р-значень у множинній регресії для кількох порівнянь є гарною ідеєю?
Припустимо, ви дослідник соціологічних наук / економетрист, який намагається знайти відповідних прогнозів попиту на послугу. У вас є 2 змінних, що залежать від результату / описують попит (використовуючи послугу "Так / ні" та кількість випадків). У вас є 10 змінних прогнозів / незалежних, які теоретично можуть пояснити попит (наприклад, вік, …

3
Яка інтуїція стоїть за умовними розподілами Гаусса?
Нехай X ∼ N2( μ , Σ )X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma}) . Тоді умовний розподіл Х1X1X_1 огляду на те, що Х2= х2X2=x2X_2 = x_2 є багатоваріантним, нормально розподіленим із середнім: Е[ С( X1| Х2= х2) ] = μ1+ σ12σ22( х2- мк2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) і дисперсія: …

3
Інтерпретація прогнозованого прогнозу та / або відповіді перетвореного журналом
Мені цікаво, чи має значення інтерпретація, чи трансформуються лише залежні, і залежні, і незалежні, або лише незалежні змінні. Розглянемо випадок log(DV) = Intercept + B1*IV + Error Я можу трактувати ІV як збільшення відсотка, але як це змінюється, коли я маю log(DV) = Intercept + B1*log(IV) + Error або коли …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
Чим показники схильності відрізняються від регресії додавання коваріатів і коли вони віддають перевагу останнім?
Я визнаю, що я відносно новачок у показниках схильності та причинному аналізі. Одне, що не очевидно для мене як для новачків, - це те, як «врівноваження» за допомогою балів схильності математично відрізняється від того, що відбувається, коли ми додаємо коваріати в регресію? Що відрізняється від операції, і чому це (або …

1
PCA та кореспондентський аналіз у їхньому відношенні до Біплота
Біплот часто використовується для відображення результатів аналізу основних компонентів (та відповідних методик). Це подвійне або накладення розсіювання показуючи компонентів навантаження і компонентів оцінки одночасно. Сьогодні мене повідомив @amoeba, що він дав відповідь, відходячи від мого коментаря, на запитання, яке запитує про те, як виробляються / масштабуються координати біплотів; і його …

3
Чому існує різниця між ручним обчисленням логістичної регресії 95% довірчого інтервалу та використанням функції conint () в R?
Дорогі всі - я помітив щось дивне, чого я не можу пояснити, чи не так? Підсумовуючи: ручний підхід до обчислення довірчого інтервалу в моделі логістичної регресії та функції R confint()дають різні результати. Я пережив прикладну логістичну регресію Hosmer & Lemeshow (2-е видання). У 3-й главі є приклад обчислення коефіцієнта шансів …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

7
Чи є прийняте визначення медіани вибірки на площині чи вищих упорядкованих пробілів?
Якщо так, то що? Якщо ні, то чому б і ні? Для вибірки на лінії медіана мінімізує повне абсолютне відхилення. Здавалося б, природно розширити визначення на R2 тощо, але я його ніколи не бачив. Але потім я давно був у лівому полі.

5
Як боротися з ієрархічними / вкладеними даними в машинному навчанні
Я поясню свою проблему на прикладі. Припустимо, ви хочете передбачити дохід фізичної особи за деякими ознаками: {Вік, стать, країна, регіон, місто}. У вас такий навчальний набір даних train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
SVD корельованої матриці має бути добавкою, але, здається, не є
Я просто намагаюся повторити заяву, викладену в наступному документі, знаходження корельованих бікластерів з даних даних про вираження генів , а саме: Пропозиція 4. Якщо . то ми маємо:ХЯJ= RЯСТJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} i. Якщо є ідеальним бікластером з адитивною моделлю, то - це ідеальний бікластер з кореляцією по стовпцях; ii. Якщо - ідеальний …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.