Запитання з тегом «sample»

Вибірка - це підмножина популяції. Статистика, як правило, стосується використання вибірок для висновку про параметри, що регулюють більшу (можливо, нескінченну) сукупність.

25
Розміщення вільно доступних зразків даних
Я працював над новим методом аналізу та аналізу наборів даних для ідентифікації та ізоляції підгруп населення без попереднього усвідомлення особливостей будь-якої підгрупи. Хоча метод досить добре працює зі штучними зразками даних (тобто наборами даних, створеними спеціально для ідентифікації та сегрегації підмножини населення), я хотів би спробувати протестувати його з живими …


3
R: Випадковий ліс, який кидає NaN / Inf у помилці "виклику іноземної функції", незважаючи на відсутність набору даних NaN [закритий]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 2 роки тому . Я використовую caret, щоб запустити перехрещений випадковий ліс над набором даних. Змінна Y - фактор. У моєму наборі даних немає NaN, Inf …

3
Що робити, якщо ваша випадкова вибірка явно не є репрезентативною?
Що робити, якщо взяти випадкову вибірку, і ви побачите, вона явно не є репрезентативною, як у недавньому питанні . Наприклад, що робити, якщо розподіл популяції повинен бути симетричним приблизно 0, а вибірка, яку ви малюєте випадковим чином, має незбалансовані позитивні та негативні спостереження, а дисбаланс є статистично значущим, де це …

1
Обчислювальна повторюваність ефектів від lmer-моделі
Я щойно натрапив на цю статтю , в якій описано, як обчислити повторюваність (він же - надійність, також внутрішньокласова кореляція) вимірювання за допомогою моделювання змішаних ефектів. R-код буде: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Чи може ступінь свободи бути цілим числом?
Коли я використовую GAM, це дає мені залишковий коефіцієнт DF (останній рядок у коді). Що це означає? Виходячи за приклад GAM, загалом, чи може число ступенів свободи бути нецілим числом?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
Як я можу зрозуміти, який тип розподілу представляє ці дані про час відгуку на ping?
Я взяв вибірковий процес у реальному світі, час пінг-мережі. "Час у зворотній час" вимірюється в мілісекундах. Результати наведені в гістограмі: Часи пінг мають мінімальне значення, але довгий верхній хвіст. Хочу знати, що це статистичний розподіл, і як оцінити його параметри. Незважаючи на те, що розподіл не є нормальним розподілом, я …


3
Завантажувальний інструмент: питання про оснащення
Припустимо, виконується так звана непараметрична завантажувальна програма шляхом складання зразків розміром кожна з вихідних спостережень із заміною. Я вважаю, що ця процедура рівнозначна оцінці функції кумулятивного розподілу за емпіричним cdf:BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function а потім отримання зразків завантажувальної машини шляхом імітації спостережень із розрахункового cdf разів підряд.nnnBBB Якщо я маю рацію в …

3
Використовуючи середню довжину та середню вагу для обчислення середнього ІМТ?
Чи справедливо використовувати середню довжину ( ) та середню вагу ( )) від даної сукупності для обчислення середнього показника ( ) для цієї популяції?годhhшwwБ МЯ= шгод2BMI=wh2BMI = \frac{w}{h^2}

4
Чи є якась кількісна властивість населення «параметром»?
Я відносно знайомий з різницею між термінами статистика та параметр. Я бачу статистику як значення, отримане від застосування функції до вибіркових даних. Однак більшість прикладів параметрів стосуються визначення параметричного розподілу. Поширений приклад - середнє та стандартне відхилення для параметризації нормального розподілу або коефіцієнтів та відхилень помилок для параметризації лінійної регресії. …

1
Велика асимптотика зразка / теорія - Чому варто піклуватися?
Я сподіваюсь, що це питання не буде позначене "як занадто загальне" і сподіваюся, що розпочнеться дискусія, яка користь усім. У статистиці ми витрачаємо багато часу, вивчаючи великі вибіркові теорії. Ми глибоко зацікавлені в оцінці асимптотичних властивостей наших оцінювачів, включаючи, чи є вони асимптотично неупередженими, асимптотично ефективними, їх асимптотичним розподілом тощо. …

1
ЛАРС проти координатного спуску для ласо
Які плюси та мінуси використання LARS [1] проти використання координатного спуску для встановлення L1-регульованої лінійної регресії? Мене в основному цікавлять аспекти ефективності (мої проблеми мають, як правило, Nсотні тисяч і p<20). Однак, будь-які інші дані також будуть оцінені. редагувати: Оскільки я розмістив запитання, chl люб'язно вказав на статтю [2] Friedman …

2
Яка різниця між випадковою змінною та випадковою вибіркою?
Ці два вирази мене сильно збентежили, коли я вивчав статистику. Мені здається, це абсолютно різні речі. Випадкова вибірка є випадковим чином взяти пробу з популяції, в той час як випадкова величина , як функція , яка відображає безліч всіх можливих результатів експерименту з реальним числом. Однак скажіть, якщо я малюю …

2
Чи виграні змагання з Kaggle випадково?
Змагання з Kaggle визначають остаточний рейтинг на основі проведеного тестового набору. Проведений тестовий набір - зразок; він може не репрезентувати населення, яке моделюється. Оскільки кожне подання схоже на гіпотезу, алгоритм, який виграв змагання, може, як правило, збігатися з тестовим набором краще, ніж інші. Іншими словами, якби обраний інший тестовий набір …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.