Запитання з тегом «sample-size»

Цей тег дуже неоднозначний. Використовуйте його, коли питання щодо розміру вибірки і НІКОЛІ з наступного є більш доречним: [малий вибірки], [великі дані], [аналіз потужності], [потужність], [недоозначений] або [неврівноважений-класи].

4
Наскільки великою повинна бути вибірка для заданої методики та параметрів оцінки?
Чи існує велике правило або взагалі якийсь спосіб сказати, наскільки великим повинен бути зразок, щоб оцінити модель з заданою кількістю параметрів? Так, наприклад, якщо я хочу оцінити регресію найменших квадратів з 5 параметрами, наскільки великим повинен бути зразок? Чи не має значення, яку техніку оцінювання ви використовуєте (наприклад, максимальна ймовірність, …

1
Чому великий вибір K знижує показник перехресної перевірки?
Граючи з набором даних Boston Housing Dataset та RandomForestRegressor(з параметрами за замовчуванням) у scikit-learn, я помітив щось дивне: середній бал перехресної перевірки зменшився, оскільки я збільшив кількість складок понад 10. Моя стратегія крос-валідації була така: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... де num_cvsбуло різноманітно. Я …

1
Чи підходить завантажувальна програма для цих постійних даних?
Я повний новачок :) Я роблю дослідження з розміром вибірки 10 000 від населення близько 745 000. Кожен зразок являє "відсоткову схожість". Переважна більшість зразків становить приблизно 97% -98%, але кілька - від 60% до 90%, тобто розподіл сильно негативно перекошений. Приблизно 0,6% результатів становлять 0%, але вони будуть розглянуті …

4
Що означає перенапруження дослідження?
Що означає перенапруження дослідження? Моє враження полягає в тому, що це означає, що розміри вибірки настільки великі, що ви маєте змогу визначати мізерні розміри ефектів. Ці розміри ефектів, можливо, настільки малі, що вони швидше є наслідком незначних упереджень у процесі вибірки, ніж (не обов'язково прямого) причинного зв'язку між змінними. Це …

1
Розмір зразка, необхідний для визначення, який із набору рекламних оголошень має найвищу швидкість кліку
Я є дизайнером програмного забезпечення в галузі торгівлі, і працюю над проектом для клієнта, і хотів би переконатися, що мій аналіз є статистично обгрунтованим. Розглянемо наступне: у нас є n рекламних оголошень (n <10), і ми просто хочемо знати, яке оголошення найкраще. Наш сервер оголошень буде випадково розміщувати одну з …

4
Розрахунок розміру вибірки для одновимірної логістичної регресії
Як можна обчислити розмір вибірки, необхідний для дослідження, в якому в когорті суб'єктів буде мати єдину безперервну змінну, виміряну на момент операції, а потім через два роки вони будуть класифіковані як функціональний результат або ослаблений результат. Ми хотіли б побачити, чи міг би цей показник передбачити поганий результат. У якийсь …

1
R / mgcv: Чому тензорні вироби te () і ti () створюють різні поверхні?
У mgcvпакеті Rє дві функції для встановлення тензорних взаємодій між продуктами: te()і ti(). Я розумію основний розподіл праці між двома (встановлення нелінійної взаємодії проти декомпозиції цієї взаємодії на основні ефекти та взаємодію). Чого я не розумію, це чому te(x1, x2)і ti(x1) + ti(x2) + ti(x1, x2)може давати (трохи) різні результати. …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
Чи SurveyMonkey ігнорує той факт, що ви отримуєте невипадкову вибірку?
SurveyMonkey має кроки та діаграму, щоб визначити, який розмір вибірки потрібен для заданого інтервалу помилок або довірчого інтервалу, виходячи з чисельності вашого населення. Розмір вибірки SurveyMonkey Чи просто ігнорує цей графік той факт, що ви не отримаєте випадкову вибірку, оскільки ви отримуєте лише людей, які турбуються відповісти на опитування? Коли …

2
Чи вагома залежність від точності (тобто зворотної дисперсії) є невід'ємною частиною мета-аналізу?
Чи точне зважування є основним для мета-аналізу? Боренштейн та ін. (2009) пишуть, що для мета-аналізу можливим є все необхідне: Дослідження повідомляють про бальну оцінку, яка може бути виражена як одне число. Для цієї бальної оцінки може бути обчислена варіація. Мені не відразу зрозуміло, чому (2) суворо необхідний. Дійсно, всі широко …

2
Як вибрати розміри навчальних, перехресних перевірок та тестових наборів для малих даних про розмір вибірки?
Припустимо, у мене невеликий розмір вибірки, наприклад N = 100, і два класи. Як я повинен вибрати розміри навчальних, перехресних перевірок та тестових наборів для машинного навчання? Я б інтуїтивно вибирав Розмір тренувального набору - 50 Перехресне встановлення набору розміром 25 та Розмір тесту - 25. Але, мабуть, це має …

2
Чи має сенс обчислювати довірчі інтервали та перевіряти гіпотези, коли дані цілої сукупності доступні?
Чи є сенс обчислювати довірчі інтервали та перевіряти гіпотези, коли дані доступні для всієї сукупності? На мою думку, відповідь - ні, оскільки ми можемо точно обчислити справжні значення параметрів. Але тоді, яка максимальна частка даних від вихідної сукупності дозволяє нам використовувати вищезгадані методи?

3
Аналіз потужності для біноміальних даних, коли нульовою гіпотезою є, що
Я хотів би зробити аналіз потужності для одного зразка з біноміальних даних з , порівняно з , де - частка успіхів у сукупності. Якщо , я міг би використати або нормальне наближення до двочленного, або -test, але при ці обидва не вдається. Я хотів би знати, чи є спосіб зробити …

1
Чому Anova () та drop1 () надали різні відповіді для GLMM?
У мене є GLMM форми: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Під час використання drop1(model, test="Chi")я отримую інші результати, ніж якщо я використовую Anova(model, type="III")з автомобільного пакета або summary(model). Ці два останні дають однакові відповіді. Використовуючи купу сфабрикованих даних, я виявив, що …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
Альтернативна ділянка воронки без використання стандартної помилки (SE)
Перш ніж подати мета-аналіз, я хочу зробити сюжет воронки для перевірки на неоднорідність та зміщення публікації. Я маю розмір об'єднаного ефекту та розміри ефектів від кожного дослідження, які приймають значення від -1 до +1. Я маю розміри вибірки n1, n2 для пацієнтів та контролі кожного дослідження. Оскільки я не можу …

2
Мінімальний розмір вибірки на кластер у моделі випадкових ефектів
Чи існує раціональна кількість спостережень на кластер у моделі випадкових ефектів? У мене розмір вибірки 1500 з 700 кластерами, змодельованими як обмінний випадковий ефект. У мене є можливість об'єднати кластери, щоб створити менше, але більших кластерів. Цікаво, як я можу вибрати мінімальний розмір вибірки на кластер, щоб мати значущі результати …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.