Запитання з тегом «cross-validation»

Неодноразово утримуючи підмножини даних під час підгонки моделі, щоб кількісно оцінити продуктивність моделі на утриманих підмножинах даних.

2
Вибір оптимальної альфа-еластичної логістичної регресії
Я здійснюю еластичну чисту логістичну регресію на наборі даних охорони здоров’я, використовуючи glmnetпакет в R, вибираючи значення лямбда по сітці від 0 до 1. Мій скорочений код нижче:αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for (i in 1:11) {print(min(elasticnet[[i]]$cvm))} яка виводить середню перехресну …

5
Наряд: Ні срібної кулі?
Я розумію, що навіть якщо в відповідності з належною перехресної процедурою вибору перевірки і моделі, перенавчання буде , якщо один шукає в моделі досить важко , якщо накласти обмеження на складності моделі, період. Крім того, часто люди намагаються навчитися штрафувати щодо складності моделі з даних, що підриває захист, який вони …

2
Перехресне підтвердження (узагальнення помилок) після вибору моделі
Примітка: Справа n >> p Я читаю «Елементи статистичного навчання» і є різні згадки про «правильний» спосіб перехресної перевірки (наприклад, сторінка 60, стор. 245). Зокрема, моє запитання полягає в тому, як оцінити кінцеву модель (без окремого тестового набору) за допомогою CV-кратного реєстру чи завантажувального завантаження, коли відбувся пошук моделі? Здається, …

3
Чи потрібен нам тестовий набір при використанні перехресної перевірки k-кратної?
Я читав про перевірку k-fold, і хочу переконатися, що я розумію, як це працює. Я знаю, що для методу тримання дані розбиваються на три набори, а тестовий набір використовується лише в самому кінці для оцінки продуктивності моделі, тоді як набір перевірки використовується для настройки гіперпараметрів тощо. У методі k-fold ми …

1
Чи слід приймати рішення на основі мікро-усереднених або макросередніх оціночних заходів?
Я здійснив десятикратну перехресну перевірку за різними алгоритмами бінарної класифікації, з тим самим набором даних, і отримав як усереднені результати мікро- та макросів. Слід зазначити, що це була класифікаційна проблема з різними марками. У моєму випадку справжні негативи та справжні позитиви зважуються однаково. Це означає, що правильно прогнозувати справжні негативи …

1
Переваги стратифікованої та випадкової вибірки для генерування навчальних даних у класифікації
Мені хотілося б знати, чи є якісь / якісь переваги використання стратифікованого вибірки замість випадкової вибірки під час поділу оригінального набору даних на навчальний та тестовий набір для класифікації. Крім того, чи вводить стратифікований вибірковий отвір більше класифікації в класифікатор, ніж випадковий вибірки Додаток, для якого я хотів би використовувати …

4
Наскільки погана настройка гіперпараметрів за межами перехресної перевірки?
Я знаю, що здійснення настроювання гіперпараметрів поза перехресної перевірки може призвести до упереджених високих оцінок зовнішньої дійсності, тому що набір даних, який ви використовуєте для вимірювання продуктивності, той самий, який ви використовували для налаштування функцій. Мені цікаво, наскільки ця проблема погана . Я можу зрозуміти, як це було б по-справжньому …

2
Як використовувати функції крос-валідації scikit-learn на багатозначних класифікаторах
Я тестую різні класифікатори на наборі даних, де є 5 класів, і кожен екземпляр може належати до одного або декількох із цих класів, тому конкретно використовую багатозначні класифікатори scikit-learn sklearn.multiclass.OneVsRestClassifier. Тепер я хочу виконати перехресну перевірку за допомогою sklearn.cross_validation.StratifiedKFold. Це спричиняє таку помилку: Traceback (most recent call last): File "mlfromcsv.py", …

1
libsvm попередження та перехресне підтвердження "досягнення максимальної кількості ітерацій"
Я використовую libsvm в режимі C-SVC з поліномним ядром ступеня 2, і мені потрібно тренувати кілька SVM. Кожен навчальний набір має 10 функцій та 5000 векторів. Під час тренінгу я отримую це попередження для більшості СВМ, які я треную: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 …

2
Перехресна валідація проти емпіричного Байєса для оцінки гіперпараметрів
З огляду на ієрархічну модель , я хочу, щоб двоступеневий процес підходив до моделі. Спочатку зафіксуйте жменю гіперпараметрів , а потім зробіть байєсівський висновок щодо решти параметрів . Для фіксації гіперпараметрів я розглядаю два варіанти.p ( x | ϕ , θ )p(х|ϕ,θ)p(x|\phi,\theta)θθ\thetaϕϕ\phi Використовуйте емпіричний Байєс (EB) та максимізуйте граничну ймовірність …


4
Які правильні значення для точності та відкликання у кращих випадках?
Точність визначається як: p = true positives / (true positives + false positives) Чи правильно, що як true positivesі false positivesпідхід 0, точність наближається до 1? Те саме запитання для відкликання: r = true positives / (true positives + false negatives) Зараз я впроваджую статистичний тест, де мені потрібно обчислити …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
Байесівські думки про переодягнення
Я багато часу приділяв розробці методів та програмного забезпечення для перевірки прогнозних моделей у традиційній періодичній статистиці. Втілюючи в життя більше ідей Баєса, я бачу деякі ключові відмінності. По-перше, байєсівське прогностичне моделювання просить аналітика подумати над попередніми розподілами, які можуть бути налаштовані під особливості кандидата, і ці пріори підтягнуть модель …

2
Чи функціонує потяг для карет для перехресного підтвердження glmnet як для альфа, так і для лямбда?
Чи перекваліфікується caretпакет R як для моделі, так alphaі lambdaдля glmnetмоделі? Запустивши цей код, eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl = Control) …

1
k-кратна перехресна перевірка ансамблевого навчання
Мене бентежить питання про розподіл даних для k-кратної перехресної перевірки ансамблевого навчання. Якщо припустити, що я маю ансамблеву базу для класифікації. Мій перший шар містить класифікаційні моделі, наприклад svm, дерева рішень. Мій другий шар містить модель голосування, яка поєднує прогнози з першого шару і дає остаточний прогноз. Якщо ми використовуємо …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.