Запитання з тегом «cross-validation»

Неодноразово утримуючи підмножини даних під час підгонки моделі, щоб кількісно оцінити продуктивність моделі на утриманих підмножинах даних.

1
Чому інформація про дані перевірки просочується, якщо я оцінюю ефективність моделі на даних валідації під час налаштування гіперпараметрів?
У Глубокому навчанні з Python Франсуа Шолле сказано: Як результат, налаштування конфігурації моделі на основі її продуктивності на наборі валідації може швидко призвести до надмірного пристосування до набору перевірок, навіть якщо ваша модель ніколи безпосередньо на ній не навчається. Центральним у цьому явищі є поняття протікання інформації. Кожен раз, коли …

2
Чи правда, що байєсцям не потрібні тестові набори?
Нещодавно я спостерігав за цим розмовою Еріка Дж. Ма і перевіряв його запис у блозі , де він цитує Радфорда Ніла, що байєсські моделі не надмірно (але вони можуть переповнювати ), і при їх використанні нам не потрібні тестові набори для їх перевірки (для мені здається, що цитати, швидше, говорять …

1
Яка модель глибокого навчання може класифікувати категорії, які не є взаємовиключними
Приклади: у мене є речення в описі посади: "Старший інженер Java у Великобританії". Я хочу використовувати модель глибокого навчання, щоб передбачити її як 2 категорії: English і IT jobs. Якщо я використовую традиційну модель класифікації, вона може передбачити лише 1 мітку з softmaxфункцією на останньому шарі. Таким чином, я можу …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
Чи справді добре виконувати непідконтрольний підбір функції до перехресної перевірки?
У елементах статистичного навчання я знайшов таке твердження: Існує одна кваліфікація: початкові кроки скринінгу без нагляду можуть бути виконані до того, як зразки будуть випущені. Наприклад, ми могли вибрати 1000 предикторів з найбільшою дисперсією для всіх 50 зразків, перш ніж починати перехресну перевірку. Оскільки ця фільтрація не передбачає міток класу, …

2
Чи слід завжди робити резюме?
Моє запитання: чи варто робити резюме навіть для відносно великого набору даних? У мене відносно великий набір даних, і я застосую алгоритм машинного навчання до набору даних. Оскільки мій ПК не швидкий, резюме (і пошук по сітці) займає часом занадто багато часу. Зокрема, SVM ніколи не закінчується через безліч параметрів …

1
Алгебраїчні класифікатори, додаткова інформація?
Я прочитав алгебраїчні класифікатори: загальний підхід до швидкої перехресної валідації, навчання в Інтернеті та паралельне навчання і був вражений виконанням похідних алгоритмів. Однак, схоже, що за межами Naive Bayes (та GBM) не так багато алгоритмів, адаптованих до фреймворку. Чи є інші документи, які працювали над різними класифікаторами? (СВМ, випадкові ліси)

1
Вибір оригінальної (?) Моделі з кратним CV
Використовуючи ревізію k-кратного для вибору серед регресійних моделей, я зазвичай обчислюю похибку CV окремо для кожної моделі разом із її стандартною помилкою SE, і я вибираю найпростішу модель в межах 1 SE від моделі з найнижчою помилкою CV (1 стандартне правило помилок, див. наприклад тут ). Однак мені нещодавно сказали, …

2
Зворотне тестування або перехресне підтвердження, коли процес побудови моделі був інтерактивним
У мене є кілька прогнозних моделей, продуктивність яких я хотів би зробити тест зворотним (тобто взяти мій набір даних, "перемотати" його до попереднього моменту часу і побачити, як модель могла б працювати в перспективі). Проблема полягає в тому, що деякі мої моделі були побудовані за допомогою інтерактивного процесу. Наприклад, слідуючи …

2
Оцінка помилки, що не входить у сумку, для підвищення?
У випадковому лісі кожне дерево вирощується паралельно на унікальній вибірці даних для завантаження. Оскільки, як очікується, кожен зразок завантаження може містити близько 63% унікальних спостережень, це залишає приблизно 37% спостережень, які можна використовувати для тестування дерева. Тепер, здається, що в Stohastic Gradient також існує аналогічна оцінці в РФ:О ОБe r …

2
Як знайти оптимальні значення параметрів налаштування у збільшити дерева?
Я усвідомлюю, що в моделі прискорення дерев є 3 параметри настройки, тобто кількість дерев (кількість ітерацій) параметр усадки кількість розщеплень (розмір кожного складового дерева) Моє запитання: як для кожного з параметрів настройки я повинен знайти його оптимальне значення? А який метод? Зауважте: параметр усадки та кількість параметрів дерев працюють разом, …

3
Перехресне підтвердження K-згину або витримки для регресії хребта з використанням R
Я працюю над перехресною валідацією прогнозування моїх даних з 200 предметами та 1000 змінними. Мене цікавить регресія хребта, оскільки кількість змінних (я хочу використовувати) більша, ніж кількість вибірки. Тому я хочу використовувати оцінювачі усадки. Наступні складені приклади даних: #random population of 200 subjects with 1000 variables M <- matrix(rep(0,200*100),200,1000) for …

1
R / caret: поїзд та тестові набори проти перехресної перевірки?
Це може бути дурним питанням, але коли генерувати модель з обережністю та використовувати щось на кшталт LOOCVабо (навіть більше, до речі) LGOCV, яка користь від розбиття даних на поїзди та тестові набори, якщо це по суті те, що крос перехресної перевірки все одно? Я прочитав деякі пов'язані з цим питання, …

1
Як порівняти спостережувані та очікувані події?
Припустимо, у мене є один зразок частоти 4 можливих подій: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 і я маю очікувані ймовірності моїх подій: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 За допомогою суми спостережуваних частот моїх чотирьох подій (18) …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

4
Вибір моделі та продуктивність моделі при логістичній регресії
У мене є питання щодо вибору моделі та продуктивності моделі при логістичній регресії. У мене є три моделі, які базуються на трьох різних гіпотезах. Перші дві моделі (дозволяють назвати їх z і x) мають лише одну пояснювальну змінну в кожній моделі, а третя (дає назву w) є більш складною. Я …

2
Перехресне підтвердження для змішаних моделей?
Ми з колегою підходимо до ряду лінійних та нелінійних моделей змішаного ефекту в Р. Нас просять провести перехресну валідацію на пристосованих моделях, щоб можна було перевірити, що спостережувані ефекти відносно узагальнюючі. Зазвичай це тривіальне завдання, але в нашому випадку ми повинні розділити цілі дані на навчальну частину та тестову частину …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.