Запитання з тегом «cross-validation»

Неодноразово утримуючи підмножини даних під час підгонки моделі, щоб кількісно оцінити продуктивність моделі на утриманих підмножинах даних.

1
Як побудувати остаточну модель та налаштувати поріг ймовірності після вкладеної перехресної перевірки?
По-перше, вибачення за розміщення питання, про яке вже обговорювались тут , тут , тут , тут , тутта для повторного розігрівання старої теми. Я знаю, що @DikranMarsupial досить довго писав про цю тему у публікаціях та журнальних статтях, але я все ще плутаюся, і, судячи з кількості подібних публікацій тут, …

3
Чи достатньо перехресної перевірки, щоб запобігти надмірній відповідності?
Якщо у мене є дані і я запускаю класифікацію (скажімо, випадковий ліс за цими даними) з перехресною валідацією (скажімо, у 5 разів), чи можу я зробити висновок про те, що в моєму методі немає надмірного розміщення?

1
Повідомлення про дисперсію повторної перехресної перевірки k-кратного перекладу
Я використовував неодноразову перехресну перевірку k-кратного перегляду та повідомляв про середнє значення (метрики оцінювання, наприклад, чутливість, специфічність), обчислене як велике середнє значення для складок різних пробігів перехресної перевірки. Однак я не впевнений, як я повинен повідомити про відхилення. Тут я знайшов багато питань, що обговорювали повторну перехресну перевірку, однак жодне, …

4
Нормалізація до перехресної перевірки
Чи мають нормалізуючі дані (щоб мати нульове середнє значення та стандартне відхилення одиниці) перед виконанням повторної перехресної перевірки k-кратного перешкоди, як-небудь негативні наслідки, такі як перевиконання? Примітка. Це стосується ситуації, коли #cases> total #features Я перетворюю деякі свої дані за допомогою перетворення журналу, а потім нормалізую всі дані, як зазначено …

1
Caret - Повторна перехресна перевірка K-кратної та вкладеної K-кратної перехресної перевірки, повторена n-разів
Пакет caret - це блискуча бібліотека R для побудови декількох моделей машинного навчання, має декілька функцій для побудови моделі та оцінки. Для налаштування параметрів та навчання моделей, пакет caret пропонує «повторний cv» як один із методів. Як хороша практика, налаштування параметрів може бути здійснено з використанням вкладеної перехресної перевірки K-кратного, …

1
Чи слід використовувати повторну перехресну перевірку для оцінки прогнозних моделей?
Я зіткнувся з цією статтею Гітти Ванвінккелен та Хендріка Блокеля в 2012 році, ставлячи під сумнів корисність повторної перехресної перевірки, яка стала популярною методикою зменшення дисперсії перехресної перевірки. Автори продемонстрували, що при повторній перехресній валідації зменшується дисперсія прогнозування моделі, оскільки один і той же набір даних вибірки перепробовується, середнє значення …

3
Пошук сітки при перехресній валідації k-кратної
Я маю набір даних 120 зразків у 10-кратній перехресній валідації. В даний час я підбираю дані тренувань першого тренінгу і роблю на ньому 5-кратну перехресну перевірку, щоб вибрати значення гамма та С шляхом пошуку по сітці. Я використовую SVM з ядром RBF. Оскільки я роблю десять 10 крос-валідацій, щоб повідомити …

7
Що таке визначення "найкращий", як використовується у терміні "найкраще" та перехресне підтвердження?
Якщо ви встановите нелінійну функцію до набору точок (якщо вважати, що для кожної абсциси є лише одна ордината), результат може бути: дуже складна функція з невеликими залишками дуже проста функція з великими залишками Перехресне підтвердження зазвичай використовується для пошуку "найкращого" компромісу між цими двома крайнощами. Але що означає "найкраще"? Це …

2
Перехресна перевірка PCA та k-кратна в упаковці каре в R
Я щойно переглянув лекцію з курсу машинного навчання на курсі. У розділі, де професор обговорює PCA для попередньої обробки даних у контрольованих навчальних програмах, він каже, що PCA слід виконувати лише на навчальних даних, а потім відображення використовується для перетворення перехресних перевірок і тестових наборів. Дивіться також PCA та розділ …

3
Як вибрати оптимальну кількість прихованих факторів при негативній матричній факторизації?
З огляду на матрицю Vm×nVm×n\mathbf V^{m \times n} , Негативна факторизація матриць (NMF) знаходить дві негативні матриці та (тобто з усіма елементами ) представити розкладену матрицю як:H k × n ≥0Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, WW\mathbf WHH\mathbf H∥V−WH∥2.‖V−WH‖2.\|\mathbf V-\mathbf W\mathbf H\|^2. …

2
Правильний шлях Scikit для калібрування класифікаторів за допомогою CalibratedClassifierCV
У Scikit є CalibratedClassifierCV , що дозволяє нам калібрувати наші моделі на певній парі X, y. Він також чітко стверджує, щоdata for fitting the classifier and for calibrating it must be disjoint. Якщо вони повинні бути непересічними, чи законно навчати класифікатора наступним чином? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) Я побоююся, …

1
Який багаторазовий метод порівняння використовувати для lmer-моделі: lsmeans або glht?
Я аналізую набір даних, використовуючи модель змішаних ефектів з одним фіксованим ефектом (умовою) та двома випадковими ефектами (учасник, обумовлений в рамках проекту та пари). Модель була згенерована з lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Далі я провів перевірку коефіцієнта ймовірності цієї моделі проти моделі без фіксованого ефекту (умови) і маю суттєву різницю. У моєму …

2
Помилка Out of Bag робить резюме непотрібним у випадкових лісах?
Я досить новачок у випадкових лісах. У минулому я завжди порівнював точність підгонки проти тесту проти пристосування проти поїзда, щоб виявити будь-який набір. Але я просто прочитав тут таке: "У випадкових лісах немає необхідності в перехресній валідації або в окремому наборі тесту, щоб отримати неупереджену оцінку помилки набору тестів. Оцінюється …

1
Яка інтуїція за обмінними зразками під нульовою гіпотезою?
Перестановочні тести (також називаються тестом рандомизації, тестом на повторну рандомізацію або точним тестом) дуже корисні і корисні, коли припущення про нормальний розподіл, необхідне, наприклад, t-testне виконується, і при перетворенні значень за ранжуванням непараметричний тест, як-от Mann-Whitney-U-test, призведе до втрати більше інформації. Однак одне і єдине припущення не слід оминути увагою …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
Середнє значення (бали) проти Оцінка (конкатенація) в перехресній валідації
TLDR: Мій набір даних досить малий (120) зразків. Коли я роблю 10-кратну перехресну перевірку, чи повинен я: Зберіть результати з кожної тестової складки, об'єднайте їх у вектор, а потім обчисліть помилку на цьому повному векторі прогнозів (120 зразків)? Або я повинен замість цього обчислити помилку на результатах, які я отримую …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.