Запитання з тегом «cross-validation»

Неодноразово утримуючи підмножини даних під час підгонки моделі, щоб кількісно оцінити продуктивність моделі на утриманих підмножинах даних.

1
Відмінності між PROC змішаними та lme / lmer у R - ступенями свободи
Примітка: це запитання є репостом, оскільки моє попереднє питання довелося видалити з юридичних причин. Порівнюючи PROC MIXED від SAS з функцією lmeз nlmeпакету в R, я натрапив на деякі досить заплутані відмінності. Більш конкретно, ступеня свободи в різних випробувань відрізняються між PROC MIXEDі lme, і я задавався питанням, чому. Почніть …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
Перехресне підтвердження та порядкова логістична регресія
Я намагаюся зрозуміти перехресну валідацію для порядкової логістичної регресії. Мета гри - перевірити модель, яка використовується в аналізі ... Спочатку будую набір даних про іграшки: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <- c(-2,-1) x <- …

2
Як виконати перехресну перевірку PCA для визначення кількості основних компонентів?
Я намагаюся написати власну функцію для аналізу основних компонентів, PCA (звичайно, там вже багато написано, але мені просто цікаво реалізувати речі власноруч). Основна проблема, з якою я зіткнулася, - це крос перехресної перевірки та обчислення прогнозованої суми квадратів (PRESS). Не має значення, яку перехресну валідацію я використовую, це питання головним …

1
Як ви можете виявити, чи є процес Гаусса надмірним?
Я готую процес Гаусса з ядром ARD з великою кількістю параметрів, максимізуючи граничну достовірність даних замість перехресної перевірки. Я підозрюю, що це надмірно підходить. Як я можу перевірити цю підозру в байєсівському контексті?

3
Розбиття даних часових рядів на набори поїздів / тестів / перевірок
Який найкращий спосіб розділити дані часових рядів на набори поїздів / випробувань / валідації, де набір перевірки буде використовуватися для налаштування гіперпараметрів? У нас є щоденні дані про продажі на 3 роки, і ми плануємо використовувати 2015-2016 роки в якості навчальних даних, а потім випадковим чином вибирати 10 тижнів із …

2
Точне визначення міри відхилення в пакеті glmnet, з перехресним перевіркою?
Для мого поточного пошуку я використовую метод Лассо через пакет glmnet в R на біноміальній залежній змінній. У glmnet оптимальна лямбда знайдена за допомогою перехресної перевірки, і отримані моделі можна порівняти з різними заходами, наприклад, помилкою неправильної класифікації або відхиленням. Моє запитання: Як саме визначається відхилення в glmnet? Як він …

1
Чи "справедливо" встановлювати насіння у випадковій регресії лісу, щоб отримати найвищу точність?
У мене є випадкова регресія лісу, побудована за допомогою skl, і зауважу, що я даю різні результати на основі встановлення випадкового насіння на різні значення. Якщо я використовую LOOCV, щоб встановити, яке насіння працює найкраще, чи це правильний метод?

2
Чи частота помилок є опуклою функцією лямбда параметра регуляризації?
Вибираючи параметр регуляризації лямбда в Ridge або Lasso, рекомендований метод полягає в тому, щоб спробувати різні значення лямбда, виміряти похибку у валідаційному наборі і, нарешті, обрати це значення лямбда, яке повертає найменшу помилку. Мені не чітко, якщо функція f (лямбда) = помилка - опукла. Може так бути? Тобто, чи може …

2
Чи розділення даних на тестові та навчальні набори суто "статистика"?
Я студент фізики, який вивчає машинне навчання / науку даних, тому не маю на увазі, щоб із цим питанням виникали будь-які конфлікти :) Однак значна частина будь-якої програми з фізики в університеті - це робити лабораторії / експерименти, що означає багато даних обробка та статистичний аналіз. Однак я помічаю різку …

4
Що є більш підходящим способом створення набору для витримки: видалити деякі предмети або видалити спостереження з кожного предмета?
У мене є набір даних з 26 функціями та 31000 рядків. Це набір даних 38 предметів. Це для біометричної системи. Тому я хочу вміти виявляти суб'єктів. Щоб мати набір для тестування, я знаю, що я повинен видалити деякі значення. Отже, що краще робити і чому? (a) тримати 30 предметів як …

1
Чому великий вибір K знижує показник перехресної перевірки?
Граючи з набором даних Boston Housing Dataset та RandomForestRegressor(з параметрами за замовчуванням) у scikit-learn, я помітив щось дивне: середній бал перехресної перевірки зменшився, оскільки я збільшив кількість складок понад 10. Моя стратегія крос-валідації була така: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... де num_cvsбуло різноманітно. Я …

2
Перехресне підтвердження після LASSO у складних даних опитування
Я намагаюся зробити вибір моделей на деяких прогнозованих кандидатах, використовуючи LASSO з постійним результатом. Мета полягає у виборі оптимальної моделі з найкращою продуктивністю прогнозування, що зазвичай може бути виконано перехресним перевіркою K-кратного результату після отримання шляху рішення параметрів настройки від LASSO. Проблема тут полягає в тому, що дані походять із …

3
Інтервал довіри для точності перехресної перевірки класифікації
Я працюю над проблемою класифікації, яка обчислює метрику подібності між двома вхідними рентгенівськими зображеннями. Якщо зображення однакової особи (мітка "праворуч"), буде обчислена вища метрика; Вхідні зображення двох різних людей (мітка "неправильно") призведе до нижчої метрики. Я використовував стратифіковану 10-кратну перехресну перевірку для обчислення ймовірності помилкової класифікації. Мій поточний розмір вибірки …

1
Усереднення точності та відкликання при використанні перехресної перевірки
Я здійснив класифікацію, використовуючи декілька класифікаторів для даних, позначених двома класами, і використовував 5-кратну перехресну перевірку. На кожну складку я обчислював tp, tn, fp і fn. Тоді я підрахував точність, точність, відкликання та F-бал для кожного тесту. Моє запитання полягає в тому, що, коли я хочу оцінити результати, я взяв …


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.