Статистика та великі дані cross-validation

2

Чи може корисна регуляризація, якщо нас цікавить лише моделювання, а не прогнозування?

Чи може регуляризація бути корисною, якщо нас цікавить лише оцінка (та інтерпретація) параметрів моделі, а не прогнозування чи прогнозування? Я бачу, як регуляризація / перехресне підтвердження є надзвичайно корисним, якщо ваша мета - зробити хороші прогнози щодо нових даних. Але що робити, якщо ви займаєтеся традиційною економікою, і все, що …

19 cross-validation econometrics model-selection interpretation regularization

1

Інтервал прогнозування на основі перехресної перевірки (CV)

У підручниках та лекціях на ютубі я дізнався багато про ітеративні моделі, такі як прискорення, але я ніколи нічого не бачив, як вивести інтервал передбачення. Перехресне підтвердження використовується для наступного: Вибір моделі : Спробуйте різні моделі та виберіть ту, яка найкраще підходить. У разі збільшення, використовуйте CV для вибору параметрів …

19 cross-validation boosting prediction-interval

2

Стабільність перехресної валідації в байєсівських моделях

Я встановлюю байєсівський HLM в JAGS, використовуючи k-кратну перехресну перевірку (k = 5). Мені хотілося б знати, чи стабільні оцінки параметра у всіх складках. Який найкращий спосіб зробити це?ββ\beta Одна ідея полягає в тому, щоб знайти різниці постерів і побачити, чи 0 в 95% CI різниці. Іншими словами, 0 в …

19 bayesian cross-validation

6

Чи настроювання гіперпараметра на вибірці набору даних є поганою ідеєю?

У мене є набір даних 140000 прикладів і 30 функцій, для яких я навчаю декілька класифікаторів для двійкової класифікації (SVM, Logistic Regression, Random Forest тощо) У багатьох випадках налаштування гіперпараметрів у всьому наборі даних за допомогою Grid або Random пошуку занадто дорого за часом. Я почав використовувати наступну техніку Sub …

19 machine-learning cross-validation hyperparameter

4

Чому розділення даних на навчальний і тестовий набір недостатньо

Я знаю, що для отримання продуктивності класифікатора я повинен розділити дані на навчальний / тестовий набір. Але читаючи це : Оцінюючи різні параметри ("гіперпараметри") для оцінювачів, таких як настройка C, яку необхідно встановити вручну для SVM, все ще існує ризик перевиконання тестового набору, оскільки параметри можна налаштувати до тих пір, …

18 machine-learning cross-validation

1

Як повідомляється про матрицю плутанини при перехресній валідації K-кратної?

Припустимо, я роблю K-кратну перехресну перевірку з K = 10 разів. Буде одна матриця плутанини для кожної складки. Звітуючи про результати, я повинен обчислити, що є середньою матрицею плутанини, або просто підсумовувати матриці плутанини?

18 machine-learning cross-validation accuracy

1

Доказ формули LOOCV

Зі вступу до статистичного навчання Джеймса та ін., Оцінка одноразової перехресної валідації (LOOCV) визначається де .CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2 Без доказу рівняння (5.2) зазначає, що для найменших квадратів або поліноміальної регресії (чи стосується це регресія лише на одній змінній мені невідомо), де " є й встроенна значення з початкових …

18 regression self-study cross-validation least-squares

5

Варіативність у результатах cv.glmnet

Я використовую cv.glmnetдля пошуку прогнозів. Я використовую наступну настройку: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Щоб переконатися, що результати відтворюються я set.seed(1). Результати дуже різняться. Я запустив такий самий код 100, щоб побачити, наскільки результативні. У 98/100 запусках завжди був обраний один конкретний предиктор (іноді просто самостійно); були вибрані інші предиктори …

18 r cross-validation feature-selection glmnet

3

Імпутація до або після розбиття на поїзд та випробування?

У мене є набір даних з N ~ 5000 і близько 1/2 відсутня принаймні одна важлива змінна. Основним аналітичним методом будуть пропорційні небезпеки Кокса. Я планую використовувати багаторазову імпутацію. Я також буду розбиватися на поїзд і тестовий набір. Чи слід розділяти дані, а потім імпультувати окремо, або імпутувати, а потім …

18 cross-validation survival multiple-imputation train

4

Перехресна перевірка та налаштування параметрів

Чи може хто-небудь сказати мені, що саме дає аналіз перехресної перевірки? Це просто середня точність чи вона дає будь-яку модель з налаштованими параметрами? Тому що я десь чув, що для настройки параметрів використовується перехресна перевірка.

18 cross-validation

2

Скільки разів ми повинні повторити резюме K-кратного?

Я натрапив на цю нитку, дивлячись на відмінності між завантажувальним завантаженням та перехресною валідацією - чудова відповідь та посилання до речі. Що мені цікаво , зараз, якби я повинен був виконати повторне 10-кратне CV слова для розрахунку точності класифікатора в, скільки разів н я повинен повторити? Чи залежить n від …

18 cross-validation

1

Чи можемо ми використовувати одне середнє і стандартне відхилення, щоб виявити людей, що вижили?

Припустимо, я нормально поширював дані. Для кожного елементу даних я хочу перевірити, наскільки кількість SD знаходиться далеко від середнього. У даних може бути зовнішній вигляд (ймовірно, лише один, але може бути і два-три), чи ні, але в основному це те, що я шукаю. Чи має сенс тимчасово виключити елемент, на …

17 cross-validation standard-deviation mean outliers

5

Швидкий метод пошуку найкращих метапараметрів SVM (це швидше, ніж пошук в сітці)

Я використовую моделі SVM для короткострокового прогнозування забруднювачів повітря. Для підготовки нової моделі мені потрібно знайти відповідні метапараметри для моделі SVM (я маю на увазі C, гамма тощо). Документація Libsvm (і багато інших книг, які я прочитав) пропонує використовувати пошук по сітці, щоб знайти ці параметри - тому я в …

17 cross-validation svm

2

Навіщо використовувати масштаб Платта?

Для того, щоб відкалібрувати рівень довіри до ймовірності в контрольованому навчанні (скажімо, зіставити довіру з SVM або дерева рішень за допомогою проб даних), одним із методів є використання масштабування Платта (наприклад, отримання каліброваних ймовірностей з підвищення рівня ). В основному використовується логістична регресія для відображення на . Залежна змінна є …

17 logistic cross-validation calibration

3

Як отримати гіперпараметри при вкладеній перехресній валідації?

Я прочитав наступні публікації щодо вкладеної перехресної перевірки, і все ще не на 100% впевнений, що мені робити з вибором моделі з вкладеною перехресною перевіркою: Вкладена перехресна перевірка для вибору моделі Вибір моделі та перехресне підтвердження: правильний шлях Щоб пояснити свою плутанину, дозвольте мені спробувати пройти вибір моделі з вкладеним …

17 cross-validation scikit-learn hyperparameter

Запитання з тегом «cross-validation»