Статистика та великі дані cross-validation

3

Крива ROC для дискретних класифікаторів типу SVM: Чому ми все ще називаємо це "кривою"? Це не просто "точка"?

У дискусії: як генерувати криву roc для бінарної класифікації , я думаю, що плутанина полягала в тому, що "двійковий класифікатор" (який є будь-яким класифікатором, який розділяє 2 класи) для Ян називається "дискретним класифікатором" (який виробляє дискретні виходи 0/1, як SVM), а не безперервні виходи, такі як ANN або Bayes-класифікатори ... …

25 cross-validation roc auc

1

Як працює перехресне підтвердження, що відпускається? Як вибрати остаточну модель з різних моделей?

У мене є деякі дані, і я хочу створити модель (скажімо, модель лінійної регресії) з цих даних. На наступному кроці я хочу застосувати перехресну перевірку Leave-One-Out (LOOCV) на моделі, щоб побачити, наскільки вона хороша. Якщо я правильно зрозумів LOOCV, будую нову модель для кожного мого зразка (тестовий набір), використовуючи кожен …

25 cross-validation

2

10-кратна перехресна валідація проти перехресної валідації

Я роблю вкладену перехресну перевірку. Я прочитав, що перехресне підтвердження виходу з одного виходу може бути упередженим (не пам'ятаю чому). Чи краще використовувати 10-кратну перехресну валідацію або перехресну валідацію "один-один", окрім більш тривалої тривалості виконання для перехресної перевірки "вихід-один-вихід"?

25 machine-learning cross-validation

3

Перехресне підтвердження або завантаження для оцінки ефективності класифікації?

Який найбільш відповідний метод вибірки для оцінки продуктивності класифікатора для певного набору даних та порівняння його з іншими класифікаторами? Перехресне підтвердження здається стандартною практикою, але я читав, що такі методи, як завантажувальний .632, є кращим вибором. Надалі: Чи впливає вибір метрики ефективності на відповідь (якщо я використовую AUC замість точності)? …

24 machine-learning classification predictive-models cross-validation bootstrap

1

Хто винайшов перехресну перевірку k-кратної?

Я шукаю посилання на документ, де було введено перехресне підтвердження k-кратної (а не просто гарне академічне посилання на предмет). Можливо, це занадто далеко в туманах часу, щоб однозначно визначити найперший документ, тому будь-які ранні статті, де ідея була використана, могли б зацікавити. Найдавніші мені відомі П. А. Лахенбрух та М. …

24 cross-validation references

2

Чому лямбда «в межах однієї стандартної помилки від мінімуму» є рекомендованим значенням для лямбда в еластичній чистій регресії?

Я розумію, яку роль відіграє лямбда в регресії еластичної сітки. І я можу зрозуміти, чому можна було б вибрати lambda.min, значення лямбда, що мінімізує перехресну перевірку помилок. Моє запитання: Де в статистичній літературі рекомендується використовувати lambda.1se, це значення лямбда, що мінімізує помилку CV та одну стандартну помилку ? Я не …

24 regression cross-validation regularization glmnet elastic-net

1

Перехресне підтвердження (CV) та узагальнена статистика перехресної перевірки (GCV)

Я знайшов можливі суперечливі визначення для статистики перехресної перевірки (CV) та для статистики узагальненої перехресної валідації (GCV), пов'язаної з лінійною моделлю (з нормальним вектором помилок гомоскедастичної помилки \ boldsymbol \ varepsilon ).εY=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilonεε\boldsymbol\varepsilon З одного боку, Голуб, Хіт і Вахба визначають оцінку GCV λ^λ^\hat{\lambda} як (стор. 216) …

23 cross-validation

3

Які загальні моделі прогнозування можна розглядати як особливі випадки моделей ARIMA?

Сьогодні вранці я прокинувся, дивуючись (це може бути пов’язано з тим, що минулої ночі я не спав багато): оскільки перехресне підтвердження здається наріжним каменем правильного прогнозування часових рядів, які моделі я повинен "зазвичай" "перехресне підтвердження проти? Я придумав декілька (легких), але незабаром зрозумів, що це все, крім особливих випадків моделей …

23 time-series cross-validation arima

3

AIC проти перехресної перевірки у часових рядах: невеликий зразок зразка

Мене цікавить вибір моделі в налаштуваннях часових рядів. Для конкретності, припустимо, я хочу вибрати модель ARMA з пулу моделей ARMA з різними порядками відставання. Кінцевим наміром є прогнозування . Вибір моделі може здійснити компанія перехресне підтвердження, використання інформаційних критеріїв (AIC, BIC), серед інших методів. Роб Дж. Хайндман пропонує спосіб зробити …

23 time-series forecasting cross-validation model-selection aic

4

Чому дослідники використовують 10-кратну перехресну перевірку замість тестування на наборі перевірки?

Я прочитав багато наукових праць про класифікацію настроїв та пов'язані з ними теми. Більшість із них використовують 10-кратну перехресну перевірку для підготовки та тестування класифікаторів. Це означає, що не проводиться окреме тестування / перевірка. Чому так? Які переваги / недоліки такого підходу, особливо для тих, хто проводить дослідження?

23 classification cross-validation

4

Коли застосовні результати Шао щодо перехресної перевірки відпустки один раз?

У своїй роботі " Вибір лінійної моделі шляхом перехресної валідації" Джун Шао показує, що для задачі вибору змінної при багатоваріантній лінійній регресії метод перехресної валідації "відхід один-один" (LOOCV) є "асимптотично несуперечливим". Простий англійською мовою, як правило, вибирають моделі із занадто великою кількістю змінних. У симуляційному дослідженні Шао показує, що навіть …

23 classification model-selection cross-validation

3

Стабільність моделі при вирішенні великої , малої проблеми

Вступ: У мене є набір даних із класичною "великою р, малою російською проблемою". Кількість доступних вибірок n = 150, тоді як кількість можливих предикторів p = 400. Результатом є суцільна змінна. Я хочу знайти найважливіші дескриптори, тобто ті, які є найкращими кандидатами для пояснення результату та допомоги в побудові теорії. …

22 regression cross-validation model-selection feature-selection elastic-net

2

Як слід порівняти та затвердити моделі змішаних ефектів?

Яким чином (лінійні) моделі змішаних ефектів зазвичай порівнюються одна з одною? Я знаю, що можна використовувати тести на коефіцієнт ймовірності, але це не працює, якщо одна модель не є "підмножиною" іншої правильної? Чи завжди оцінка моделей df прямолінійна? Кількість фіксованих ефектів + кількість дисперсійних компонентів, що оцінюються? Чи ігноруємо ми …

22 hypothesis-testing mixed-model cross-validation aic degrees-of-freedom

2

Кращий підхід для вибору моделі байесівської або перехресної перевірки?

Коли я намагаюся вибрати серед різних моделей або кількість функцій, які слід включити, скажімо, передбачення, я можу придумати два підходи. Розподіліть дані на навчальні та тестові набори. Ще краще, використовуйте завантажувальну чи перехресну перевірку k-кратну кількість разів. Тренуйтеся на навчальному наборі щоразу і обчислюйте помилку над тестовим набором. Помилка тесту …

22 bayesian model-selection cross-validation feature-selection

5

Як розділити набір даних для прогнозування часових рядів?

У мене є історичні дані про продажі пекарні (щодня, понад 3 роки). Тепер я хочу створити модель для прогнозування майбутніх продажів (використовуючи такі функції, як будній день, змінні погоди тощо). Як слід розділити набір даних для підгонки та оцінки моделей? Чи повинен це бути хронологічний потяг / перевірка / перевірка? …

22 cross-validation partitioning

Запитання з тегом «cross-validation»