Статистика та великі дані cross-validation

1

Коли / де використовувати функціональний аналіз даних?

Я дуже новачок у функціональному аналізі даних (FDA). Я читаю: Рамсей, Джеймс О. та Сільверман, Бернар В. (2006), Функціональний аналіз даних, 2-е видання, Спрингер, Нью-Йорк. Однак мені все ще не дуже зрозуміло, де / коли використовувати FDA? Може хтось, будь ласка, надати мені приклад, особливо в медичних дослідженнях? Я дійсно …

15 statistical-significance cross-validation nonparametric

2

Яка процедура "перевірки завантажувальної завантаження" (так само "перекомплектування перехресної перевірки")?

«Перевірка завантажувального завантаження» / «переспромінення перехресної перевірки» є для мене новим, але обговорювалося у відповіді на це питання . Я збираю, що це включає 2 типи даних: реальні дані та змодельовані дані, де заданий набір модельованих даних генерується з реальних даних шляхом перекомпонування з заміною, поки змодельовані дані не мають …

15 cross-validation bootstrap validation resampling

2

Як зробити перехресну перевірку за пропорційною моделлю небезпеки Кокса?

Припустимо, я побудував модель прогнозування виникнення певної хвороби в одному наборі даних (набір даних щодо побудови моделі) і тепер хочу перевірити, наскільки добре працює модель у новому наборі даних (валідація даних). Для моделі, побудованої з логістичною регресією, я обчислював би прогнозовану ймовірність для кожної людини в наборі даних перевірки на …

15 predictive-models cross-validation survival roc

2

Висока дисперсія перехресної валідації "відхилення"

Я знов і знов читав, що перехресне підтвердження "Вихід-один-вихід" має велику дисперсію через велике перекриття тренувальних складок. Однак я не розумію, чому це так: чи не повинно виконання крос-валідації бути дуже стабільним (низька дисперсія) саме тому, що навчальні набори майже однакові? Або я взагалі неправильно розумію поняття "дисперсія"? Я також …

15 variance cross-validation bias

1

Що робити, якщо висока точність перевірки, але низька точність тестування в дослідженні?

У мене є конкретне питання щодо валідації в дослідженні машинного навчання. Як ми знаємо, режим машинного навчання просить дослідників підготувати свої моделі на навчальних даних, вибирати з кандидатських моделей за допомогою набору перевірок та повідомляти про точність на тестовому наборі. У дуже жорсткому дослідженні тестовий набір можна використовувати лише один …

15 machine-learning cross-validation reproducible-research

2

Джекніф проти LOOCV

Чи дійсно є якась різниця між джек-ножем і залишити один позаперевірну перевірку? Процедура здається ідентичною, я щось пропускаю?

15 cross-validation jackknife

2

Чому функція bootstrap scikit-learn переутворює тестовий набір?

Під час використання завантажувальної програми для оцінки моделі, я завжди вважав, що зразки з мішків безпосередньо використовуються як тестовий набір. Однак, як видається, це не стосується застарілого підходу наукової роботиBootstrap , який, здається, будує тестовий набір із малювання із заміною із підмножини даних із пакета. Які статистичні міркування стоять за …

15 cross-validation bootstrap random-forest scikit-learn bagging

3

Як зробити розширення даних та розділити перевірку поїздів?

Я роблю класифікацію зображень за допомогою машинного навчання. Припустимо, у мене є деякі навчальні дані (зображення), і я розділяю їх на навчальні та валідаційні набори. І я також хочу збільшити дані (створити нові зображення з оригінальних) випадковими обертаннями та шумопоглинанням. Збільшення виконується в автономному режимі. Який правильний спосіб зробити додавання …

14 machine-learning classification cross-validation dataset data-augmentation

3

Навчання, тестування, перевірка проблеми аналізу виживання

Я переглядав різні теми тут, але не думаю, що на моє точне запитання відповіли. У мене є набір даних ~ 50 000 студентів та їх час до відмови. Я буду виконувати пропорційну регресію небезпек із великою кількістю потенційних коваріатів. Я також збираюся здійснити логістичну регресію при відмові / перебуванні. Основною …

14 cross-validation survival train

4

Якими є тематичні дослідження в дослідженнях політики охорони здоров’я, коли ненадійні / збентежені / недійсні дослідження чи моделі були неправомірно використані?

Я готую огляд літератури щодо актуального питання охорони здоров’я, де дані заплутані: Які загальні історичні приклади, які використовуються в освіті з питань охорони здоров'я / епідеміології, коли неправомірні або заплутані стосунки чи умовиводи були навмисно чи помилково використані в політиці та законодавстві про охорону здоров'я? Автомобільний сплеск фатальності 1960-х років …

14 cross-validation reliability epidemiology biostatistics

2

Оптимізація: корінь всього зла в статистиці?

Я чув таке вираз раніше: "Оптимізація - корінь усього зла в статистиці". Наприклад, головна відповідь у цій темі робить це твердження з посиланням на небезпеку занадто агресивної оптимізації під час вибору моделі. Перше моє запитання наступне: Чи цитата може бути приписана комусь зокрема? (наприклад, у статистичній літературі) Як я розумію, …

14 cross-validation optimization overfitting

6

Як розділити набір даних, щоб зробити 10-кратну перехресну перевірку

Заблокований . Це запитання та його відповіді заблоковано, оскільки це питання поза темою, але має історичне значення. Наразі не приймає нових відповідей чи взаємодій. Тепер у мене є Rкадр даних (навчання), хтось може мені сказати, як довільно розділити цей набір даних, щоб зробити 10-кратну перехресну перевірку?

14 cross-validation

3

Яка функція витрат у cv.glm у завантажувальному пакеті R?

Я роблю перехресну перевірку за допомогою методу "випуск один". У мене є бінарний відповідь і я використовую завантажувальний пакет для R та функцію cv.glm . Моя проблема полягає в тому, що я не повністю розумію частину "вартості" в цій функції. З того, що я можу зрозуміти, це функція, яка вирішує, …

14 r cross-validation

2

Впорядкування часових рядів для машинного навчання

Прочитавши один із "порад щодо досліджень" Р. Дж. Хайндмана про перехресну перевірку та часові ряди, я повернувся до старого мого питання, яке я спробую сформулювати тут. Ідея полягає в тому, що при проблемах класифікації чи регресії впорядкування даних не має важливого значення, і, отже, може бути використана k- кратна перехресна …

14 time-series machine-learning cross-validation

2

AIC, BIC та GCV: що найкраще приймати рішення в методах санкціонованої регресії?

Моє загальне розуміння - AIC стосується компромісу між хорошою придатністю моделі та складністю моделі. А яС= 2 k - 2 l n ( L )AIC=2k−2ln(L)AIC =2k -2ln(L) кkk = кількість параметрів у моделі LLL = ймовірність Байєсівський інформаційний критерій BIC тісно пов'язаний з AIC. AIC карає кількість параметрів менш сильно, …

14 cross-validation lasso aic ridge-regression bic

Запитання з тегом «cross-validation»