Мене найбільше (і найчастіше) дратує "валідація", спрямована на помилку узагальнення прогнозних моделей, коли дані тестування не є незалежними (наприклад, багаторазові вимірювання на пацієнта в даних, вимірюваннях, що не входять у завантаження, або перехресні валідації, не розбиваючи вимірювання не пацієнтів ).
Ще більше дратують документи, які дають такі хибні результати перехресної перевірки плюс незалежний тестовий набір, який демонструє надто оптимістичну упередженість перехресної перевірки, але жодного слова про те, що конструкція перехресної перевірки неправильна ...
(Я був би дуже радий, якщо будуть представлені ті самі дані, "ми знаємо, що перехресне підтвердження повинно розділяти пацієнтів, але ми застрягли з програмним забезпеченням, яке цього не дозволяє. Тому ми протестували справді незалежний набір тестових пацієнтів. ")
(Я також знаю, що завантажувальна передача = перекомпонування з заміною зазвичай працює краще, ніж перехресне підтвердження = переустановка без заміни. Однак ми знайшли для спектроскопічних даних (модельовані спектри та налаштування трохи штучної моделі, але реальні спектри), які повторювали / повторювали перехресну валідацію та вихід -of-bootstrap мав подібну загальну невизначеність; oob мав більше упередженості, але меншу дисперсію - для перемотування я дивлюся на це з дуже прагматичної точки зору: повторна перехресна перевірка проти поза завантаження не має значення, поки багато документів ні розбивати пацієнтів, ні повідомляти / обговорювати / згадувати випадкову невизначеність через обмежений розмір тестового зразка.)
Окрім помилки, це також має побічний ефект, що людям, які роблять належну перевірку, часто доводиться захищати, чому їх результати настільки гірші, ніж усі інші результати в літературі.