Боюся, що відповідні запитання не відповіли на моє. Ми оцінюємо продуктивність> 2 класифікаторів (машинне навчання). Наша гіпотеза Нуля полягає в тому, що продуктивність не відрізняється. Для оцінки цієї гіпотези ми виконуємо параметричні (ANOVA) та непараметричні (Фрідман) тести. Якщо вони значущі, ми хочемо з’ясувати, які класифікатори розрізняються в ході квесту.
Моє запитання двояке:
1) Чи потрібна корекція р-значень після тестування численних порівнянь? Німецький сайт Вікіпедії на "Alphafehler Kumulierung" говорить, що проблема виникає лише в тому випадку, якщо на одних і тих же даних перевіряється кілька гіпотез. При порівнянні класифікаторів (1,2), (1,3), (2,3) дані лише частково перекриваються. Чи все-таки потрібно виправити значення p?
2) Корекція значення P часто використовується після парного тестування з t-тестом. Чи потрібно це також робити спеціалізовані пост-спеціальні тести, такі як Неменій (непараметричний) або тест Хью на Тьюкі? Ця відповідь каже «ні» для HSD Tukey: Чи правильний тест Hidro Tukey для кількох порівнянь? . Чи є якесь правило чи потрібно це шукати для кожного потенційного тестування?
Дякую!