Існує багато ситуацій, коли ви можете тренувати кілька різних класифікаторів або використовувати кілька різних методів вилучення ознак. У літературі автори часто наводять середню помилку класифікації для набору випадкових розщеплень даних (тобто після подвійної вкладеної перехресної перевірки), а іноді також дають розбіжності щодо помилки щодо розщеплення. Однак цього самостійно недостатньо, щоб сказати, що один класифікатор значно кращий за інший. Я бачив багато різних підходів до цього - за допомогою тестів Chi-квадрата, t-тесту, ANOVA з пост-спеціальним тестуванням тощо.
Який метод слід використовувати для визначення статистичної значущості? В основі цього питання лежить таке: Які припущення слід зробити щодо розподілу класифікаційних балів?