Я не маю під рукою книгу Фліс, тому все це IIRC.
Відповідаючи на питання @ JohnMoeller в коментарях на даний момент: оригінальне питання IMHO невідповідне, як воно є.
Отже, припустимо, що у мене є 30 зразків, і я перевіряю c1 і c2 на кожному зразку і записую точність для кожного зразка.
Виконуючи це, ви отримуєте таблицю на випадок 2 х 2, яка дає класифікатору 1 правильний / неправильний проти класифікатора 2 правильний / неправильний. Що є відправною точкою для тесту МакНемара . Тож це для парного порівняння, яке є більш потужним, ніж порівняння "незалежних" пропорцій (які не є абсолютно незалежними, якщо вони походять від випадкового малювання з одного і того ж кінцевого зразка).
Я зараз не можу шукати "дрібний шрифт" Макнемара, але 30 зразків - це не так багато. Тож вам, можливо, доведеться навіть переключитися з Макнемара на точний тест Фішера [або щось інше], яке обчислює біномальні ймовірності.
Засоби пропорцій:
Не має значення, ви тестуєте один і той же класифікатор 10x з 10 тестовими випадками або один раз зі всіма цими 100 випадками (таблиця 2 х 2 підраховує всі тестові випадки).
Якщо 10 оцінок точності для кожного класифікатора в первісному запитанні отримані випадковим затримкою або 10-кратною перехресною валідацією або 10-кратною перехідною системою завантаження, зазвичай припускається, що 10 сурогатних моделей, обчислених для кожного класифікатора, є еквівалентними (= мають однакову точність), тому результати тестування можна об'єднати *. Для 10-кратної перехресної перевірки ви припускаєте, що розмір тестового зразка дорівнює загальній кількості тестових зразків. Щодо інших методів я не такий впевнений: ви можете перевірити той самий випадок не один раз. Залежно від даних / проблеми / програми, це не означає стільки інформації, скільки тестування нового випадку.
k
knp^=knσ2(p^)=σ2(kn)=p(1−p)n