Порівняння двох результатів точності класифікатора за статистичною значимістю з t-тестом


17

Хочу порівняти точність двох класифікаторів за статистичною значимістю. Обидва класифікатори виконуються в одному наборі даних. Це змушує мене вважати, що я повинен використовувати тестовий тест з одного зразка з того, що я читав .

Наприклад:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

Це правильний тест для використання? Якщо так, як я обчислюю, чи різниця в точності між класифікатором значна?

Або я повинен використовувати інший тест?

Відповіді:


14

Я, мабуть, обрав би тест Макнемара, якби ви тренували класифікатори лише один раз. Девід Барбер також пропонує досить акуратний байєсівський тест, який мені здається досить елегантним, але він не використовується широко (про це також йдеться у його книзі ).

Просто додамо, як каже Пітер Флом, відповідь майже напевно є "так", просто дивлячись на різницю між показниками та розміром вибірки (я вважаю, що цитовані цифри - це ефективність тестового набору, а не виконання навчальних наборів).

Між іншим, у Япковича та Шаха є нещодавня книга "Оцінка алгоритмів навчання: перспектива класифікації" , я її не читав, але це виглядає як корисна довідка для подібних питань.


1
Я отримую 10-кратну перехресну перевірку, щоб отримати ці результати. Чи означає це, що вони насправді різні набори даних. Це загальний розмір, який розбивається на тест / поїзд у перехресній валідації
Кріс,

4
Точність кожної складки не буде незалежною, що порушить припущення більшості статистичних тестів, але, ймовірно, не буде великою проблемою. Я часто використовую 100 випадкових тренувань / випробувань, а потім використовую парний тест з підписаним рангом Вілкоксона (використовую однакові випадкові розбиття для обох класифікаторів). Я віддаю перевагу такому випробуванню, оскільки я часто використовую невеликі набори даних (оскільки мене цікавить перевиконання), тому мінливість між випадковими розбиттями має тенденцію бути порівнянною з різницею в продуктивності між класифікаторами.
Дікран Марсупіал

2
(+1) для парного тесту з підписаним рангом Вілкоксона (і посилання на книгу ... якщо ток може виконати свої обіцянки, ця книга може стати обов’язковим для читання всіх МС: O)
steffen

3
Я також використовував підписані рангові тести, а також парні t-тести для порівняння класифікаторів. Однак кожен раз, коли я звітую про використання для цього одностороннього тесту, мені не вистачає труднощів від рецензентів, тому я повернувся до використання двосторонніх тестів!
BGreene

2
З огляду на те, що ОП в коментарях уточнила, що питання стосується насправді перехресної перевірки, чи могли б ви розглянути можливість розширення своєї відповіді на цю тему? Тоді ми можемо відредагувати Q. Це важлива тема, і є кілька дуже пов'язаних (або навіть дублюючих) питань, але жоден не має гарної відповіді. У коментарі вище ви рекомендуєте скористатися парним тестом для оцінок резюме і сказати, що ви не вважаєте, що незалежність тут не є великою проблемою. Чому ні? Мені це звучить як потенційно масштабна проблема!
Амеба повідомляє Відновити Моніку

4

Я можу вам сказати, навіть не запускаючи нічого, що різниця буде дуже статистично значущою. Він проходить IOTT (міжокулярний травмотест - він потрапляє тобі між очима).

Якщо ви хочете зробити тест, ви можете зробити це як тест у двох пропорціях - це можна зробити за допомогою двох зразкових т-тестів.

Можливо, ви хочете розбити "точність" на його компоненти; чутливість та специфічність, або хибнопозитивні та хибнонегативні. У багатьох програмах вартість різних помилок сильно відрізняється.


Домовились - це, очевидно, буде суттєвим. Нітпік: Ви б використовували -тест для тестування двох пропорцій (приблизно) - це пов'язано з конвергенцією біноміального розподілу до нормальної, оскільки n збільшується. Дивіться розділ 5.2 en.wikipedia.org/wiki/Statistic_hypothesis_testingzn
Макрос

По-друге, -test може все-таки бути асимптотично дійсним CLT, але тут має бути причина, чому z -test зазвичай використовується. tz
Макрос

2
Відсоток точності, який я поставив у своєму питанні, - лише приклад.
Кріс

0

Оскільки в даному випадку точність є правильно класифікованою часткою зразків, ми можемо застосувати тест гіпотези щодо системи з двох пропорцій.

Нехай р 1 і р 2 бути точність , отримані з класифікаторів 1 і 2 відповідно, а п буде число вибірок. Кількість зразків, правильно класифікованих у класифікаторах 1 та 2, є х 1 та х 2 відповідно.p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

Статистика тесту наводиться за допомогою

Z=p^1p^22p^(1p^)/n де p^=(x1+x2)/2n

Наш намір полягає в тому, щоб довести, що глобальна точність класифікатора 2, тобто , краща, ніж у класифікатора 1, який є p 1 . Це обрамляє нашу гіпотезу якp2p1

  • H0:p1=p2 (нульова гіпотеза вказує, що обидва рівні)
  • Ha:p1<p2 (альтернативна гіпотеза, що стверджує, що новіша краща за існуючу)

Область відхилення задається

Z<zα(якщо вірно відхилити і прийняти H a )H0Ha

де отримується від звичайного нормального розподілу, що відноситься до рівня значущості, α . Наприклад, z 0,5 = 1,645 для 5% рівня значущості. Це означає, що якщо відношення Z < - 1.645 вірно, то з 95% рівнем довіри ( 1 - α ) можна сказати, що класифікатор 2 є більш точним, ніж класифікатор 1.zααz0.5=1.645Z<1.6451α

Список літератури:

  1. Р. Джонсон та Дж. Фрейнд, Вірогідність Міллера та Фрейнда та статистика для інженерів, 8-е вид. Prentice Hall International, 2011. (Первинне джерело)
  2. Тест гіпотези-стислої резюме формули . (Прийнято з [1])

Не повинен буде середнє значення р 1і р 2? Отже, знаменник повинен бути 2n дюймаp^p^1p^2. p^=(x1+x2)/2n
Шива Тп

Хоча я згоден, що тест на пропорції міг би бути використаний, в початковому запитанні немає нічого, що підказує, що однобічний тест є доцільним. Більше того, «ми могли б сказати з 95% впевненістю» - це поширене неправильне тлумачення. Дивіться, наприклад, тут: metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
Frans Rodenburg

@ShivaTp Дійсно. Дякуємо, що вказали на необхідну корекцію друку. Редагування підтверджено.
Ібе Ісаак
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.