Застосування відповіді Еріка до Майкла :
Ви можете робити такий же спосіб мислення, до якого звертається Ерік, коли вибираєте міру ефективності.
Мені корисно звертатися до різних подібних заходів відповідно до питань, на які вони відповідають (тут на мові медичної діагностики, яку я найбільше знайомий - але, можливо, ви можете просто замінити пацієнта на текст та хворобу спамом ;-)):
Чутливість: враховуючи, що пацієнт справді має захворювання, наскільки імовірний класифікатор це усвідомити?
Специфіка: враховуючи, що пацієнт справді не має захворювання, наскільки імовірний класифікатор це усвідомити?
Позитивне прогностичне значення: якщо класифікатор стверджує, що пацієнт хворий, наскільки ймовірно у хворого насправді захворювання?
Негативне прогностичне значення: якщо класифікатор стверджує, що пацієнт не хворіє, наскільки ймовірно, у пацієнта насправді немає захворювання?
Як бачите, прогнозні значення - це те, чим насправді цікавляться лікарі та пацієнти. Однак майже кожен характеризує його класифікатора за чутливістю та специфічністю. Причина полягає в тому, що прогнозні значення повинні враховувати поширеність захворювання, і це може сильно відрізнятися (порядки!) Для різних типів пацієнтів.
Більше на тему вашого питання:
Б'юсь об заклад, що ви праві переживаєте.
Наведемо приклад обох сценаріїв Еріка:
Ось незалежні тестові зразки:
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(зауважте, що цей тест був двостороннім, припускаючи, що два класифікатори були опубліковані, навіть якби результати були навпаки ...)
Ось найкраща можлива ситуація: парний тест, і новий класифікатор підходить для всіх зразків, старий правильний, також плюс ще 10:
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
(p-значення залишається нижче магічного 0,05, якщо два класифікатори не передбачили більше 10 зразків з 1000 ).
Навіть якщо p-значення є правильною відповіддю на неправильне запитання, є ознаки того, що це наче тісне місце.
Однак, беручи до уваги звичну наукову практику, тобто невідому (неопубліковану) кількість нових можливостей було випробувано, і було опубліковано лише те, що працювало трохи краще, місце стає ще більш жорстким. І тоді, класифікатор 80% може бути просто наступником 79% класифікатора ...
Якщо вам подобається читати німецьку мову, є кілька справді приємних книг Бека-Борнхольда та Дубен. Якщо я правильно пам’ятаю, міт-а-Варштайльчкейт гренцендер Січерхейт дуже приємно обговорює ці проблеми. (Я не знаю, чи є англійське видання, досить буквальний переклад назви "З певністю, що межує з ймовірністю")