Які міри для точності багатозначних даних?


25

Розглянемо сценарій, коли вам надаються матриця K PoznaLabel і матриця PredictedLabel. Я хотів би виміряти добротність матриці PredictedLabel щодо матриці KknownLabel.

Але проблема тут полягає в тому, що у матриці K knownLabel є кілька рядків, лише один 1, а інші кілька рядків мають багато 1 (ці екземпляри мають багато міток). Приклад матриці відомої лабелі наведено нижче.

A =[1 0 0 0
    0 1 0 0
    0 1 1 0
    0 0 1 1
    0 1 1 1]

У вищезазначеній матриці екземпляри даних 1 і 2 є даними однієї мітки, екземпляри даних 3 і 4 - це дві дані мітки, а екземпляр даних 5 - це три дані мітки.

Тепер я маю матрицю PredictedLabel екземпляра даних за допомогою алгоритму.

Я хотів би знати різні міри, які можна використовувати для вимірювання доброти матриці PredictedLabel щодо матриці KknownLabel.

Я можу вважати різницю норми frobeinus між ними як один із заходів. Але я шукаю таку міру, як точність (=Правильно_прогнозована_сутьtotal_in substance)

Ось як ми можемо визначити для декількох екземплярів даних?Соrrеcтлу_prегicтег


5
(+1) Sidenote: Чи є певна причина, що ви не прийняли відповідь на більшість питань? Чому ви не опублікували коментар, коли надана відповідь не вирішила вашу проблему? Напр .: stats.stackexchange.com/questions/9947/…
steffen

Відповіді:


23

(1) дає хороший огляд:

введіть тут опис зображення

введіть тут опис зображення

Сторінка Вікіпедії n багатозначна класифікація містить розділ і про метрику оцінювання.

Я б додав застереження, що в налаштуваннях багатозначних даних точність неоднозначна: вона може посилатися на точне співвідношення відповідності або на результат Хеммінга (див. Цей пост ). На жаль, у багатьох роботах використовується термін "точність".


(1) Сороуер, Мохаммед С. " Літературне опитування щодо алгоритмів навчання на багато міток ". Орегонський державний університет, Корваліс (2010).


2
Чи суперечать ці визначення загальним визначенням точності та нагадування? Я завжди читав, що точність повинна ділитися на TP + FP, а нагадування має ділитися на TP + FN (запропоновані визначення тут роблять навпаки, якщо я добре розумів).
tomasyany

Ні, визначення у статті є правильними. ОсьYiY={0,1}к є основним вектором істини для етикетки для iі зразок, і Zi=год(хi)={0,1}к - це передбачуваний набір міток як годпозначає багатозначний класифікатор. Можливо, ви помилково переплуталиYi і Ziзначення.
constt

що стосується accuracyміри, як ви ошатно поводиться з випадками, коли знаменник |Y + Z| == 0?
ihadanny

3
@tomasyany посилається на текстові визначення (а не формули), які, здається, перемикаються.
Нарфанар

І це визначення AP більше нагадує mAP (середній AP), ні? "Точність" називається середньою ОІ. У цілому терміни досить заплутані.
Нарфанар


3

Correctly Predictedперетин між набором запропонованих міток та очікуваним набором. Total Instancesє об'єднанням наборів вище (без дублікатів).

Отже, наводимо єдиний приклад, коли ви прогнозуєте класи, A, G, Eа тестовий випадок є E, A, H, Pправильним, з якого ви закінчитесьAccuracy = Intersection{(A,G,E), (E,A,H,P)} / Union{(A,G,E), (E,A,H,P)} = 2 / 5

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.