Я здійснив десятикратну перехресну перевірку за різними алгоритмами бінарної класифікації, з тим самим набором даних, і отримав як усереднені результати мікро- та макросів. Слід зазначити, що це була класифікаційна проблема з різними марками.
У моєму випадку справжні негативи та справжні позитиви зважуються однаково. Це означає, що правильно прогнозувати справжні негативи так само важливо, як і правильно прогнозувати справжні позитиви.
Мікро усереднені заходи нижчі, ніж макро усереднені. Ось результати роботи нейронної мережі та підтримуючої машини:
Я також провів тест-роздільний тест на одному наборі даних з іншим алгоритмом. Результати:
Я вважаю за краще порівняти відсотковий тест з результатами макроссередовища, але це справедливо? Я не вірю, що результати середнього макроконтролю є упередженими, тому що справжні позитивні та справжні негативні показники зважуються однаково, але знову ж таки, мені цікаво, чи це те саме, що порівняння яблук з апельсинами?
ОНОВЛЕННЯ
На основі коментарів я покажу, як обчислюються мікро- та макро середні показники.
У мене 144 мітки (те саме, що й характеристики або атрибути), які я хочу передбачити. Точність, відкликання та F-міра розраховуються для кожної етикетки.
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
Розглядаючи двійкову оціночну міру B (tp, tn, fp, fn), яка розраховується на основі справжніх позитивних (tp), справжніх негативів (tn), помилкових позитивних (fp) та помилкових негативів (fn). Макро- та мікро середні значення конкретної міри можна обчислити так:
Використовуючи ці формули, ми можемо обчислити мікро та макро середні показники наступним чином:
Таким чином, мікро-усереднені заходи додають всі tp, fp та fn (для кожної мітки), після чого проводиться нова двійкова оцінка. Макро усереднені заходи додають усі заходи (точність, відкликання або F-міра) та ділять на кількість міток, що більше схоже на середнє значення.
Тепер питання, який саме використовувати?