Чи слід приймати рішення на основі мікро-усереднених або макросередніх оціночних заходів?


21

Я здійснив десятикратну перехресну перевірку за різними алгоритмами бінарної класифікації, з тим самим набором даних, і отримав як усереднені результати мікро- та макросів. Слід зазначити, що це була класифікаційна проблема з різними марками.

У моєму випадку справжні негативи та справжні позитиви зважуються однаково. Це означає, що правильно прогнозувати справжні негативи так само важливо, як і правильно прогнозувати справжні позитиви.

Мікро усереднені заходи нижчі, ніж макро усереднені. Ось результати роботи нейронної мережі та підтримуючої машини:

введіть тут опис зображення

Я також провів тест-роздільний тест на одному наборі даних з іншим алгоритмом. Результати:

введіть тут опис зображення

Я вважаю за краще порівняти відсотковий тест з результатами макроссередовища, але це справедливо? Я не вірю, що результати середнього макроконтролю є упередженими, тому що справжні позитивні та справжні негативні показники зважуються однаково, але знову ж таки, мені цікаво, чи це те саме, що порівняння яблук з апельсинами?

ОНОВЛЕННЯ

На основі коментарів я покажу, як обчислюються мікро- та макро середні показники.

У мене 144 мітки (те саме, що й характеристики або атрибути), які я хочу передбачити. Точність, відкликання та F-міра розраховуються для кожної етикетки.

---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
   ?   |    ?   |    ?   |   ?    | .. |     ?
---------------------------------------------------

Розглядаючи двійкову оціночну міру B (tp, tn, fp, fn), яка розраховується на основі справжніх позитивних (tp), справжніх негативів (tn), помилкових позитивних (fp) та помилкових негативів (fn). Макро- та мікро середні значення конкретної міри можна обчислити так:

введіть тут опис зображення

введіть тут опис зображення

Використовуючи ці формули, ми можемо обчислити мікро та макро середні показники наступним чином:

введіть тут опис зображення

введіть тут опис зображення

Таким чином, мікро-усереднені заходи додають всі tp, fp та fn (для кожної мітки), після чого проводиться нова двійкова оцінка. Макро усереднені заходи додають усі заходи (точність, відкликання або F-міра) та ділять на кількість міток, що більше схоже на середнє значення.

Тепер питання, який саме використовувати?


Коли ви запитуєте, що використовувати, яке призначення? Вибір між двома методами, підбиття результатів чи щось інше?
Шон Пасха

1
Цільове використання полягає в тому, щоб з'ясувати, яка модель є найбільш досконалою, і розповісти щось про те, наскільки вона добре працює. Я дізнався, що мікровимірювання є вищими за: Формана, Джорджа та Мартіна Шольца. "Яблука-яблука в дослідженнях з перехресною валідацією: підводні камені в вимірюванні ефективності класифікатора." Інформаційний бюлетень ACM SIGKDD 12.1 (2010): 49-57.
Кенчі

@Kenci, я вірю, ви повинні опублікувати це як відповідь на власне запитання і підтвердити його як правильну відповідь. Дякую за довідку!
fnl

Відповіді:


27

Якщо ви вважаєте, що всі мітки мають більш-менш однаковий розмір (мають приблизно однакову кількість примірників), використовуйте будь-які.

Якщо ви думаєте, що мітки мають більше примірників, ніж інші, і якщо ви хочете змістити свою метрику щодо найбільш населених, використовуйте мікромедіа .

Якщо ви думаєте, що мітки мають більше примірників, ніж інші, і якщо ви хочете змістити свою метрику щодо найменш заселених (або, принаймні, не хочете зміщуватись до найбільш населених), використовуйте макромедіа .

Якщо результат мікромедіа значно нижчий за макромедію, це означає, що ви маєте грубі помилкові класифікації у найбільш населених марках, тоді як ваші менші мітки, ймовірно, правильно класифіковані. Якщо результат макромедії значно нижчий, ніж мікромедіа, це означає, що ваші менші мітки погано класифіковані, тоді як ваші більші, мабуть, правильно класифіковані.

Якщо ви не впевнені, що робити, продовжуйте зіставлення як мікро-, так і макросередовища :)

Це хороший документ на цю тему.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.