Середнє значення (бали) проти Оцінка (конкатенація) в перехресній валідації


15

TLDR:

Мій набір даних досить малий (120) зразків. Коли я роблю 10-кратну перехресну перевірку, чи повинен я:

  1. Зберіть результати з кожної тестової складки, об'єднайте їх у вектор, а потім обчисліть помилку на цьому повному векторі прогнозів (120 зразків)?

  2. Або я повинен замість цього обчислити помилку на результатах, які я отримую за кожну складку (з 12 зразками на складку), а потім отримати остаточну оцінку помилки як середню оцінку 10 помилок у 10 разів?

Чи є якісь наукові праці, які аргументують відмінності між цими методами?


Передумови: Потенційне відношення до макро / мікро балів у класифікації на багато міток:

Я думаю, що це питання може бути пов’язане з різницею між мікро- та макро середніми показниками, які часто використовуються в задачі з класифікацією на багато міток (наприклад, 5 міток).

У налаштуваннях для багатьох міток обчислюються мікро середні бали , складаючи агреговану таблицю на випадок дійсних позитивних, помилкових позитивних, справжніх негативних, помилкових негативних результатів для всіх 5 прогнозів класифікатора на 120 вибірках. Ця таблиця надзвичайних ситуацій потім використовується для обчислення мікроточності, мікровідкликання та мікровимірювання. Отже, коли у нас є 120 зразків і п'ять класифікаторів, мікроміри обчислюються за 600 прогнозів (120 зразків * 5 міток).

Під час використання варіанту Макрос на кожному етикетці самостійно обчислюють заходи (точність, відкликання тощо), і, нарешті, ці заходи усереднюються.

Ідея, що лежить в основі різниці між оцінками мікро та макросу, може поширюватися на те, що можна зробити в K-кратному значенні в задачі бінарної класифікації. У 10 разів ми можемо або в середньому перевищити 10 значень ( вимірювання макросу ), або об'єднати 10 експериментів і обчислити мікро міри.

Фон - розширений приклад:

Наступний приклад ілюструє питання. Скажімо, у нас є 12 тестових зразків і 10 складок:

  • Складіть 1 : TP = 4, FP = 0, TN = 8 Точність = 1,0
  • Складіть 2 : TP = 4, FP = 0, TN = 8 Точність = 1,0
  • Складіть 3 : TP = 4, FP = 0, TN = 8 Точність = 1,0
  • Складіть 4 : TP = 0, FP = 12, Точність = 0
  • Складіть 5 .. Складіть 10 : Усі мають однаковий TP = 0, FP = 12 і Precision = 0

де я використав такі позначення:

TP = # істинних позитивних, FP = # хибнопозитивних, TN = # істинних негативних

Результати:

  • Середня точність в 10 разів = 3/10 = 0,3
  • Точність конкатенації прогнозів у 10 разів = TP / TP + FP = 12/12 + 84 = 0,125

Зауважте, що значення 0,3 та 0,125 сильно відрізняються !


Резюме насправді не є великим показником прогнозування майбутніх результатів. Дисперсія занадто мала. Краще підходити до завантажувальної програми для перевірки вашої моделі.
користувач765195

2
@ user765195: чи можете ви створити резервну копію заявки з цитатами?
Зак

Я шукав, але не знайшов жодної літератури щодо методу зведеного резюме. Здається, це більш підходящий спосіб обчислити міру, оскільки він має меншу дисперсію.
user13420

1
@Zach, тут є деяка дискусія, в книзі Харрела: tinyurl.com/92fsmuv (подивіться останній абзац на сторінці 93 та перший абзац на сторінці 94.) Я спробую запам'ятати інші посилання, які є більш чіткими.
користувач765195

1
к

Відповіді:


3

Описана відмінність - хибна ІМХО.

Ви спостерігатимете це лише в тому випадку, якщо розподіл справді позитивних випадків (тобто метод довідки говорить, що це позитивний випадок) є дуже неоднаковим щодо складок (як у прикладі) та кількості відповідних тестових випадків (знаменник вимірювання ефективності ми говоримо про це, тут справді позитивне) не враховується при усередненні середніх складових.

412=13


редагувати: оригінальне запитання також задавали питання про повторення / повторення перевірки:

к

  • Наскільки змінюються прогнози, якщо дані тренувань порушуються шляхом обміну кількома зразками тренувань?
  • Тобто, наскільки змінюються прогнози різних "сурогатних" моделей для одного і того ж тестового зразка?

Ви просили наукових праць :

Недооцінка дисперсії Зрештою, ваш набір даних має кінцевий (n = 120) розмір вибірки, незалежно від того, скільки ітерацій завантажувальної чи перехресної перевірки ви робите.

  • У вас є (щонайменше) 2 джерела дисперсії у результатах перевірки переупорядкування (перехресне підтвердження та поза завантажувальної програми):

    • дисперсія через кінцеву кількість (тестового) зразка
    • дисперсія через нестабільність прогнозів сурогатних моделей
  • Якщо ваші моделі стабільні, значить

    • к кратної перехресної перевірки не потрібні (вони не покращують оцінку продуктивності: середнє значення для кожного прогону крос-валідації однакове).
    • Однак оцінка ефективності все ще підлягає розходженню через обмежену кількість тестових зразків.
    • Якщо ваша структура даних "проста" (тобто один єдиний вектор вимірювання для кожного статистично незалежного випадку), ви можете припустити, що результати тесту є результатами процесу Бернуллі (метання монети) та обчислити дисперсію набору з кінцевим тестом.
  • нк


Також я роблю багатозначну класифікацію з чотирма класифікаторами. Тому я хочу вивчити мікро- та макросистеми F через 4 завдання. Я припускаю, що "комбінована" перехресна перевірка була б навіть необхідною в цьому випадку? Також я не впевнений, чи не запускається завантажувальний пристрій такий самий, як "комбінований" метод CV, про який я згадував вище. Було також обговорення на stats.stackexchange.com/questions/4868/…
user13420

@ user13420: я не впевнений, що ви маєте на увазі під комбінованим резюме ... Ось відповідь, де я записав, що для мене означає " позашляховий завантаження" та перехресне підтвердження: stats.stackexchange.com/a/26548/4598
підтримка cbeleites Моніка

@ user13420: Термінологія сильно відрізняється в різних областях. Чи можете ви оновити свою відповідь інформацією про те, що таке мікро- та макро F-заходи? Однак перехресне підтвердження є дуже загальною методикою: це схема для обчислення результатів тестування моделі. Ви можете обчислити будь-який показник продуктивності, який потребує введення базового значення для кожного випадку та прогнозованого значення для кожного випадку.
cbeleites підтримує Моніку

комбіноване резюме означає, що ви збираєте прогноз кожного проведення та обчислюєте показник після всіх 10 виплат. Отже, якщо я виміряю точність, нагадайте для завдання класифікації, вона мала б єдину точність, нагадати на відміну від 10 значень і середнього значення (що є у звичайному резюме)
user13420

2
Дякую cbeleites - я додав ці роз’яснення, тому що вважаю формулювання оригінального питання трохи заплутаним. Я сподіваюся, що мої зміни були на краще - я намагався краще висвітлити дилему - але, будь ласка, повідомте мене про інше. Все, що було сказано, коли ви згадали, що виявите різницю неправдивою - хотілося б зазначити, що @ user13420 отримує два суттєво різні результати в нижній частині свого ОП, дотримуючись підходи 1 або 2 . Я сам опинився перед цією дилемою. Я вважаю, що другий підхід є більш поширеним, але було б чудово взяти на себе його рішення.
Джош

1

Ви повинні робити рахунок (конкатенація). Це поширена помилка в галузі, яка означає (бали) - найкращий спосіб. Це може внести більше упередженості у вашу оцінку, особливо у рідкісних класах, як у вашому випадку. Ось папір, що підтверджує це:

http://www.kdd.org/exploration_files/v12-1-p49-forman-sigkdd.pdf

У роботі вони використовують "Favg" замість ваших "середніх (балів)" та "Ftp, fp" замість ваших "балів (конкатенація)"

Приклад іграшки:

Уявіть, що у вас є 10-кратне перехресне підтвердження та клас, який з’являється 10 разів, і він може бути призначений таким чином, що він відображається один раз у кожній складці. Також клас завжди прогнозується правильно, але в даних є один хибнопозитивний результат. Тестовий склад, що містить помилковий позитив, матиме 50% точності, тоді як всі інші складки матимуть 100%. Отже, середня (бали) = 95%. З іншого боку, оцінка (конкатенація) становить 10/11, приблизно 91%.

Якщо припустити, що справжня сукупність добре представлена ​​даними і що 10 перехресних валідаційних класифікаторів добре представляють кінцевий класифікатор, то реальна точність у світі склала б 91%, а середня оцінка (95) оцінюється в 95%. .

На практиці ви не хочете робити ці припущення. Натомість ви можете використовувати статистику розподілу для оцінки довіри, випадковим чином переробляючи дані та повторно обчислюючи бал (конкатенацію) кілька разів, а також завантажуючи.


Це чудова папір! Я думаю, що результат мови оригінального запитання (не використовується в роботі) полягає в тому, що при обчисленні F балів використовуйте підхід "мікро усереднення"; конкретно, підсумовуйте TP, TN, FP, FN з усіх складок, щоб отримати єдину матрицю плутанини, а потім обчисліть F бал (або інші бажані показники).
подорожні
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.