Відповіді:
Багато класифікаторів можуть прогнозувати безперервні бали. Часто безперервні оцінки - це проміжні результати, які перетворюються лише на мітки класів (як правило, порогові) як останній крок класифікації. В інших випадках, наприклад, можливі обчислення задньої ймовірності членства в класі (наприклад, дискримінантний аналіз, логістична регресія). Ви можете обчислити MSE за допомогою цих безперервних балів, а не міток класу. Перевагою цього є те, що ви уникаєте втрати інформації через дихотомізацію.
Коли безперервний бал є ймовірним, показник MSE називається показником Brier.
Однак існують також проблеми класифікації, які є замасковими проблемами регресії. У моєму полі це може бути, наприклад, класифікація випадків відповідно до того, чи перевищує концентрація якоїсь речовини юридичну норму чи ні (що є двокласною / дискримінаційною двокласовою проблемою). Тут MSE є природним вибором, зумовленим основним регресійним характером завдання.
У цій статті ми пояснюємо це як частину більш загальної основи:
К. Белеїт, Р. Сальцер та В. Серго:
Валідація моделей м'якої класифікації за допомогою парціальних членських класів: розширена концепція чутливості та Ко, застосована до оцінювання тканин астроцитоми
Чемпіон. Intell. Лабораторія. Сист., 122 (2013), 12 - 22.
Як обчислити: якщо ви працюєте в R, одна реалізація знаходиться в пакеті "softclassval", http: /softclassval.r-forge.r-project.org.
Я не зовсім розумію, як ... успішна класифікація є двійковою змінною (правильною чи ні), тому важко зрозуміти, що ви б квадратні.
Зазвичай класифікація вимірюється за такими показниками, як відсоток правильний, коли класифікація, яка була оцінена з навчального набору, застосовується до тестового набору, який був відкладений раніше.
Середня квадратична помилка, безумовно, може бути розрахована для прогнозів або прогнозованих значень безперервних змінних, але я думаю, що не для класифікацій.
Для оцінки ймовірності ви хочете обчислити не MSE, а натомість ймовірність:
Ця ймовірність полягає у двійковій відповіді, яка, як передбачається, має розподіл Бернуллі.
Якщо ви берете журнал а потім заперечуєте, ви отримуєте логістичну втрату, яка є свого роду аналогом MSE, коли у вас є двійковий відповідь. Зокрема, MSE - це негативна ймовірність журналу для безперервної відповіді, що вважається нормальним розподілом.
Технічно це можна, але функція MSE не є опуклою для двійкової класифікації. Таким чином, якщо модель бінарної класифікації навчається за допомогою функції MSE Cost, мінімізація функції витрат не гарантується . Також використання MSE як функції витрат передбачає розподіл Гаусса, що не стосується бінарної класифікації.