Коли правильне оцінювання правила є кращою оцінкою узагальнення в класифікаційному середовищі?


9

Типовим підходом до вирішення проблеми класифікації є визначення класу кандидатних моделей, а потім проведення вибору моделі за допомогою певної процедури, наприклад перехресної перевірки. Зазвичай вибирають модель з найбільшою точністю або якусь пов'язану функцію, що кодує конкретну інформацію про проблему, наприклад .Fβ

Припустимо, що кінцевою метою є створення точного класифікатора (де визначення точності знову залежить від проблеми), в яких ситуаціях краще виконати вибір моделі, використовуючи правильне правило балів , на відміну від чогось неналежного, як точність, точність, нагадування тощо? Крім того, давайте ігноруємо питання складності моделі та припустимо, що апріорі ми вважаємо всі моделі однаково вірогідними.

Раніше я б сказав ніколи. Ми знаємо, що у формальному розумінні класифікація є легшою проблемою, ніж регресія [1], [2], і ми можемо отримати більш жорсткі межі для перших, ніж пізніші ( ). Крім того, існують випадки, коли спроба точно співставити ймовірності може призвести до неправильних меж рішення або перевищення рівня . Однак, виходячи з розмови тут та схеми голосування громади щодо таких питань, я ставив під сумнів цю думку.

  1. Девроє, Люк. Імовірнісна теорія розпізнавання образів. Вип. 31. Springer, 1996., розділ 6.7
  2. Кірнс, Майкл Дж. Та Роберт Е. Шапір. Ефективне безрозподільне вивчення імовірнісних концепцій. Основи інформатики, 1990. Матеріали., 31-й щорічний симпозіум о. IEEE, 1990.

() Це твердження може бути трохи неохайним. Я конкретно маю на увазі, що задані мічені дані форми S={(x1,y1),,(xn,yn)} з xiX та yi{1,,K} , здається, простіше оцінити межу рішення, ніж точно оцінити умовні ймовірності.

Відповіді:


4

Подумайте про це як порівняння між -test / тестом Вілкоксона і медіаном тестом Муду. Середній тест використовує оптимальну класифікацію (вище або нижче медіани для безперервної змінної), щоб вона лише втрачала інформації у вибірці. Дихотомізація в точці, відмінній від медіани, втратить набагато більше інформації. Використання неправильного правила балів, такого як пропорція, класифікована "правильно", є не більше або приблизно . Це призводить до вибору неправильних особливостей та пошуку моделі, яка є хибною.t1π2π23


Я думаю, я не розумію, чому дихотомізація актуальна. Зрештою, мета - вибрати класифікатор з якоїсь гіпотези класу таким, що мінімальний, враховуючи деякий кінцевий зразок що складається з прикладів, розподілених відповідно до . hHP(x,y)D(h(x)y)SD
альт

2
Проблема полягає в тому, що класифікація (на відміну від прогнозування ризику) є зайвою дихотомізацією.
Френк Харрелл

Тож чи можна припустити, що відповідь на це питання ніколи не є, якщо мета - оптимальне прийняття рішення Байєса щодо певної функції корисності та не точно узгодження ймовірностей?
альт

Оптимальне рішення Байєса вимагає чітко відкаліброваних прогнозованих ризиків, тому вони пов'язані між собою. Оптимальне рішення не використовує дихотомізацію, зроблену раніше в трубопроводі, але умови повної інформації, наприклад, не . Prob(Y=1|X=x)Prob(Y=1|X>c)
Френк Харрелл

1
Приємна дискусія. У деяких випадках, наприклад, з деякими детекторами спаму, ви можете отримати «невизначеність». Мене більше хвилює порог у таких проблемах, як медична діагностика та прогноз.
Френк Харрелл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.