Поєднання класифікаторів, гортаючи монету

Я вивчаю курс машинного навчання, а слайди лекцій містять інформацію, що мені суперечить рекомендованій книзі.

Проблема полягає в наступному: є три класифікатори:

класифікатор A, що забезпечує кращі показники роботи в нижньому діапазоні порогів,
класифікатор B, що забезпечує більш високу продуктивність у більш високому діапазоні порогів,
класифікатор C, що ми отримуємо, перегортаючи p-монету та вибираючи з двох класифікаторів.

Якою буде продуктивність класифікатора C, який розглядається на кривій ROC?

У слайдах лекції зазначається, що, просто перегорнувши цю монету, ми отримаємо магічний « опуклий корпус » кривої ROC класифікатора A та B.

Я не розумію цього моменту. Як ми просто перевернемо монету, як ми можемо отримати інформацію?

Слайд лекції

слайди лекцій

Про що йдеться в книзі

Рекомендована книга (« Збір даних ...» Й. Х. Віттена, Ейбе Франка та Марка А. Холла ), з іншого боку, говорить:

Щоб побачити це, виберіть конкретне обмеження ймовірності для методу A, який дає справжню та хибну позитивну швидкість tA та fA відповідно, та інше відсічення для методу B, що дає tB та fB. Якщо ви використовуєте ці дві схеми навмання з ймовірностями p і q, де p + q = 1, то ви отримаєте істинні та хибні додатні показники p. tA + q. тБ і р. fA + q. fB. Це являє собою точку, що лежить на прямій, що з'єднує точки (tA, fA) і (tB, fB), і, змінюючи p і q, ви можете простежити всю лінію між цими двома точками.

Наскільки я розумію, те, що йдеться в книзі, полягає в тому, що, щоб насправді отримати інформацію та досягти опуклого корпусу, нам потрібно зробити щось більш вдосконалене, ніж просто перевернути п-монету.

AFAIK, правильний спосіб (як пропонується у книзі) полягає в наступному:

нам слід знайти оптимальний поріг Oa для класифікатора A
нам слід знайти оптимальний поріг Ob для класифікатора B
визначте С таким чином:
- Якщо t <Oa, використовуйте класифікатор A з t
- Якщо t> Ob, використовуйте класифікатор B з t
- Якщо Oa <t <Ob, виберіть між класифікатором A з Oa і B з Ob ймовірність як лінійну комбінацію того, де ми знаходимось між Oa і Ob.

Це правильно? Якщо так, то є кілька ключових відмінностей порівняно з тим, що слайди пропонують.

Це не просто гортання монети, а більш досконалий алгоритм, який потребує визначених вручну точок і вибирає залежно від того, в який регіон ми потрапляємо.
Він ніколи не використовує класифікатор A і B з пороговими значеннями між Oa та Ob.

Чи можете ви пояснити мені цю проблему і який правильний спосіб її зрозуміти , якщо моє розуміння було невірним?

Що буде, якби ми просто перевернули монети p, як запропонували слайди? Я думаю, що ми отримаємо криву ROC, яка знаходиться між A і B, але ніколи "кращою", ніж краща в даній точці.

Наскільки я бачу, я дійсно не розумію, як слайди можуть бути правильними. Імовірнісний розрахунок ліворуч для мене не має сенсу.

Оновлення: знайдено статтю, написану оригінальним автором, який винайшов метод опуклого корпусу: http://www.bmva.org/bmvc/1998/pdf/p082.pdf

— гіперкнот
джерело

З мого читання слайду, який ви опублікували, та витягу з книги, вони, здається, описують саме те саме, і слайди не помиляються.

— кардинал

Зауважте, що також не надто складно побудувати симуляцію, щоб переконати себе у тому, що зазначено на слайді. Єдина складність, яка може виникнути у вас, - це побудова двох кривих ROC, які приблизно так виглядають, але керувати ними, скажімо, за допомогою моделі суміші Гаусса для створення спостережень та деяких неоптимальних правил рішення.

— кардинал

Відповіді:

(Відредаговано)

Слайди лекції мають рацію.

Метод A має "оптимальну точку", яка дає справжню та хибну позитивну швидкість (TPA, FPA у графіку) відповідно. Ця точка відповідала б порогу, або в цілому [*] оптимальною межею рішення для А. Це все одно стосується Б. (Але пороги та межі не пов'язані).

Видно, що класифікатор A виконує прихильність відповідно до переваги "мінімізувати помилкові позитиви" (консервативна стратегія) та класифікатора B, коли ми хочемо "максимально реалізувати справжні позитиви" (стратегія прагнення).

Відповідь на ваше перше запитання, в основному, так, за винятком того, що ймовірність монети (в деякому сенсі) довільна. Кінцевим класифікатором буде:

~~$x$ $x$ $p$~~

(Виправлено: насправді лекції цілком вірні, ми можемо просто перевернути монету в будь-якому випадку. Див. Схеми)

$p$

[*] Ви тут повинні бути загальними: якщо ви думаєте з точки зору єдиного скалярного порогу, все це має мало сенсу; одновимірна ознака з пороговим класифікатором не дає вам достатньої міри свободи для того, щоб мати різні класифікатори як A і B, які виконуються по різних кривих, коли вільні параметри (межа рішення = поріг) змінюються. Іншими словами: A і B називаються "методами" або "системами", а не "класифікаторами"; тому що A - це ціла сім'я класифікаторів, параметризована деяким параметром (скалярним), який визначає межу рішення, а не просто скалярну]

Я додав кілька діаграм, щоб зробити це більш зрозумілим:

введіть тут опис зображення

$t$ $t$ $t$ $t_A=2$ $t$ $t_B=4$

Тоді в цьому сценарії можна сказати, що заповнений помаранчевий рядок є "оптимальним класифікатором А" (всередині його сімейства), і той самий для В. Але не можна сказати, чи помаранчева лінія краща за синю лінію: краще, коли ми присвоюємо високу вартість помилковим позитивам, інше, коли помилкові негативи значно дорожчі.

введіть тут опис зображення

Тепер може статися, що ці два класифікатори занадто крайні для наших потреб, нам би хотілося, щоб обидва типи помилок мали однакову вагу. Ми хотіли б замість того, щоб використовувати класифікатор A (помаранчева точка) або B (синя точка) для досягнення ефективності, яка знаходиться між ними. Як кажуть у курсі, можна досягти цього результату, просто перегорнувши монету та вибравши один із класифікаторів навмання.

Як ми просто перевернемо монету, як ми можемо отримати інформацію?

Ми не отримуємо інформацію. Наш новий рандомізований класифікатор не просто "кращий", ніж A або B, його продуктивність є середнім рівнем A і B, що стосується витрат, що відносяться до кожного типу помилок. Це може бути для нас корисним чи не вигідним, залежно від того, які наші витрати.

AFAIK, правильний шлях (як пропонується у книзі) наступний ... Це правильно?

$p$

— леонблой
джерело

@leonboy Я вважаю, що x - це поріг, а для низьких значень x класифікатор A працює найкраще. Для високих значень x класифікатор B найкраще працює. У кращому випадку я маю на увазі для даної помилкової позитивної ставки справжня позитивна ставка найвища. Якщо все, що ми знаємо, це те, що A найкраще працює в одній точці, де вони перетинають і B для всіх порогових значень вище, то будь-який алгоритм, який дає вагу менше 1 до А в області між FPa і FPb, де A має більш високий TP, не може виконувати а також А. Отже, такий алгоритм C повинен опуститися нижче А в цьому регіоні.

— Майкл Р. Черник

Аналогічно в області між FPa і FPb, де TP вище для B, жоден алгоритм з p більшим за 0 не буде краще, ніж B. Формула для TPc є правильною, але фіксований середньозважений середній показник між TPb і TPa не може бути більшим, ніж більший за TPa і TPb. Він повинен впасти між ними. Але на діаграмі завжди показано TPc вище TPa та TPb в усьому регіоні від FPa та FPb. Ви бачите тут щось, чого нам не вистачає? Я не знаходжу це у вашій відповіді.

— Майкл Р. Черник

Гаразд, лампочка згасла! X - це вектор у вашій свідомості, а не скалярний поріг. Це насправді щось змінює? Axs FP - скалярна ймовірність. Мій пункт перетину - точка рівності FP для A і B. Можуть бути багато векторів X, які ведуть до нього. Я просто кажу, що в будь-якій точці вздовж осі FP між FPa та FPb. TPc = p TPa + (1-p) TPb. Рядок на ділянці знаходиться в площині TP проти FP. Як ця лінія могла пройти через точки над кривими як для А, так і для В, як це викликало ОП (я думаю, правильно)?

— Майкл Р. Черник

@Michael: Я вважаю, що A і B є різними методами, які дають різні межові рішення. Кожен з них має регульований параметр (що в 1D - це поріг), параметри є незалежними та дають (для кожного) сімейство класифікаторів. Я спробую побудувати схему, щоб спробувати уточнити, тримайте.

— leonbloy

Я дав леонблою нагороду за цей гарний опис. Але мені подобається остаточний коментар кардинала, тому що мені цей аргумент зрозумілий і відповідає моєму останньому міркуванню. @leobloy У вашій діаграмі одне, чого не вистачає, це графік точок для рандомізованого правила, яке б'є обидва окремі. Я думаю, ви можете описати нове правило як таке, яке зважує дві помилки по-різному, але це не потрібно, і я думаю, що менш заплутаним, якщо ви не залишите цей аргумент.

— Майкл Р. Черник

Я згоден з вашими міркуваннями. Якщо ви використовуєте класифікатор, перегортаючи монети, щоб вибрати один, коли ви знаходитесь між точками А та В, точка на кривій завжди буде нижче кращого класифікатора та вище бідного та, можливо, вище обох! З діаграмою повинно бути щось не так. У точці, коли 2 криві ROC перетинають алгоритм випадкового вибору, буде мати таку ж ефективність, як і два алгоритми. Це буде не вище того, як зображено на схемі.

— Майкл Р. Черник
джерело

Я вважаю, слайд правильний. Якщо ви використовуєте дві різні процедури прийняття рішень з двома різними порогами, а потім приймаєте рандомізоване рішення, ви отримаєте опуклу комбінацію, яка дасть точку, що лежить між ними. Ця точка може бути вище обох ( ! ) Кривих з однаковою помилковою позитивною швидкістю. Це пояснюється тим, що поріг, застосовуваний для кожної процедури, в цей момент відрізняється.

— кардинал

Таким чином, A і B у опуклої комбінації відрізняється від A і B, які вибираються індивідуально, з такою помилковою позитивною швидкістю. Я просто думаю, що діаграма була заплутаною, оскільки я не бачив, що A і B були вибрані з родини класифікаторів.

— Майкл Р. Черник

A

$A$

B

$B$

Я вважаю, що ця відповідь є правильною, додається до коментаря кардинала! Вихід із зони перехрестя може трапитися, але це не метод. Я знайшов оригінальний папір у хлопця, який винайшов цей метод, і це дуже добре пояснює! bmva.org/bmvc/1998/pdf/p082.pdf

— hyperknot

@zsero: Я вважаю, що навіть Майкл визнає, що ця відповідь ґрунтувалася на розумінні діаграми в той момент, коли відповідь була розміщена, і її інтерпретація змінилася з моменту появи коментарів та інших відповідей. Так само, як зображено на рисунку, за допомогою рандомізації можна досягти будь-якої точки між будь-якою точкою між точкою на першій кривій і точкою на другій, навіть якщо отримана справжня позитивна швидкість домінує над двома іншими кривими для заданої помилкової позитивної швидкості.

— кардинал