Інтервал довіри для точності перехресної перевірки класифікації

Я працюю над проблемою класифікації, яка обчислює метрику подібності між двома вхідними рентгенівськими зображеннями. Якщо зображення однакової особи (мітка "праворуч"), буде обчислена вища метрика; Вхідні зображення двох різних людей (мітка "неправильно") призведе до нижчої метрики.

Я використовував стратифіковану 10-кратну перехресну перевірку для обчислення ймовірності помилкової класифікації. Мій поточний розмір вибірки становить близько 40 правильних і 80 неправильних збігів, де кожна точка даних є обчисленою метрикою. Я отримую ймовірність неправильної класифікації 0,00, але мені потрібен якийсь інтервал довіри / аналіз помилок щодо цього.

Я розглядав використання інтервалу довіри біноміальної пропорції (де я використовував результати перехресної перевірки як правильне маркування або неправильне маркування для моєї кількості успіхів). Однак одне з припущень біноміального аналізу - однакова ймовірність успіху для кожного випробування, і я не впевнений, чи можна вважати, що метод, що стоїть за класифікацією «правильний» чи «неправильний» у перехресній валідації, має однакова ймовірність успіху.

Єдиний інший аналіз, який я можу придумати, - це повторити перехресну перевірку X разів та обчислити середнє / стандартне відхилення помилки класифікації, але я не впевнений, чи це навіть підходить, оскільки я б повторно використовував дані з моїх порівняно невеликий розмір зразка в кілька разів.

Будь-які думки? Я використовую MATLAB для всіх своїх аналізів, і у мене є інструментальна панель статистики. Буду вдячний за будь-яку допомогу!

— Шон
джерело

Ймовірність неправильної класифікації 0,00 означає, що ви отримуєте 100% точність класифікації на кожній з 10 складених перехресних перевірок?

— амеба

Так, це правильно. Кожна з складок не призводила до помилок; 0,00, про який я повідомляв, являє собою загальну кількість помилок (0) від загальної кількості тестових випадків (120).

— Шон

BTW, що саме ви маєте на увазі під «стратифікованою» перехресною валідацією? На кожну складку резюме у вас 120/10 = 12 тестових зразків, із завжди 4 матчами та 8 невідповідностями?

— амеба

Так, саме так - принаймні саме так я розумію, як це робиться в рамках MATLAB. Кожна складка повинна містити однакову частку міток класу «правильний» / «неправильний», що становить 1: 2.

— Шон

Відповіді:

Вплив нестабільності в прогнозах різних сурогатних моделей

Однак одне з припущень біноміального аналізу - однакова ймовірність успіху для кожного випробування, і я не впевнений, чи можна вважати, що метод, що стоїть за класифікацією «правильний» чи «неправильний» у перехресній валідації, має однакова ймовірність успіху.

Ну, звичайно, ця еквівалентність - це припущення, яке також необхідно, щоб ви могли об'єднати результати різних сурогатних моделей.

На практиці ваша інтуїція про те, що це припущення може бути порушено, часто відповідає дійсності. Але ви можете виміряти, чи це так. Саме тут я вважаю корисною перехресну перевірку: Стабільність прогнозів для одного і того ж випадку за різними сурогатними моделями дозволяє судити про те, чи є моделі еквівалентними (стабільні прогнози) чи ні.

Ось схема повтореної (також повторної) кратної перехресної перевірки: $k$
ітераційне перехресне підтвердження k

Заняття червоний і синій. Кола праворуч символізують передбачення. У кожній ітерації кожен зразок прогнозується рівно один раз. Зазвичай велика середня величина використовується як оцінка ефективності, неявно припускаючи, що продуктивність сурогатних моделей дорівнює. Якщо ви шукаєте для кожного зразка прогнози, зроблені різними сурогатними моделями (тобто поперек стовпців), ви можете бачити, наскільки стабільні прогнози для цієї вибірки. $i \cdot k$

Ви також можете розрахувати ефективність для кожної ітерації (блок з 3 рядків на кресленні). Будь-яка розбіжність між цими засобами означає, що припущення про те, що сурогатні моделі є рівнозначними (одна до одної, і тим більше "грандіозною моделлю", побудованої на всіх випадках), не виконується. Але це також говорить вам про те, скільки у вас нестабільності. Що стосується біноміальної пропорції, я вважаю, що справжня ефективність однакова (тобто незалежна від того, чи завжди однакові випадки помилково прогнозуються чи однакове число, але різні випадки неправильно прогнозовані). Я не знаю, чи можна було б розумно припустити певний розподіл для ефективності сурогатних моделей. Але я думаю, що це в будь-якому випадку є перевагою перед загальнодоступними повідомленнями про помилки класифікації, якщо ви взагалі повідомляєте про цю нестабільність. $k$ сурогатні моделі були об'єднані вже для кожної з ітерацій, дисперсія нестабільності приблизно перевищує спостережувану дисперсію між ітераціями. $k$

Зазвичай мені доводиться працювати з набагато менш ніж 120 незалежними випадками, тому я дуже сильно регулюю свої моделі. Тоді я зазвичай можу показати, що дисперсія нестабільності є ніж кінцева дисперсія розміру тестової вибірки. (Я думаю, що це є розумним для моделювання, оскільки люди упереджені до виявлення шаблонів, і, таким чином, тягнуться до побудови занадто складних моделей і, таким чином, до вирівнювання). Я, як правило, повідомляю про відсотки спостережуваної дисперсії нестабільності протягом ітерацій (і , і ) та біноміальних довірчих інтервалів щодо середнього спостережуваного показника для кінцевого розміру тестового зразка. $\ll$
$n$ $k$ $i$

Малюнок - це більш нова версія рисунка. 5 у цій роботі: Beleites, C. & Salzer, R .: Оцінка та підвищення стабільності хіміометричних моделей у ситуаціях з невеликим розміром вибірки, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Зауважте, що, коли ми писали документ, я ще не повністю зрозумів різні джерела дисперсії, які я пояснив тут, - майте це на увазі. Тому я вважаю, що аргументаціядля ефективної оцінки розміру вибірки, наведеної там, невірно, навіть якщо висновок заявки про те, що різні типи тканин у кожного пацієнта вносять приблизно стільки ж загальної інформації, скільки новий пацієнт із заданим типом тканини, ймовірно, все ще справедливий (у мене абсолютно інший тип докази, які також вказують саме на це). Однак я ще не зовсім впевнений у цьому (як і як це зробити краще і, таким чином, зможу перевірити), і це питання не пов'язане з вашим запитанням.

Яку ефективність використовувати для біноміального довірчого інтервалу?

Поки що я використовував середні показники спостереження. Ви також можете використати найгірші спостережувані показники: чим ближче спостережувана ефективність до 0,5, тим більша дисперсія і, таким чином, довірчий інтервал. Таким чином, довірчі інтервали спостережуваних показників, найближчі до 0,5, дають певний консервативний "запас міцності".

Зверніть увагу, що деякі методи обчислення біноміальних довірчих інтервалів працюють також, якщо спостережуване число успіхів не є цілим числом. Я використовую "інтеграцію байєсівської задньої ймовірності", як описано в
Ross, TD: Точні довірчі інтервали для біноміальної пропорції та оцінки швидкості Пуассона, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2

(Я не знаю для Matlab, але в R ви можете використовувати binom::binom.bayesобидва параметри форми, встановлені на 1).

Ці думки стосуються моделей прогнозування, побудованих на цьому навчальному наборі даних, для нових невідомих випадків. Якщо вам потрібно узагальнити до інших наборів даних про тренінг, складених із тієї ж сукупності випадків, вам потрібно буде оцінити, наскільки змінюються моделі, що навчаються на нових зразках тренінгу розміром . (Я не маю уявлення, як це зробити, крім отримання фізично нових наборів даних про тренінг) $n$

Дивіться також: Bengio, Y. та Grandvalet, Y . : Непідвладний оцінювач варіації K-Fold перехресної валідації, Journal of Machine Learning Research, 2004, 5, 1089-1105 .

(Думати більше про ці речі є в моєму дослідницькому тодо-списку ..., але, оскільки я виходжу з експериментальної науки, мені подобається доповнювати теоретичні та імітаційні висновки експериментальними даними - що тут важко, оскільки мені знадобиться великий набір незалежних випадків для еталонного тестування)

Оновлення: чи виправдано припускати розподіл біоміального речовини?

Я бачу резюме в k-складку як такий експеримент з метанням монет : замість того, щоб кинути одну монету велику кількість разів, монети, вироблені однією і тією ж машиною, викидають меншу кількість разів. На цій картині я думаю, що @Tal вказує, що монети не однакові. Що, очевидно, правда. Я думаю, що і що можна зробити, залежить від припущення про еквівалентність сурогатних моделей. $k$

$n$

$n$ $p$ $n$

— cbeleites незадоволений SX
джерело

Привіт @cbeleites, я щойно прокоментував, що мій аналіз резюме дає 2 унікальних значення для цього конкретного набору даних (деякі інші набори даних мають N унікальних значень, а N зазвичай менше 5), як описано вище амеби. З огляду на це, як я можу показати, що мої прогнози стабільні, використовуючи лише мій єдиний набір даних та резюме? Що стосується біноміального розподілу, я розглядав інтервал узгодження Cousti (може працювати для високої успішності / 100% успішності, не виблискуючи). Здається, ви говорите, що я можу використовувати біноміальний розподіл, але мені все ще незрозуміло, як я можу виправдати це припущення щодо тієї ж проблеми успіху.

— Шон

p

$p$

@amoeba: Я поняття не маю, як поєднати біноміальний розподіл з невідомим розподілом через нестабільність в один довірчий інтервал. Таким чином, я повідомляю про спостережувані відсотки для (не) стійкості та біноміальних ci для кінцевого розміру випробуваної вибірки. Як їх поєднувати - одне з дослідницьких питань, які я постійно тримаю в голові, але поки що я ні знайшов рішення, ні зустрічав когось, хто має. Я думаю, що ми

— вийшли

@Sean: Ви бачили моє нещодавнє запитання щодо пов’язаних проблем? У коментарях триває дуже цікава (для мене) дискусія, і зараз я сам працюю над деякими моделюваннями. Я прийшов до думки, що біноміальне припущення сильно неправильне! Вас також можуть зацікавити кілька наданих там посилань, які стверджують одне і те ж.

— амеба

@Sean: Я намагатимусь оновлювати ці дві нитки, це означає, що після (і якщо) питання з’ясується далі, я спробую узагальнити ситуацію там, а також надати тут нову відповідь. Поки що ви помітили цей папір, пов'язаний в іншій нитці? Автори обговорюють саме ваше запитання та надають процедуру завантаження, на яку вони стверджують, працює добре. Якби я зараз написав відповідь на ваше запитання, я рекомендував би їх процедуру. Але було б доцільно спочатку перевірити 24 статті, які цитують цей документ.

— амеба

Я думаю, що ваша ідея повторної перехресної перевірки багато разів стоїть прямо на шляху.

Повторіть резюме, скажімо, 1000 разів, кожен раз розділяючи свої дані на 10 частин (для 10-кратного резюме) по-іншому ( не пересувайте мітки). Ви отримаєте 1000 оцінок точності класифікації. Звичайно, ви будете використовувати ті самі дані, тож ці 1000 оцінок не будуть незалежними. Але це схоже на процедуру завантаження: ви можете прийняти стандартне відхилення над цими точністю як стандартну похибку середнього значення вашого загального оцінювача точності. Або 95% перцентильний інтервал, як довірчий інтервал 95%.

Крім того, ви можете поєднати цикл перехресної перевірки та цикл завантаження і просто вибрати випадкову (можливо, стратифіковану випадкову) 10% ваших даних як тестовий набір, і зробити це 1000 разів. Ті ж міркування, що і вище, застосовуються і тут. Однак це призведе до більшої відмінності від повторень, тому я вважаю, що вищевказана процедура є кращою.

Якщо показник неправильної класифікації становить 0,00, ваш класифікатор робить нульові помилки, і якщо це трапляється під час кожної ітерації завантажувального завантаження, ви отримаєте нульовий широкий інтервал довіри. Але це просто означатиме, що ваш класифікатор майже ідеальний, тому хороший для вас.

— амеби
джерело

Привіт @amoeba, дякую за вашу відповідь. Ви б не хотіли б пояснити дещо детальніше щодо вашої першої пропозиції щодо повторення резюме 1000 разів випадковим шляхом пробивання зразків? Чи повинна бути заздалегідь встановлена частка тестового набору: навчальний набір (наприклад, 10:90 для 10-кратної перехресної перевірки)? Я думаю, мені трохи незрозуміло, як повторення десятикратної перевірки може збільшити дисперсію в часі.

— Шон

Я боюся, що друга процедура, запропонована @amoeba, є надто оптимістичною: неадекватний класифікатор може мати ідеальну ефективність для даного набору даних (наприклад, припустимо, що у вас є лише 4 вибірки - класифікація всіх них 1: 8) правильно випадково). Як зазначалося в амебі, вимірювання дисперсії в різних розподілах складових випробувальних складок призведе до довірчого інтервалу ширини 0, що в даному випадку явно неправильно.

— Trisoloriansunscreen

Я думаю, що в кінцевому рахунку ця проблема зводиться до пошуку ймовірності спостереження даних, яка відрізняється від тієї, яку я ще не спостерігав. Отримати довірчі інтервали для мого зразка - це те, що @amoeba запропонував для мого початкового запитання (я використовував випадкові складки для кожної ітерації CV), і результат виглядає більш реалістичним (95% ДІ: [0,0028, 0,0033]). Однак я не знаю, чи існує інша методика, яка була б краща для прогнозування даних у майбутньому. Можливо, якийсь модельний підхід, де я підганяю криві до своїх даних і обчислюю їх перекриття?

— Шон

@amoeba: Дякую за роз’яснення, я думаю, я не прочитав вашої відповіді досить уважно. Однак я все ще занепокоєний оптимістичним ухилом такого підходу (обидві процедури). Виміряючи точність під час спроб різних розділень CV, ви оцінюєте мінливість, яку викликає довільне розщеплення. Тим не менш, ви ігноруєте той факт, що всі ваші дані є випадковою вибіркою більшої кількості спостережень (які ви не збирали). Якщо у вас невеликий набір даних, який випадково досягає ідеальних показників роботи (незалежно від розбиття резюме), ваш довірчий інтервал дорівнює нулю, і це неправильно.

— Trisoloriansunscreen

@amoeba: Це складно, оскільки ви не можете завантажувати спостереження самі (розгляньте найближчий класифікатор сусідів у такому випадку). Я сам борюся з цією проблемою, давайте подивимось, чи придумає хтось ще хтось із ідеєю.

— Trisoloriansunscreen

Помилка класифікації є одночасно розривним і неправильним правилом оцінювання. Він має низьку точність, і оптимізуючи його, вибирає неправильні характеристики та надає їм неправильні ваги.

— Френк Харрелл
джерело

Це навряд чи може бути проблемою для ОП, якщо він отримає 99-100% перехресної перевірки класифікації.

— амеба

@amoeba: Це може бути проблемою також, якщо дотримуватись правильних пропорцій, близьких до 100 або 0%: на відміну від показників ефективності, які покладаються на безперервні бали, будь-який вид продуктивності, який вимірюється після дихотомізації (загартовування), показник безперервної класифікації не може вказувати прогнози наближаються до межі прийняття рішень до тих пір, поки вони все ще на правильній стороні. Однак у ІМХО є вагомі причини повідомити про заходи щодо ефективності пропорційного типу (наприклад, якщо ваші читачі / співпрацівники їх розуміють, але не розуміють, наприклад, оцінки Brier). Я не хотів цього відкривати ...

— cbeleites незадоволений SX

... рядок обговорення, оскільки в питанні не було вказівки на оптимізацію (де це стає дійсно важливим).

— cbeleites незадоволений SX

Якщо ви обчислюєте пропорції, класифіковані "правильно", ви повинні робити це з причини, наприклад, щоб винести судження або вжити заходів. Пропорція вводить в оману для цих цілей.

— Френк Харрелл

@FrankHarrell: Ну, я вважаю, що це причина - повідомити про це у статті. Як ви думаєте, люди взагалі повинні припинити повідомляти про класифікаційні точності?

— амеба