Вплив нестабільності в прогнозах різних сурогатних моделей
Однак одне з припущень біноміального аналізу - однакова ймовірність успіху для кожного випробування, і я не впевнений, чи можна вважати, що метод, що стоїть за класифікацією «правильний» чи «неправильний» у перехресній валідації, має однакова ймовірність успіху.
Ну, звичайно, ця еквівалентність - це припущення, яке також необхідно, щоб ви могли об'єднати результати різних сурогатних моделей.
На практиці ваша інтуїція про те, що це припущення може бути порушено, часто відповідає дійсності. Але ви можете виміряти, чи це так. Саме тут я вважаю корисною перехресну перевірку: Стабільність прогнозів для одного і того ж випадку за різними сурогатними моделями дозволяє судити про те, чи є моделі еквівалентними (стабільні прогнози) чи ні.
Ось схема повтореної (також повторної) кратної перехресної перевірки:к

Заняття червоний і синій. Кола праворуч символізують передбачення. У кожній ітерації кожен зразок прогнозується рівно один раз. Зазвичай велика середня величина використовується як оцінка ефективності, неявно припускаючи, що продуктивність сурогатних моделей дорівнює. Якщо ви шукаєте для кожного зразка прогнози, зроблені різними сурогатними моделями (тобто поперек стовпців), ви можете бачити, наскільки стабільні прогнози для цієї вибірки.i ⋅ k
Ви також можете розрахувати ефективність для кожної ітерації (блок з 3 рядків на кресленні). Будь-яка розбіжність між цими засобами означає, що припущення про те, що сурогатні моделі є рівнозначними (одна до одної, і тим більше "грандіозною моделлю", побудованої на всіх випадках), не виконується. Але це також говорить вам про те, скільки у вас нестабільності. Що стосується біноміальної пропорції, я вважаю, що справжня ефективність однакова (тобто незалежна від того, чи завжди однакові випадки помилково прогнозуються чи однакове число, але різні випадки неправильно прогнозовані). Я не знаю, чи можна було б розумно припустити певний розподіл для ефективності сурогатних моделей. Але я думаю, що це в будь-якому випадку є перевагою перед загальнодоступними повідомленнями про помилки класифікації, якщо ви взагалі повідомляєте про цю нестабільність.к сурогатні моделі були об'єднані вже для кожної з ітерацій, дисперсія нестабільності приблизно перевищує спостережувану дисперсію між ітераціями.к
Зазвичай мені доводиться працювати з набагато менш ніж 120 незалежними випадками, тому я дуже сильно регулюю свої моделі. Тоді я зазвичай можу показати, що дисперсія нестабільності є ніж кінцева дисперсія розміру тестової вибірки. (Я думаю, що це є розумним для моделювання, оскільки люди упереджені до виявлення шаблонів, і, таким чином, тягнуться до побудови занадто складних моделей і, таким чином, до вирівнювання).
Я, як правило, повідомляю про відсотки спостережуваної дисперсії нестабільності протягом ітерацій (і , і ) та біноміальних довірчих інтервалів щодо середнього спостережуваного показника для кінцевого розміру тестового зразка.≪
нкi
Малюнок - це більш нова версія рисунка. 5 у цій роботі: Beleites, C. & Salzer, R .: Оцінка та підвищення стабільності хіміометричних моделей у ситуаціях з невеликим розміром вибірки, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Зауважте, що, коли ми писали документ, я ще не повністю зрозумів різні джерела дисперсії, які я пояснив тут, - майте це на увазі. Тому я вважаю, що аргументаціядля ефективної оцінки розміру вибірки, наведеної там, невірно, навіть якщо висновок заявки про те, що різні типи тканин у кожного пацієнта вносять приблизно стільки ж загальної інформації, скільки новий пацієнт із заданим типом тканини, ймовірно, все ще справедливий (у мене абсолютно інший тип докази, які також вказують саме на це). Однак я ще не зовсім впевнений у цьому (як і як це зробити краще і, таким чином, зможу перевірити), і це питання не пов'язане з вашим запитанням.
Яку ефективність використовувати для біноміального довірчого інтервалу?
Поки що я використовував середні показники спостереження. Ви також можете використати найгірші спостережувані показники: чим ближче спостережувана ефективність до 0,5, тим більша дисперсія і, таким чином, довірчий інтервал. Таким чином, довірчі інтервали спостережуваних показників, найближчі до 0,5, дають певний консервативний "запас міцності".
Зверніть увагу, що деякі методи обчислення біноміальних довірчих інтервалів працюють також, якщо спостережуване число успіхів не є цілим числом. Я використовую "інтеграцію байєсівської задньої ймовірності", як описано в
Ross, TD: Точні довірчі інтервали для біноміальної пропорції та оцінки швидкості Пуассона, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(Я не знаю для Matlab, але в R ви можете використовувати binom::binom.bayesобидва параметри форми, встановлені на 1).
Ці думки стосуються моделей прогнозування, побудованих на цьому навчальному наборі даних, для нових невідомих випадків. Якщо вам потрібно узагальнити до інших наборів даних про тренінг, складених із тієї ж сукупності випадків, вам потрібно буде оцінити, наскільки змінюються моделі, що навчаються на нових зразках тренінгу розміром . (Я не маю уявлення, як це зробити, крім отримання фізично нових наборів даних про тренінг)н
Дивіться також: Bengio, Y. та Grandvalet, Y . : Непідвладний оцінювач варіації K-Fold перехресної валідації, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(Думати більше про ці речі є в моєму дослідницькому тодо-списку ..., але, оскільки я виходжу з експериментальної науки, мені подобається доповнювати теоретичні та імітаційні висновки експериментальними даними - що тут важко, оскільки мені знадобиться великий набір незалежних випадків для еталонного тестування)
Оновлення: чи виправдано припускати розподіл біоміального речовини?
Я бачу резюме в k-складку як такий експеримент з метанням монет : замість того, щоб кинути одну монету велику кількість разів, монети, вироблені однією і тією ж машиною, викидають меншу кількість разів. На цій картині я думаю, що @Tal вказує, що монети не однакові. Що, очевидно, правда. Я думаю, що і що можна зробити, залежить від припущення про еквівалентність сурогатних моделей.к
н
нpн