Емпіричне обґрунтування одного стандартного правила помилки при використанні перехресної перевірки

Чи є якісь емпіричні дослідження, що виправдовують використання одного стандартного правила помилки на користь парсингу? Очевидно, це залежить від процесу генерації даних, але все, що аналізує великий масив наборів даних, було б дуже цікавим.

"Одне стандартне правило помилки" застосовується під час вибору моделей за допомогою перехресної перевірки (або більш загально через будь-яку процедуру, засновану на рандомізації).

Припустимо, ми розглянемо моделі індексовані параметром складності , такі, що "складніший", ніж саме тоді, коли . Припустимо, що ми оцінюємо якість моделі за допомогою якогось процесу рандомізації, наприклад, перехресної перевірки. Нехай позначає "середню" якість , наприклад, середню помилку прогнозування поза мішком у багатьох прогонах перехресної перевірки. Ми хочемо мінімізувати цю кількість. $M_\tau$ $\tau\in\mathbb{R}$ $M_\tau$ $M_{\tau'}$ $\tau>\tau'$ $M$ $q(M)$ $M$

Однак, оскільки наш показник якості походить від певної процедури рандомізації, він походить з мінливістю. Нехай позначає стандартну похибку якості через прогони рандомізації, наприклад, стандартне відхилення помилки прогнозування поза пакетиком від за кросами перехресної перевірки. $s(M)$ $M$ $M$

Тоді ми вибираємо модель , де - найменша така, що $M_\tau$ $\tau$ $\tau$

q (M_{τ}) \leq q (M_{τ^{'}}) + s (M_{τ^{'}}),

$q(M_\tau)\leq q(M_{\tau'})+s(M_{\tau'}),$

$\tau'$ $q(M_{\tau'})=\min_\tau q(M_\tau)$

Тобто ми вибираємо найпростішу модель ( найменшу ), яка не більше ніж одна стандартна помилка, гірша за найкращу модель у процедурі рандомізації. $\tau$ $M_{\tau'}$

Я знайшов це "одне стандартне правило про помилку", про яке йдеться в наступних місцях, але ніколи з явним виправданням:

Сторінка 80 у класифікаційних та регресійних деревах Бреймана, Фрідмана, Стоун та Олшен (1984)
Сторінка 415 в Оцінці кількості кластерів у наборі даних за допомогою статистики прогалини Tibshirani, Walther & Hastie ( JRSS B , 2001) (з посиланням на Breiman та ін.)
Сторінки 61 та 244 в елементах статистичного навчання Hastie, Tibshirani & Friedman (2009)
Сторінка 13 у « Статистичному навчанні з рідкістю » Hastie, Tibshirani & Wainwright (2015)

cross-validation model-selection regularization

— DavidShor
джерело

Хоча я знаю, на що ви звертаєтесь до "Одного стандартного правила помилок", я сильно підозрюю, що багато людей цього не зробить, але було б зацікавлене в цьому питанні, якби це було. Можливо, ви могли б відредагувати, щоб додати пару пояснювальних речень? (Просто пропозиція ...)

— jbowman

@jbowman: Я щойно відредагував питання, щоб пояснити одне стандартне правило про помилку, зіткнувшись з ним, оскільки мене теж це дуже цікавить ... і відповідь нижче не дуже відповідає на мої запитання. Будь-хто, будь ласка, не соромтеся вдосконалюватись.

— S. Kolassa - Відновіть Моніку

Пов'язане: stats.stackexchange.com/questions/138569

— Амеба каже

Це було б приємною темою для статті. Це здається розумним інженерно-евристичним, але не всі СЕГ працюють на практиці, тому дослідження над великою кількістю наборів даних було б цікавим. Мені цікаво, чи виникає проблема тестування декількох гіпотез, яка може означати, що вона не дуже добре відкалібрована, але я би подумав, що це буде краще, ніж нічого не робити на наборах даних, де подібне перенастроювання, ймовірно, буде проблема. Питання в тому, чи робить це значно погіршення продуктивності наборів даних, де це не проблема?

— Дікран Марсупіал

Відповіді:

Далі не є емпіричним дослідженням, тому я спочатку хотів опублікувати це як коментар, а не відповідь - але це дійсно виявляється занадто довгим для коментаря.

Cawley & Talbot ( J of Machine Learning Research , 2010) звертають увагу на різницю між накладанням під час фази вибору моделі та надмірним підходом під час фази підгонки моделі.

Другий вид накладання - це той, з яким більшість людей знайомі: враховуючи конкретну модель, ми не хочемо її переозброювати, тобто надто тісно підходити до конкретних ідіосинкразій одного єдиного набору даних, який ми зазвичай маємо. ( Саме тут усадка / регуляризація може допомогти, торгуючи невеликим збільшенням зміщення проти великого зменшення дисперсії. )

Однак, Cawley & Talbot стверджують, що ми можемо наближатись так само добре на етапі вибору моделі. Зрештою, у нас, як правило, є лише один набір даних, і ми приймаємо рішення між різними моделями різної складності. Оцінка кожної моделі-кандидата з метою вибору її зазвичай передбачає пристосування цієї моделі, що може бути виконано за допомогою регуляризації чи ні. Але ця оцінка сама по собі знову є випадковою змінною, оскільки вона залежить від конкретного набору даних, який ми маємо. Таким чином, наш вибір "оптимальної" моделі сам по собі може виявляти упередженість і буде демонструвати дисперсію, оскільки залежить від конкретного набору даних із усіх наборів даних, які ми могли б отримати з населення.

Таким чином, Cawley & Talbot стверджують, що просто вибір моделі, яка найкраще відповідає цій оцінці, може бути правилом вибору з невеликим ухилом - але він може мати великі розбіжності. Тобто, враховуючи різні набори даних навчальних програм з одного і того ж процесу генерування даних (DGP), це правило може вибирати дуже різні моделі, які потім підходитимуть і використовуватися для прогнозування в нових наборах даних, які знову слідують за тим самим DGP. У цьому світлі обмеження дисперсії процедури вибору моделі, а також невеликий ухил до більш простих моделей може призвести до менших помилок, що не мають вибірки.

Компанія Cawley & Talbot не пов'язує це явно з одним стандартним правилом помилок, і їх розділ про "регулювання вибору моделі" дуже короткий. Однак одне стандартне правило про помилку виконає саме цю регуляризацію та врахує взаємозв’язок між дисперсією у виборі моделі та дисперсією помилки перехресної перевірки, що знаходиться в сумці.

Наприклад, нижче наведено рисунок 2.3 із статистичного навчання з обмеженими можливостями Hastie, Tibshirani & Wainwright (2015) . Дисперсія вибору моделі задається опуклості чорної лінії на мінімальному рівні. Тут мінімум не дуже виражений, а лінія досить слабо опукла, тому вибір моделі, ймовірно, досить невизначений з великою дисперсією. І відхилення в оцінці помилки OOB CV, звичайно, задаються кількома світло-синіми лініями, що вказують на стандартні помилки.

— С. Коласа - Відновлення Моніки
джерело

Ха-ха, спробуйте цей пошук (або поставте дефіс у вашому запиті).

— амеба каже, що повернеться до Моніки

Якщо у вас є лише один параметр регуляризації, такий тип переналагодження, як правило, не надто проблематичний (оскільки проблема оптимізації має лише один ступінь свободи), але якщо у вас багато параметрів регуляризації (наприклад, автоматичне визначення відповідності для нейронних мереж) то це може швидко закінчитися дуже істотним. Метод one sd є приємним евристичним способом уникнення надмірної оптимізації параметра регуляризації, але було б непогано спробувати і мати щось з трохи більшим обґрунтуванням (1/2)

— Dikran Marsupial

Два підходи, які ми (місіс Марсупіал і я) дослідили, - це регуляризація гіпер-параметрів з гіпер-гіпер-параметром, який інтегрується аналітично ( jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley07a.pdf ) або перетворити деякі гіпер-параметри в параметри і пристосувати їх безпосередньо до даних за рахунок додавання додаткового параметра регуляризації (але це все ще зменшує ступінь свободи для вибору моделі, тому це все ще допомагає) ( theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)

— Dikran Marsupial

λ

$\lambda$

Однією темою про оптимізацію-лямбда-проти-маргіналізації-над-лямбда-темою, яку згадував @DikranMarsupial, є stats.stackexchange.com/questions/24799 . Ця дискусія стосується регресії хребта, і маргіналізація, ймовірно, (?) Складніше для ласо / еластичної сітки / тощо, тоді як краса резюме в тому, що це так просто здійснити.

— Амеба повідомляє, що повернеться до Моніки

Для емпіричного обгрунтування ознайомтеся зі сторінкою 12 на цих курсових записках з виведення даних Tibshirani , де показана помилка CV як функція лямбда для певної проблеми моделювання. Здається, що лямбда , що знаходиться нижче певного значення, дає приблизно однакову помилку CV. Це має сенс, тому що, на відміну від регресії хребта, LASSO зазвичай не використовується тільки або, в першу чергу, для підвищення точності прогнозування. Його головна продажна точка полягає в тому, що вона робить моделі більш простими та зрозумілими, усуваючи найменш релевантні / цінні прогнози.

$\lambda$ $L_1$

— Пол
джерело

Я не розумію логіки цієї відповіді. Наприклад: "На відміну від регресії хребта, LASSO не є механізмом підвищення точності прогнозування" - чому? Чому L1 настільки відрізняється від L2? У наступному реченні ви описуєте, що відбувається з L1 для низьких лямбда, але я думаю, що те ж саме відбувається і з L2 для низьких лямбда.

— амеба каже: Відновити Моніку

Зауважте, що це евристичне пояснення і покладається на деякі нестандартні припущення, як і всі прогнози інформативні. Якщо у вас є тонна передбачувачів шуму і кілька інформативних, дійсно може бути значення лямбда, що чітко і помітно оптимізує метрику резюме: те, що відповідає вибору підмножини інформативних прогнозів. Коли лямбда зменшується нижче цієї величини, ви просто впускаєте шум і шкодите моделі.

— Поль

Я думаю, що аргумент однаково добре працює для хребта і лассо, якщо ви використовуєте широке визначення парсимуції, в якому більше регуляризації -> простіша модель. Однак мотивувати L1 простіше, ніж L2, через різні типи проблем та набори даних, для яких вони використовуються. Люди, які використовують L1, більше зацікавлені у тому, щоб мати просту модель, і вони, швидше за все, стикаються з видом кривої помилок CV, виставленої Tibshirani.

— Павло

Із класичного тексту ESL , с. 224: "Часто використовується правило" єдиної помилки "з перехресною валідацією, в якій ми вибираємо найбільш парсимоніальну модель, помилка якої не більше однієї стандартної помилки вище помилки найкращої моделі." Наведений приклад - регресія підмножини та показана колінчаста крива та кількість предикторів. Крива плоска над правильним числом предикторів, що знову відповідає поясненню, яке я дав вище. Жодного суворого чи математичного обґрунтування не згадується.

— Павло

Тому я думаю, що головне питання тут полягає в тому, що мінімум погано визначений, але найбільш регульована модель в межах однієї сигми мінімального є чітко визначеною.

— Павло

$\lambda$ $\lambda$ $\hat S(\lambda)$ $\lambda$

$\lambda^ \star$ $P(S_0 \subset \hat S(\lambda^\star))\rightarrow 1$ $S_0$

Про це слід повідомити у статистиці для даних високих розмірів Бюльмана та Ван де Гера.

$\lambda$

— Донбео
джерело

Чи можете ви тут детальніше розібратися? Це здається захоплюючим.

— DavidShor

λ

$\lambda$

Я думаю, факт полягає в тому, що вибір більшої кількості змінних, ніж потрібно, зменшить ефективність прогнозування менше, ніж вибір недостатньо змінних. З цієї причини CV має тенденцію вибирати більше змінних.

— Донбео

подивіться на цю книгу springer.com/gp/book/9783642201912 та на розділ ласо тут drive.google.com/open?id=0B3FIuCA5bZUaT2ZLWFBIZ1JYbHM

— Donbeo

Це книга, яку я мав на увазі

— Донбео