Емпіричне обґрунтування одного стандартного правила помилки при використанні перехресної перевірки


39

Чи є якісь емпіричні дослідження, що виправдовують використання одного стандартного правила помилки на користь парсингу? Очевидно, це залежить від процесу генерації даних, але все, що аналізує великий масив наборів даних, було б дуже цікавим.


"Одне стандартне правило помилки" застосовується під час вибору моделей за допомогою перехресної перевірки (або більш загально через будь-яку процедуру, засновану на рандомізації).

Припустимо, ми розглянемо моделі індексовані параметром складності τ R , такі, що M τ "складніший", ніж M τ саме тоді, коли τ > τ . Припустимо, що ми оцінюємо якість моделі M за допомогою якогось процесу рандомізації, наприклад, перехресної перевірки. Нехай q ( M ) позначає "середню" якість M , наприклад, середню помилку прогнозування поза мішком у багатьох прогонах перехресної перевірки. Ми хочемо мінімізувати цю кількість.MττRMτMττ>τMq(M)M

Однак, оскільки наш показник якості походить від певної процедури рандомізації, він походить з мінливістю. Нехай позначає стандартну похибку якості M через прогони рандомізації, наприклад, стандартне відхилення помилки прогнозування поза пакетиком від M за кросами перехресної перевірки.s(M)MM

Тоді ми вибираємо модель , де τ - найменша τ така, щоMτττ

q(Mτ)q(Mτ)+s(Mτ),

τq(Mτ)=minτq(Mτ)

Тобто ми вибираємо найпростішу модель ( найменшу ), яка не більше ніж одна стандартна помилка, гірша за найкращу модель у процедурі рандомізації.M τ τMτ

Я знайшов це "одне стандартне правило про помилку", про яке йдеться в наступних місцях, але ніколи з явним виправданням:


7
Хоча я знаю, на що ви звертаєтесь до "Одного стандартного правила помилок", я сильно підозрюю, що багато людей цього не зробить, але було б зацікавлене в цьому питанні, якби це було. Можливо, ви могли б відредагувати, щоб додати пару пояснювальних речень? (Просто пропозиція ...)
jbowman

2
@jbowman: Я щойно відредагував питання, щоб пояснити одне стандартне правило про помилку, зіткнувшись з ним, оскільки мене теж це дуже цікавить ... і відповідь нижче не дуже відповідає на мої запитання. Будь-хто, будь ласка, не соромтеся вдосконалюватись.
S. Kolassa - Відновіть Моніку


2
Це було б приємною темою для статті. Це здається розумним інженерно-евристичним, але не всі СЕГ працюють на практиці, тому дослідження над великою кількістю наборів даних було б цікавим. Мені цікаво, чи виникає проблема тестування декількох гіпотез, яка може означати, що вона не дуже добре відкалібрована, але я би подумав, що це буде краще, ніж нічого не робити на наборах даних, де подібне перенастроювання, ймовірно, буде проблема. Питання в тому, чи робить це значно погіршення продуктивності наборів даних, де це не проблема?
Дікран Марсупіал

Відповіді:


12

Далі не є емпіричним дослідженням, тому я спочатку хотів опублікувати це як коментар, а не відповідь - але це дійсно виявляється занадто довгим для коментаря.

Cawley & Talbot ( J of Machine Learning Research , 2010) звертають увагу на різницю між накладанням під час фази вибору моделі та надмірним підходом під час фази підгонки моделі.

Другий вид накладання - це той, з яким більшість людей знайомі: враховуючи конкретну модель, ми не хочемо її переозброювати, тобто надто тісно підходити до конкретних ідіосинкразій одного єдиного набору даних, який ми зазвичай маємо. ( Саме тут усадка / регуляризація може допомогти, торгуючи невеликим збільшенням зміщення проти великого зменшення дисперсії. )

Однак, Cawley & Talbot стверджують, що ми можемо наближатись так само добре на етапі вибору моделі. Зрештою, у нас, як правило, є лише один набір даних, і ми приймаємо рішення між різними моделями різної складності. Оцінка кожної моделі-кандидата з метою вибору її зазвичай передбачає пристосування цієї моделі, що може бути виконано за допомогою регуляризації чи ні. Але ця оцінка сама по собі знову є випадковою змінною, оскільки вона залежить від конкретного набору даних, який ми маємо. Таким чином, наш вибір "оптимальної" моделі сам по собі може виявляти упередженість і буде демонструвати дисперсію, оскільки залежить від конкретного набору даних із усіх наборів даних, які ми могли б отримати з населення.

Таким чином, Cawley & Talbot стверджують, що просто вибір моделі, яка найкраще відповідає цій оцінці, може бути правилом вибору з невеликим ухилом - але він може мати великі розбіжності. Тобто, враховуючи різні набори даних навчальних програм з одного і того ж процесу генерування даних (DGP), це правило може вибирати дуже різні моделі, які потім підходитимуть і використовуватися для прогнозування в нових наборах даних, які знову слідують за тим самим DGP. У цьому світлі обмеження дисперсії процедури вибору моделі, а також невеликий ухил до більш простих моделей може призвести до менших помилок, що не мають вибірки.

Компанія Cawley & Talbot не пов'язує це явно з одним стандартним правилом помилок, і їх розділ про "регулювання вибору моделі" дуже короткий. Однак одне стандартне правило про помилку виконає саме цю регуляризацію та врахує взаємозв’язок між дисперсією у виборі моделі та дисперсією помилки перехресної перевірки, що знаходиться в сумці.

Наприклад, нижче наведено рисунок 2.3 із статистичного навчання з обмеженими можливостями Hastie, Tibshirani & Wainwright (2015) . Дисперсія вибору моделі задається опуклості чорної лінії на мінімальному рівні. Тут мінімум не дуже виражений, а лінія досить слабо опукла, тому вибір моделі, ймовірно, досить невизначений з великою дисперсією. І відхилення в оцінці помилки OOB CV, звичайно, задаються кількома світло-синіми лініями, що вказують на стандартні помилки.

одне стандартне правило про помилку


1
Ха-ха, спробуйте цей пошук (або поставте дефіс у вашому запиті).
амеба каже, що повернеться до Моніки

2
Якщо у вас є лише один параметр регуляризації, такий тип переналагодження, як правило, не надто проблематичний (оскільки проблема оптимізації має лише один ступінь свободи), але якщо у вас багато параметрів регуляризації (наприклад, автоматичне визначення відповідності для нейронних мереж) то це може швидко закінчитися дуже істотним. Метод one sd є приємним евристичним способом уникнення надмірної оптимізації параметра регуляризації, але було б непогано спробувати і мати щось з трохи більшим обґрунтуванням (1/2)
Dikran Marsupial

1
Два підходи, які ми (місіс Марсупіал і я) дослідили, - це регуляризація гіпер-параметрів з гіпер-гіпер-параметром, який інтегрується аналітично ( jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley07a.pdf ) або перетворити деякі гіпер-параметри в параметри і пристосувати їх безпосередньо до даних за рахунок додавання додаткового параметра регуляризації (але це все ще зменшує ступінь свободи для вибору моделі, тому це все ще допомагає) ( theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)
Dikran Marsupial

1
λ

1
Однією темою про оптимізацію-лямбда-проти-маргіналізації-над-лямбда-темою, яку згадував @DikranMarsupial, є stats.stackexchange.com/questions/24799 . Ця дискусія стосується регресії хребта, і маргіналізація, ймовірно, (?) Складніше для ласо / еластичної сітки / тощо, тоді як краса резюме в тому, що це так просто здійснити.
Амеба повідомляє, що повернеться до Моніки

12

Для емпіричного обгрунтування ознайомтеся зі сторінкою 12 на цих курсових записках з виведення даних Tibshirani , де показана помилка CV як функція лямбда для певної проблеми моделювання. Здається, що лямбда , що знаходиться нижче певного значення, дає приблизно однакову помилку CV. Це має сенс, тому що, на відміну від регресії хребта, LASSO зазвичай не використовується тільки або, в першу чергу, для підвищення точності прогнозування. Його головна продажна точка полягає в тому, що вона робить моделі більш простими та зрозумілими, усуваючи найменш релевантні / цінні прогнози.

λL1


1
Я не розумію логіки цієї відповіді. Наприклад: "На відміну від регресії хребта, LASSO не є механізмом підвищення точності прогнозування" - чому? Чому L1 настільки відрізняється від L2? У наступному реченні ви описуєте, що відбувається з L1 для низьких лямбда, але я думаю, що те ж саме відбувається і з L2 для низьких лямбда.
амеба каже: Відновити Моніку

1
Зауважте, що це евристичне пояснення і покладається на деякі нестандартні припущення, як і всі прогнози інформативні. Якщо у вас є тонна передбачувачів шуму і кілька інформативних, дійсно може бути значення лямбда, що чітко і помітно оптимізує метрику резюме: те, що відповідає вибору підмножини інформативних прогнозів. Коли лямбда зменшується нижче цієї величини, ви просто впускаєте шум і шкодите моделі.
Поль

1
Я думаю, що аргумент однаково добре працює для хребта і лассо, якщо ви використовуєте широке визначення парсимуції, в якому більше регуляризації -> простіша модель. Однак мотивувати L1 простіше, ніж L2, через різні типи проблем та набори даних, для яких вони використовуються. Люди, які використовують L1, більше зацікавлені у тому, щоб мати просту модель, і вони, швидше за все, стикаються з видом кривої помилок CV, виставленої Tibshirani.
Павло

1
Із класичного тексту ESL , с. 224: "Часто використовується правило" єдиної помилки "з перехресною валідацією, в якій ми вибираємо найбільш парсимоніальну модель, помилка якої не більше однієї стандартної помилки вище помилки найкращої моделі." Наведений приклад - регресія підмножини та показана колінчаста крива та кількість предикторів. Крива плоска над правильним числом предикторів, що знову відповідає поясненню, яке я дав вище. Жодного суворого чи математичного обґрунтування не згадується.
Павло

1
Тому я думаю, що головне питання тут полягає в тому, що мінімум погано визначений, але найбільш регульована модель в межах однієї сигми мінімального є чітко визначеною.
Павло

1

λλS^(λ)λ

λP(S0S^(λ))1S0

Про це слід повідомити у статистиці для даних високих розмірів Бюльмана та Ван де Гера.

λ


1
Чи можете ви тут детальніше розібратися? Це здається захоплюючим.
DavidShor

1
λ

Я думаю, факт полягає в тому, що вибір більшої кількості змінних, ніж потрібно, зменшить ефективність прогнозування менше, ніж вибір недостатньо змінних. З цієї причини CV має тенденцію вибирати більше змінних.
Донбео

подивіться на цю книгу springer.com/gp/book/9783642201912 та на розділ ласо тут drive.google.com/open?id=0B3FIuCA5bZUaT2ZLWFBIZ1JYbHM
Donbeo

Це книга, яку я мав на увазі
Донбео
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.