Чому лямбда «в межах однієї стандартної помилки від мінімуму» є рекомендованим значенням для лямбда в еластичній чистій регресії?


24

Я розумію, яку роль відіграє лямбда в регресії еластичної сітки. І я можу зрозуміти, чому можна було б вибрати lambda.min, значення лямбда, що мінімізує перехресну перевірку помилок.

Моє запитання: Де в статистичній літературі рекомендується використовувати lambda.1se, це значення лямбда, що мінімізує помилку CV та одну стандартну помилку ? Я не можу знайти офіційне посилання або навіть причину, чому це часто є корисним значенням. Я розумію, що це більш обмежена регуляризація і зменшить параметри більше до нуля, але я не завжди впевнений в умовах, за яких lambda.1se є кращим вибором щодо lambda.min. Може хтось допоможе пояснити?


5
Офіційне посилання можна знайти в Hastie et al. "Елементи статистичного навчання" стор. 61. Однак вони не дають великого виправдання цьому вибору ...
Річард Харді

Відповіді:


22

Фрідман, Хасті та Тібшірані (2010) , посилаючись на Елементи статистичного навчання , пишіть,

Ми часто використовуємо правило «одна стандартна помилка» під час вибору найкращої моделі; це підтверджує той факт, що криві ризику оцінюються помилково, тому помилки на стороні посиденьок.

Причина використання однієї стандартної помилки, на відміну від будь-якої іншої суми, здається, тому, що вона є, ну ... стандартною. Krstajic, et al (2014) пишуть (сміливий акцент міна):

Брейман та ін. [25] виявили у випадку вибору оптимального розміру дерева для класифікаційних моделей дерев, що розмір дерева з мінімальною помилкою перехресної перевірки генерує модель, яка, як правило, перевершує. Тому у розділі 3.4.3 їхньої книги Брейман та ін. [25] визначають одне стандартне правило про помилку (правило 1 SE) для вибору оптимального розміру дерева, і вони застосовують його у всій книзі. Для того, щоб обчислити стандартну похибку для однократної перехресної перевірки V-кратної точності, необхідно обчислити точність для кожного згину, а стандартна похибка обчислюється з точності V від кожної складки. Хасті та ін. [4] визначають правило 1 SE як вибір найбільш парсимоніальної моделі, помилка якої не більше однієї стандартної помилки вище помилки найкращої моделі, і вони пропонують в декількох місцях використовувати правило 1 SE для загального використання перехресної перевірки.Основним моментом правила 1 SE, з яким ми погоджуємось, є вибір найпростішої моделі, точність якої порівнянна з найкращою моделлю .

Припущення полягає в тому, що вибір однієї стандартної помилки є цілком евристичним, виходячи з того, що одна стандартна помилка зазвичай не велика щодо діапазону значень .λ


1
Дякую! Тепер я можу нарешті навести щось відповідне, коли постане питання для незнайомих із "стандартним" вибором лямбда. Також чудово виглядає посилання на Krstajic et al.
jhersh

Це цитування говорить лише про те, що "1se було визнано оптимальним для класифікації ". Але запитання про регресію ! Є альтернативи. Якщо ми спробуємо, наприклад, повернутися до 2se, ми отримаємо проблему, що лямбда занадто велика і скорочує коефіцієнти занадто сильно. Але ми могли б, наприклад, відновити модель, яка виключає всі змінні, не вибрані в lambda.1se в оригінальній моделі.
smci

@smci яке цитування? Це не в жодній з витягнутих цитатами, які обидва припускають, що правило 1-SE застосовується загалом, а не лише для класифікації.
shadowtalker

6

Книга Бреймана та ін. (Цитується в цитаті іншої відповіді Крстагіча) є найдавнішим посиланням, яке я знайшов для правила 1SE.

Це Брейман, Фрідман, Стоун та Олшен, класифікація та регресія дерев (1984). Вони "виводять" це правило в розділі 3.4.3.

Тож якщо вам потрібна формальна цитата, це, здається, є першоджерелом.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.