Чи частота помилок є опуклою функцією лямбда параметра регуляризації?


11

Вибираючи параметр регуляризації лямбда в Ridge або Lasso, рекомендований метод полягає в тому, щоб спробувати різні значення лямбда, виміряти похибку у валідаційному наборі і, нарешті, обрати це значення лямбда, яке повертає найменшу помилку.

Мені не чітко, якщо функція f (лямбда) = помилка - опукла. Може так бути? Тобто, чи може ця крива мати більше ніж один локальний мінімум (що означає, що пошук мінімуму помилки в якомусь районі лямбда не виключає можливості того, що в якомусь іншому регіоні є лямбда, що повертає ще меншу помилку)

введіть тут опис зображення

Ваша порада буде вдячна.

Відповіді:


11

В оригінальному запитанні було задано питання, чи потрібно функцію помилок випукнутим. Ні, це не є. Аналіз, представлений нижче, має на меті дати деяке розуміння та інтуїцію щодо цього та модифікованого питання, яке запитує, чи може функція помилки мати кілька локальних мінімумів.

Інтуїтивно зрозуміло, що між даними та навчальним набором не повинно бути ніяких математично необхідних зв’язків. Ми повинні мати можливість знайти дані про навчання, для яких модель спочатку погана, покращується з деякою регуляризацією, а потім знову стає гіршою. Крива помилок у цьому випадку не може бути опуклою - принаймні, не, якщо параметр регуляризації змінюється від до .0

Зауважте, що опуклий не рівнозначний унікальному мінімуму! Однак подібні ідеї передбачають, що можливі кілька локальних мінімумів: під час регуляризації спочатку пристосована модель може покращитись деякими навчальними даними, не помітно змінившись для інших даних тренувань, а потім пізніше стане кращою для інших даних тренувань тощо. суміш таких навчальних даних повинна створювати кілька локальних мінімумів. Щоб зробити аналіз простим, я не намагаюся цього показати.

Редагувати (щоб відповісти на змінене запитання)

Я був настільки впевнений у аналізі, представленому нижче, та інтуїції, що його опинив, що я надумав знайти приклад найбільш грубим способом: я створив невеликі випадкові набори даних, провів на них Лассо, обчислив загальну квадратичну помилку для невеликого навчального набору, і побудував свою криву помилок. Кілька спроб дали одну з двома мінімумами, які я опишу. Вектори мають форму для функцій і та відповіді .x 1 x 2 y(x1,x2,y)x1x2y

Дані про навчання

(1,1,0.1), (2,1,0.8), (1,2,1.2), (2,2,0.9)

Дані тесту

(1,1,0.2), (1,2,0.4)

Lasso проводили з використанням glmnet::glmmetв Rз усіма аргументами , що залишилися в їх значення за замовчуванням. Значення на осі x - це зворотні значення, про які повідомляє це програмне забезпечення (оскільки воно параметризує свою штрафну величину ).1 / λλ1/λ

Крива помилок з декількома локальними мінімумами

Малюнок


Аналіз

Розглянемо будь-який метод регуляризації пристосування параметрів до даних та відповідних відповідей який має ці властивості, спільні для Регресії Рейда та Лассо:β=(β1,,βp)xiyi

  1. (Параметризація) Метод параметризується реальними числами , з нерегульованою моделлю, що відповідає .λ[0,)λ=0

  2. (Безперервність) Оцінка параметра постійно залежить від і передбачувані значення для будь-яких функцій постійно змінюються залежно від .β^λβ^

  3. (Усадка) Як , .λβ^0

  4. (Кінцевість) Для будь-якого функціонального вектора , як , прогнозування .xβ^0y^(x)=f(x,β^)0

  5. (Монотонна помилка) Функція помилки, що порівнює будь-яке значення з передбачуваним значенням , , зростає з невідповідністютак що, з деяким зловживанням позначенням, ми можемо висловити це як .yy^L(y,y^)|y^y|L(|y^y|)

(Нуль в може бути замінений будь-якою постійною.)(4)

Припустимо, дані такі, що початкова (нерегламентована) оцінка параметра не дорівнює нулю. Давай конструкт набір підготовки даних , що складається з одного спостереження , для яких . (Якщо такий знайти неможливо , то початкова модель не буде дуже цікавою!) Встановіть . β^(0)(x0,y0)f(x0,β^(0))0x0y0=f(x0,β^(0))/2

Припущення передбачають, що крива помилки має ці властивості:e:λL(y0,f(x0,β^(λ))

  1. у 0e(0)=L(y0,f(x0,β^(0))=L(y0,2y0)=L(|y0|) (через вибір ).y0

  2. limλe(λ)=L(y0,0)=L(|y0|) (тому що як , , звідки ).λβ^(λ)0y^(x0)0

Таким чином, його графік безперервно з'єднує дві однаково високі (і кінцеві) кінцеві точки.

Малюнок із можливим графіком $ e $.

Якісно є три можливості:

  • Прогноз для тренувального набору ніколи не змінюється. Це малоймовірно - майже будь-який обраний вами приклад не матиме цього властивості.

  • Деякі проміжні передбачення для є гірше , ніж на початку або в межі . Ця функція не може бути опуклою.0<λ<λ=0λ

  • Всі проміжні прогнози лежать між і . Неперервність означає, що буде принаймні один мінімум , біля якого має бути опуклим. Але оскільки наближається до кінцевої постійної асимптотично, вона не може бути опуклою для достатньо великих .02y0eee(λ)λ

Вертикальна пунктирна лінія на рисунку показує, де сюжет змінюється від опуклої (зліва) на невипуклої (праворуч). (На цьому малюнку також є область невипуклості поблизу , але це не обов'язково в цілому.)λ0


Дякую за вашу детальну відповідь. Якщо можливо, перегляньте питання під час редагування та оновіть вашу відповідь.
rf7

Чудова відповідь (+1). На практиці я думаю, що часто не так вже й мало балів для навчальних та тестових даних. Чи змінюється висновок цієї відповіді, коли достатньо балів навчальних та тестових даних, отриманих з того самого (фіксованого та достатньо регулярного) розподілу? Зокрема, за цим сценарієм існує унікальний локальний мінімум з високою ймовірністю?
user795305

@Ben Важлива не кількість тестових балів: цей результат повністю залежить від розподілу тестових балів відносно розподілу навчальних балів. Тому питання "з високою ймовірністю" не буде відповідати без певних припущень щодо багатоваріантного розподілу змінних регресора. Крім того, з великою кількістю змінних, це явище численних локальних мінімумів буде набагато більш імовірним. Я підозрюю, що випадковий вибір великого тестового набору (з багато разів більшою кількістю спостережень, ніж змінних) часто може мати унікальний глобальний хв.
whuber

1
@whuber Дякую! Я погоджуюсь: (правдивий) розподіл між навчальним і тестовим пунктами повинен бути однаковим, і потрібно мати достатньо зразків, щоб емпіричні розподіли навчального і тестового набору узгоджувалися. (Здається, я погано сформулював це в своєму попередньому коментарі.) Наприклад, якщо має спільно нормальний розподіл (з невиродженою коваріацією), я підозрюю, що ймовірність кривої помилки, що має унікальний локальний хв, сходить до 1 (якщо, скажімо, в навчальному і тестовому наборі є зразків з з фіксованим (або навіть повільно зростаючим відносно ))n n p n(x,y)nnpn
user795305

0

Ця відповідь стосується конкретно ласо (і не стосується регресії хребта.)

Налаштування

Припустимо, у нас є коваріати, які ми використовуємо для моделювання відповіді. Припустимо, у нас є точок даних про навчання та даних для перевірки.pnm

Нехай навчальним входом буде а відповідь буде . Ми будемо використовувати ласо на цих даних про навчання. Тобто, поставити сімейство коефіцієнтів, оцінене за навчальними даними. Ми виберемо, який використовувати як наш оцінювач, виходячи з його помилки на валідаційному наборі, із введенням та відповіддю . ЗX(1)Rn×py(1)Rn

(1)β^λ=argminβRpy(1)X(1)β22+λβ1,
β^λX(2)Rm×py(2)Rm
(2)λ^=argminλR+y(2)X(2)β^λ22,
нам цікаво вивчити функцію помилок що породжує наш оцінювач, керований даними .e(λ)=y(2)X(2)β^λ22β^λ^

Розрахунок

Тепер ми обчислимо другу похідну цілі в рівнянні , не роблячи жодних припущень розподілу на або 's. Використовуючи диференціацію та деяку перебудову, ми (формально) обчислимо, що (2)Xy

2λ2y(2)X(2)β^λ22=λ{2y(2)TX(2)λβ^λ+2β^λTX(2)TX(2)λβ^λ}=2y(2)TX(2)2λ2β^λ+2(β^λ)TX(2)TX(2)2λ2β^λ+2λβ^λTX(2)TX(2)Tλβ^λ=2{(y(2)X(2)β^λ)T2λ2β^λX(2)λβ^λ22}.
Оскільки є кусочно лінійним для (оскільки є кінцевим набором вузлів на шляху рішення ласо), похідна є кусочно постійною і дорівнює нулю для всіх . Тому негативна функція .β^λλKKλβ^λ2λ2β^λλK
2λ2y(2)X(2)β^λ22=2X(2)λβ^λ22,
λ

Висновок

Якщо припустимо, що виведено з деякого безперервного розподілу, незалежного від , вектор майже напевно для . Тому функція помилки має другу похідну від яка (майже напевно) суворо позитивна. Однак, знаючи, що є безперервним, ми знаємо, що помилка перевірки є безперервною.X(2){X(1),y(1)}X(2)λβ^λ0λ<λmaxe(λ)RKβ^λe(λ)

Нарешті, з подвійного ласо ми знаємо, що монотонно зменшується, оскільки збільшується. Якщо ми можемо встановити, що також є монотонним, то випливає сильна опуклість . Однак це має певну ймовірність наближення до однієї, якщо . (Я детально тут заповню деталі.)X(1)β^λ22λX(2)β^λ22e(λ)L(X(1))=L(X(2))


1
Ви покладаєтесь лише на те, що є безперервною кусочно лінійною функцією для висновку суворо випукла. Давайте подивимось, чи загальновирахуваний цей відрахування. Однією з таких функцій є(де позначає округлення до найближчого цілого числа). Припустимо, і , так що . Ця функція помилок має нескінченно багато локальних мінімумів. Це не опукло - це лише опукло скрізь, крім окремих точок! Це змушує мене повірити, що ви робите додаткові нестандартні припущення. β^λe^β^(λ)=|λ[λ]|[]y(2)=0X(2)=1e^(λ)=β^(λ)2
качан

@whuber Добрий момент! Дякую! Я скоро відредагую цю публікацію найближчим часом.
користувач795305
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.