Регуляризація: чому помножити на 1 / 2м?


10

В неділю 3 - конспектів в класі Coursera Machine Learning Ендрю Нг , термін додається до функції вартості реалізації впорядкування:

J+(θ)=J(θ)+λ2mj=1nθj2

У конспектах лекції сказано:

Ми також могли б регулювати всі наші тета-параметри в одному підсумку:

minθ 12m [i=1m(hθ(x(i))y(i))2+λ j=1nθj2]

12m пізніше застосовується до терміну регуляризації нейронних мереж :

Нагадаємо, що функція витрат на регульовану логістичну регресію була:

J(θ)=1mi=1m[y(i) log(hθ(x(i)))+(1y(i)) log(1hθ(x(i)))]+λ2mj=1nθj2

Для нейронних мереж це буде трохи складніше:

J(Θ)=1mi=1mk=1K[yk(i)log((hΘ(x(i)))k)+(1yk(i))log(1(hΘ(x(i)))k)]+λ2ml=1L1i=1slj=1sl+1(Θj,i(l))2
  • Чому тут використовується постійна половина? Так що вона відмінена у похідній ?J
  • Чому поділ на приклади навчання? Як обсяг навчальних прикладів впливає на речі?m

Ви впевнені, що 1 / m знаходиться на регуляризації, а не на J (theta) AFAIK @DikranMarsupial у відповідь робить таке припущення ...... чи має сам J (theta) термін 1 / м?
seanv507

Це припущення є невірним - застосовується як до нерегульованої функції витрат, так і до терміну регуляризації. Я оновив питання, щоб дати повні формули. 12m
Том Хейл

Відповіді:


5

Припустимо, у вас є 10 прикладів, і ви не поділите вартість регуляризації L2 на кількість прикладів m . Тоді «домінування» вартості регуляризації L2 порівняно з перехресною ентропією буде приблизно 10: 1, оскільки кожен приклад навчання може сприяти загальній вартості пропорційно 1 / м = 1/10.

Якщо у вас є більше прикладів, скажімо, 100, тоді "домінування" вартості регуляризації L2 буде приблизно таким, як 100: 1, тому вам потрібно зменшити λ відповідно, що незручно. Краще мати λ постійну незалежно від розміру партії.

Оновлення: Щоб посилити цей аргумент, я створив зошит з юпітером .


1
Хм, але хіба не призначення коефіцієнта 1 / м перед функцією витрат, що кожен приклад тренінгу однаково сприяє витратам? Отже, оскільки ми вже усереднюємо індивідуальні витрати, це не повинно бути причиною домінування терміна L2. Однак я бачу з вашої чудової симуляції, що коефіцієнт 1 / м ще до терміну L2 допомагає. Я просто не відчуваю інтуїції (поки що).
Міланія

Чому це незручно ?? просто поділити вартість L2 на кількість зразків. Я думаю, що, можливо, ти це виклав неправильно. Я думаю, ви хотіли сказати, що щоразу вручну масштабувати вартість L2 незручно , краще розділити на кількість вибірок як частину формули, щоб автоматично її масштабувати.
SpaceMonkey

6

Функція втрат на навчальному наборі як правило, є сумою над моделями, що містять навчальний набір, тому, коли навчальний набір збільшується, перший член масштабується по суті лінійно з . Ми можемо звузити діапазон seraching для хорошого значення справедливим бітом, якщо спочатку розділимо термін регуляризації на щоб компенсувати залежність від . 2, звичайно, є в знаменнику для спрощення похідних, необхідних для алгоритму оптимізації, який використовується для визначення оптимальної .J(θ)mλmJ(θ)mθ


Дякуємо за пояснення нерегульованого масштабування витрат з . Я досі не розумію, як ділення на допоможе одному значенню краще працювати з величинами різняться . Нерегульована вартість вже сильно залежить від , тому чому дбати про термін регуляризації, який залежить від параметрів, а не прикладів? Це тому, що з більшою кількістю прикладів тренінгу дисперсія зменшиться за тієї ж кількості параметрів? mmλmmnm
Том Хейл

Функція втрати у питанні - це середнє значення для всіх прикладів (тобто воно поділене на m), а не сума, тому я не дуже розумію, як працює ця відповідь.
Дензілое

@Denziloe застосовується і до терміну регуляризації.
Dikran Marsupial

2

Я замислювався про те саме, що проходив цей курс, і закінчив це трохи вивчити. Я дам тут коротку відповідь, але ви можете прочитати більш детальний огляд у публікації в блозі, про яку я писав .

Я вважаю, що принаймні частина причини цих коефіцієнтів масштабування полягає в тому, що регуляризація L², ймовірно, увійшла в поле глибокого навчання завдяки впровадженню пов'язаної, але не тотожної, концепції зменшення ваги.

Тоді коефіцієнт 0,5 є, щоб отримати хороший коефіцієнт лише λ для зменшення ваги в градієнті та масштабування на m ... ну, принаймні 5 різних мотивацій я знайшов або придумав:

  1. Побічний ефект спуску градієнта партії: коли одна форма ітераційного спуску градієнта замість формалізується протягом усього навчального набору, в результаті чого алгоритм, який іноді називають спускним градієнтом партії, вводиться коефіцієнт масштабування 1 / м, щоб зробити функцію витрат порівнянною для різних наборів даних розміру автоматично застосовується до терміну зменшення ваги.
  2. Назвіть до ваги окремого прикладу. Дивіться цікаву інтуїцію Греза.
  3. Репрезентативність навчальних наборів: Є сенс зменшити регуляризацію в міру збільшення розміру навчального набору, оскільки статистично зростає і його репрезентативність загального розподілу. В основному, чим більше у нас даних, тим менше регуляризації потрібно.
  4. Зробити порівняння λ: Сподіваючись, пом’якшуючи необхідність зміни λ, коли m змінюється, це масштабування робить сам λ порівнянним для різних наборів даних за розмірами. Це робить λ більш репрезентативним оцінником фактичного ступеня регуляризації, необхідного конкретною моделлю щодо конкретної навчальної проблеми.
  5. Емпірична цінність: Великий зошит grezдемонструє, що це покращує ефективність на практиці.

0

Я також був збентежений з цього приводу, але потім у лекції для поглиблення. Андрій припускає, що це лише константа масштабування:

http://www.youtube.com/watch?v=6g0t3Phly2M&t=2m50s

Можливо, є більш глибока причина використання 1 / 2м, але я підозрюю, що це просто гіперпараметр.


Це не дає відповіді на запитання.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.