Чому менші ваги призводять до спрощення моделей при регуляризації?

27

Я закінчив курс машинного навчання Ендрю Нґ близько року тому, і зараз пишу моє дослідження середньої математики про роботу логістичної регресії та методи оптимізації ефективності. Однією з таких методик є, звичайно, регуляризація.

Метою регуляризації є запобігання надмірного пристосування шляхом розширення функції витрат на включення мети простоти моделі. Ми можемо досягти цього, штрафуючи розмір ваг, додавши до функції витрат кожне з ваг у квадраті, помножене на деякий параметр регуляризації.

Тепер алгоритм машинного навчання має на меті зменшити розмір ваг, зберігаючи при цьому точність на тренувальному наборі. Ідея полягає в тому, що ми досягнемо деякої точки в середині, де можемо створити модель, яка узагальнює дані і не намагається вмістити весь стохастичний шум, будучи менш складними.

Моя плутанина, чому ми штрафуємо розмір ваг? Чому великі ваги створюють більш складні моделі, а менші ваги створюють більш прості / плавні моделі? У своїй лекції Ендрю Нг стверджує, що пояснити це важко, але я думаю, що зараз шукаю це пояснення.

Професор Нг насправді наводив приклад того, як нова функція вартості може спричинити те, що ваги характеристик (тобто x ^ 3 і x ^ 4) тяжіють до нуля, щоб ступінь моделі зменшилася, але це не створює повного пояснення.

Моя інтуїція полягає в тому, що менші ваги будуть, як правило, більш "прийнятними" для особливостей з більшими показниками, ніж ті, що мають менші показники (тому що функції з малими вагами є як би основою функції). Менші ваги означають менший "внесок" у функції з високим порядком. Але ця інтуїція не дуже конкретна.

— MCKapur
джерело

2

це звучить як запитання, яке потребує відповіді "щоб моя бабуся зрозуміла це".

— EngrStudent

2

@EngrStudent Тому що саме так мені потрібно представити його в моїй математиці IA, щоб мій вчитель математики середньої школи та екзаменатори математики середньої школи читали.

— MCKapur

4

Якщо ви використовуєте регуляризацію, ви не тільки мінімізуєте помилку у вибірці, але й $OutOfSampleError \le InSampleError + ModelComplexityPenalty$ .

Точніше, для гіпотези, де- деякий параметр, зазвичай,- кількість прикладів у вашому наборі даних, а- певний штраф, який залежить від ваг,. Це відомо якпомилка, що збільшується. Тепер ви можете мінімізувати функцію вище, якщо ваги досить невеликі. $J_{aug}(h(x),y,\lambda,\Omega)=J(h(x),y)+\frac{\lambda}{2m}\Omega$ $h \in H$ $\lambda$ $\lambda \in (0,1)$ $m$ $\Omega$ $w$ $\Omega=w^Tw$

Ось декілька код R для іграшки

w <- c(0.1,0.2,0.3)
out <- t(w) %*% w
print(out)

Отже, замість того , щоб пеналізувати весь простір гіпотези , кожну гіпотезу ми окремо. Ми іноді посилаємось на гіпотезу за її ваговим вектором . $H$ $h$ $h$ $w$

Щодо того, чому невеликі ваги йдуть разом із низькою складністю моделі, давайте розглянемо таку гіпотезу: . Всього ми отримали три параметри активної ваги . Тепер давайте встановимо на дуже дуже мале значення, . Це зменшує складність моделі до: $h_1(x)=x_1 \times w_1 + x_2 \times w_2 + x_3 \times w_3$ ${w_1,\dotsc,w_3}$ $w_3$ $w_3=0$ . Замість трьох активних параметрів ваги у нас залишилися лише два. $h_1(x)=x_1 \times w_1 + x_2 \times w_2$

— JimBoy
джерело

1

Очевидно, якщо вага зменшується до нуля, тоді складність моделі зменшується, оскільки ви можете видалити термін, а отже, і обчислювальну операцію. Але це не допомагає пояснити, чому складність моделі зменшується, коли значення ваги наближається до нуля. Чи може хтось пояснити це словами не формулами?

— greg7gkb

6

Я не впевнений, чи справді я знаю, про що я говорю, але спробую. Це не стільки те, що невеликі ваги перешкоджають надмірній обробці (я думаю), це більше факт, що регуляризація сильніше зменшує простір моделі. Насправді ви можете регулювати близько 10000000, якщо хочете, прийнявши норму L2 своїх значень X мінус вектор 10000000. Це також зменшило б перевищення (звичайно, ви також повинні мати певні обґрунтування цього (тобто, можливо, ваші значення Y в 10000000 разів перевищують суму ваших значень X, але ніхто насправді цього не робить, оскільки ви можете просто змінити масштаб даних).

Зміщення та дисперсія є функцією складності моделі. Це пов'язано з теорією ВК, тому погляньте на це. Чим більший простір можливих моделей (тобто значень, які всі ваші параметри можуть приймати в основному), тим більше шансів, що модель переповниться. Якщо ваша модель може зробити все, починаючи від прямолінійної лінії до вивірювання в будь-якому напрямку, як синусоїда, яка також може підніматися вгору і вниз, набагато більше шансів підібрати і моделювати випадкові збурення у ваших даних, які не є результатом базовий сигнал, але результат просто щасливого шансу в наборі даних (саме тому отримання більшої кількості даних допомагає переозброєння, але не недостатність).

Під час регуляризації ви, як правило, зменшуєте простір моделі. Це не обов'язково означає, що більш плавні / лескіші функції мають більшу зміщення та меншу дисперсію. Подумайте про лінійну модель, яка перекрита синусоїдою, яка має обмежені коливання амплітуди, яка в основному нічого не робить (її в основному нечітка лінія). Ця функція в певному сенсі є химерною, але лише перевищує трохи лінійну регресію. Причина, чому плавніші / плоскіші функції, як правило, мають більшу зміщення та меншу дисперсію - це тому, що ми, як науковець з даних, припускаємо, що якби ми маємо зменшений пробний простір, ми б набагато скоріше за допомогою бритви окмаму зберегти більш гладкі та прості моделі та викинути моделі які колихаються і коливаються всюди. Має сенс спочатку викинути химерні моделі,

Регуляризація, як регресія хребта, зменшує модельний простір, оскільки робить його більш дорогим подальше від нуля (або будь-якого числа). Таким чином, коли модель стикається з вибором врахування невеликих збурень у ваших даних, вона, швидше за все, помиляється на стороні відсутності, оскільки це (як правило) збільшить значення вашого параметра. Якщо це збурення пов'язане з випадковим випадком (тобто одна з ваших х змінних просто мала незначну випадкову кореляцію з вашими y змінними), модель не враховує це порівняно з нерегульованою регресією, оскільки нерегульована регресія не має витрат, пов'язаних з збільшення розмірів бета-версії. Однак, якщо це збурення пов'язане з реальним сигналом, ваша регульована регресія швидше за все пропустить його, через що він має більш високий ухил (і чому існує зміна дисперсії зміщення).

— www3
джерело

Дякую за вашу продуману відповідь! Так, так, у четвертому абзаці ви заявляєте "Таким чином, коли модель стикається з вибором врахування невеликих збурень у ваших даних, вона швидше буде помилятися на стороні не, оскільки це (як правило) збільшить ваш параметр значення. ". Це я конкретно запитую, чому це так? Спасибі!

— MCKapur

Додаючи коефіцієнт штрафу, ви зменшуєте ймовірність того, що модель матиме вищі бета-версії, тому простір вашої моделі менше. Інша річ, яку потрібно пам’ятати, це те, що якщо у вашій моделі весь шум, вона, швидше за все, матиме нульовий нахил, оскільки немає кореляції (це було одне, про що я не замислювався, коли робив мізерний / плоский аргумент, але я думаю, що аргумент все ще взагалі вірно). Таким чином, якщо є перебиття / стосунки, швидше за все, бета-версія збільшиться. Таким чином, регуляризація покарає цей факт і зупиняє регресію від пристосування до цих збурень, будь то сигнал чи шум.

— www3

@ ww3 Я розумію. Але чому великі бета-версії призводять до збільшення простору моделі?

— MCKapur

Я не впевнений, чи потрібно вам це більше, але я думав, що відповім. Це не великі бети. Наприклад, ви можете виконати регресію з Y або 1000 * Y, кожна з них матиме однакову складність, але бета буде на 1000 вище у другому випадку. Типова регуляризація ускладнює отримання певних бета-комбінацій, як, наприклад, один коефіцієнт - 1000, а інший -1000, а інші - простіші / простіші, як і всі 0. Це означає, що якщо модель має певні галасливі химерності з даних, регульована модель має меншу ймовірність її підняти.

— www3

Для продовження модель не буде ігнорувати всі галасливі примхи, вона лише ігнорує примхи, що збільшують абсолютні значення бета-версій. Це означає, що примхи, що зменшують значення бета, будуть більш підкреслені. Це нормально, хоча тому, що можна намалювати набагато більше химерних ліній, ніж прямі (тобто порівняти квадратичне рівняння з лінійним чи постійним рівнянням). Таким чином, якщо є галасливі химерності, які впливають на дані, вони набагато частіше змушують модель підходити більш химерно (і, отже, більш складною моделлю), ніж більш плоска / пряма модель.

— www3

3

Історія:
Бабуся ходить, але не лізе. Деякі бабусі це роблять. Одна бабуся славилася сходженням на Кіліманджаро .

Цей дрімаючий вулкан великий. Це 16000 футів над його базою. (Не ненавиджу мої імператорські загони.) Іноді вгорі є льодовики.

Якщо ви піднімаєтесь на рік, де немає льодовика, і ви потрапляєте на вершину, чи це такий самий верх, як ніби був льодовик? Висота різна. Шлях, який ви повинні пройти, відрізняється. Що робити, якщо піти на вершину, коли товщина льодовика більша? Це робить це більше досягненням? Близько 35 000 людей намагаються піднятися на нього щороку, але лише близько 16 000 досягають успіху.

Застосування:
Отже, я б пояснив бабусі контроль ваг (він мінімізував складність моделі):

Бабусю, ваш мозок - дивовижний мислитель, чи ви це знаєте чи ні. Якщо я запитаю вас, скільки з 16000, які думають, що дійсно дійшли до вершини, насправді так і зробили, ви б сказали «всі вони».

Якщо я вдягнув датчики у взуття всіх 30000 альпіністів і виміряв висоту над рівнем моря, то деякі з цих людей не отримали такої високої якості, як інші, і, можливо, не зможуть кваліфікуватися. Коли я роблю це, я переходжу до постійної моделі - я кажу, що якщо висота не дорівнює деякому перцентилю вимірюваних максимальних висот, то це не верхня частина. Деякі люди стрибають на вершину. Деякі люди просто переходять лінію і сідають.

Я міг би додати широту і довготу до датчика, і підходити до рівнянь вищого порядку, і, можливо, я міг би краще підходити і мати більше людей, можливо, навіть рівно 45% від загальної кількості людей, які намагаються це зробити.

Тож скажімо, наступний рік - рік "великого льодовика" або "без льодовика", оскільки якийсь вулкан справді перетворює альбедо землі. Якщо я візьму свою складну і вимогливу модель з цього року і застосую її до людей, які піднімаються в наступному році, модель матиме дивні результати. Можливо, всі "пройдуть" або навіть будуть занадто високими, щоб пройти. Можливо, ніхто взагалі не пройде, і він подумає, що насправді ніхто не завершив сходження. Особливо, коли модель складна, вона, як правило, недостатньо добре узагальнює. Він може точно відповідати цим навчальним даним цього року, але коли з’являються нові дані, він веде себе погано.

Обговорення:
Якщо ви обмежуєте складність моделі, тоді, як правило, ви можете мати кращі узагальнення без надмірної підгонки. Використання більш простих моделей, більш сформованих для урахування змін у реальному світі, як правило, дає кращі результати, всі інші рівні.

Тепер у вас є фіксована мережа топологія, тож ви говорите "мій кількість параметрів виправлений" - я не можу змінювати складність моделі. Дурниці. Виміряйте ентропію у вагах. Коли ентропія більша, це означає, що деякі коефіцієнти несуть значно більше "інформативності", ніж інші. Якщо у вас дуже низька ентропія, це означає, що в цілому коефіцієнти мають однаковий рівень "інформативності". Інформативність - це не обов'язково добре. В умовах демократії ви хочете, щоб усі люди були рівними, а такі речі, як Джордж Оруелл, "рівніші за інших" - це міра невдач системи. Якщо у вас немає вагомих причин, ви хочете, щоб ваги були дуже схожими один на одного.

Особиста примітка: замість того, щоб використовувати вуду чи евристику, я віддаю перевагу таким речам, як "критерії інформації", оскільки вони дозволяють мені отримати достовірні та послідовні результати. AIC , AICc та BIC - деякі загальні та корисні вихідні точки. Повторний аналіз для визначення стабільності рішення чи діапазону результатів інформаційних критеріїв є загальним підходом. Можна поглянути на встановлення стелі на ентропію у вагах.

— EngrStudent - Відновлення Моніки
джерело

2

Цікаво відрізняється. Куточок педанта: ти написав "Орсон Уеллс". правопис - Веллес. Я підозрюю, що ти весь час мав на увазі Джорджа Оруелла ( ферма тварин ).

— Нік Кокс

@NickCox - Я дуже хворів. Мій мозок працює не так добре, як я хотів. Оруелл це було.

— EngrStudent

Я хочу зрозуміти, чому складність моделі може змінюватися залежно від фіксованої кількості параметрів (ідея вашого другого до останнього абзацу), і мені не пощастило гуглювати "параметр ентропія" або "ентропія параметра ols". Ви використовували поняття ентропії, оскільки воно просто добре підходить, або це фактичне, широко відоме ім'я властивості параметрів моделі? Заздалегідь спасибі.

— Альваро Фуентес

1

@AlvaroFuentes - Ентропія, в цьому сенсі, походить від теорії інформації. Ось стаття з вікіпедії. Розгляньте ваги як список, і ви можете обчислити ентропію системи всіх ваг, використовуючи метод ядра для наближення щільності ймовірності. Ви можете подивитися середню ентропію на нейрон для порівняння між нейронами на більш високій шкалі.

— EngrStudent

0

Проста інтуїція полягає в наступному. Пам'ятайте, що для регуляризації функції повинні бути стандартизовані, щоб мати прибл. однаковий масштаб.

Скажімо, що функція мінімізації - це лише суми квадратних помилок:

$SSE$

Додавання додаткових функцій, ймовірно, зменшить це $SSE$ , особливо якщо функція обрана із галасливого пулу. Ця функція випадково зменшує значення $SSE$ , що веде до надмірного оснащення.

Тепер розглянемо регуляризацію, LASSO в цьому випадку. Функції, які слід мінімізувати, значить, тоді

$SSE + \lambda \Sigma |\beta|$

Додавання додаткової функції тепер призводить до додаткового штрафу: сума абсолютних коефіцієнтів збільшується! Зниження SSE повинно переважати доданого додаткового штрафу. Більше не можна додавати додаткові функції без витрат.

Поєднання стандартизації ознак та покарання суми абсолютних коефіцієнтів обмежує простір пошуку, що призводить до меншого розміщення.

Тепер LASSO:

$SSE + \lambda \Sigma |\beta|$

має тенденцію ставити коефіцієнти до нуля, а регресія хребта:

$SSE + \lambda \Sigma \beta^2$

має тенденцію до зменшення коефіцієнтів пропорційно. Це може розглядатися як побічний ефект типу пеніалізуючої функції. Малюнок нижче допомагає в цьому:

Функція регуляризації штрафних санкцій на практиці дає "бюджет" параметрів, як зображено вище зоною синього кольору.

Дивіться, що зліва, LASSO, the $SSE$ функція, ймовірно, вражає простір по осі; встановлення одного з коефіцієнтів до нуля, і залежно від бюджету скорочується інший. Праворуч функція може вражати осі, більш-менш розподіляючи бюджет за параметрами: веде до усадки обох параметрів.

Фото зроблено з https://onlinecourses.science.psu.edu/stat857/node/158

Підсумовуючи: регуляризація штрафує додавання додаткових параметрів, і залежно від типу регуляризації зменшиться всі коефіцієнти (гребінь), або встановить кількість коефіцієнтів до 0, зберігаючи інші коефіцієнти, наскільки дозволяє бюджет (ласо)

— spdrnl
джерело

1

Ви просто пояснюєте різницю між регресією ласо і хребтом, але задається питання про причину, чому регуляризація призводить до меншої складності.

— Собі

Будь ласка, прочитайте цей розділ: "Додавання додаткової функції тепер призводить до додаткового штрафу: сума абсолютних коефіцієнтів збільшується! Зниження SSE повинно перевищувати додатковий додатковий штраф. Більше не можна додавати додаткові функції без витрат".

— spdrnl

Це пояснення працює лише для

L_{1}

$L_1$ регуляризатор, і це має бути більше, ніж просто розрідженість. Наприклад,

\exists λ

$\exists \lambda$ для яких усі значення параметрів у вивченій моделі є ненульовими. Але все ж

λ

$\lambda$ контролює складність моделі і в тому режимі. Як би ви це пояснили? Так само для

L_{2}

$L_2$ регуляризація.

— Sobi

Суть у тому, що тип штрафу за додавання параметрів буде впливати на параметри різними способами. На практиці ви отримуєте модель з параметрами, які відповідають менш навчальним даним навчальних даних: це було якоюсь метою.

— spdrnl

0

Додаючи шум Гаассіану до вхідної моделі, модель навчання буде вести себе як регулятор з покаранням L2.

Щоб зрозуміти, чому, розглянемо лінійну регресію, де до функцій додається iid-шум. Втрата тепер буде функцією помилок + внеску норми ваг.

дивіться виведення: https://www.youtube.com/watch?v=qw4vtBYhLp0

— Ханан Штейнгарт
джерело

0

Я пам’ятаю, що в університетському класі мої викладачі сказали, що штрафування великих параметрів може зменшити перевиконання, оскільки це заважає моделі надати занадто велику вагу певним особливостям даних, що спричиняє перевиконання, оскільки модель просто запам'ятовує деякі специфічні характеристики даних та пов'язує їх з ярлик замість того, щоб намагатися вивчити загальні правила.

— rongzzz
джерело