Що таке закономірності та регуляризація?


12

Ці слова я все більше і більше чую, коли вивчаю машинне навчання. Насправді деякі люди виграли медаль Філдса, працюючи над закономірностями рівнянь. Отже, я думаю, що це термін, який переносить себе від статистичної фізики / математики до машинного навчання. Звичайно, кількість людей, яких я запитувала, просто не могла інтуїтивно пояснити це.

Я знаю, що такі методи, як відміни, допомагають у регуляризації (=> вони кажуть, що це зменшує перевиконання, але я дійсно не розумію, що це таке: якщо це лише зменшує перевиконання, чому б просто не назвати це методами анти-примірки => повинні бути щось більше я думаю, звідси це питання).

Я був би дуже вдячний (напевно, наївне співтовариство ML теж було б!), Якщо ви можете пояснити:

  1. Як Ви визначаєте регулярність? Що таке закономірність?

  2. Чи є регуляризація способом забезпечення регулярності? тобто фіксація закономірностей?

  3. Чому такі методи збирання, як випадання, методи нормалізації, стверджують, що роблять регуляризацію?

  4. Чому вони (регулярність / регуляризація) виникають при машинному навчанні?

Велике спасибі за вашу допомогу.

Відповіді:


8

Регуляризація застосовується майже в усіх алгоритмах машинного навчання, де ми намагаємося навчитися з кінцевих зразків навчальних даних.

Я спробую опосередковано відповісти на ваші конкретні запитання, пояснивши генезис концепції регуляризації. Повна теорія набагато детальніше, і це пояснення не слід трактувати як повне, а має на меті просто направити вас у правильному напрямку для подальшого вивчення. Оскільки ваша основна мета - зрозуміти інтуїтивне розуміння регуляризації, я узагальнив та значно спростив наступне пояснення з глави 7 "Нейрових мереж та навчальних машин", 3-е видання Саймона Хайкіна (і опустив кілька деталей, роблячи це).

Дозволяє переглянути задачу, що контролюється, з незалежними змінними та залежною змінною , намагаючись знайти функцію яка зможе "відобразити" вхід X на вихід Y.xiyif

Щоб продовжити це, давайте розберемося з терміналогією Хадамарда "добре поставленої" проблеми - проблема є добре поставленою, якщо вона задовольняє наступним трьом умовам:

  1. Для кожного вводу , і виводу існує.xiyi
  2. Для пари входів і , тоді і тільки тоді, якщо .x1x2f(x1)=f(x2)x1=x2
  3. Відображення неперервне (критерії стійкості)f

Для контрольованого навчання ці умови можуть бути порушені, оскільки:

  1. Для даного входу може не існувати чіткий вихід.
  2. У навчальних зразках може бути недостатньо інформації для побудови унікального відображення вводу-виводу (оскільки використання алгоритму навчання на різних навчальних зразках призводить до різних функцій відображення).
  3. Шум у даних додає непевності процесу реконструкції, що може вплинути на його стабільність.

Для вирішення таких «невдалених» проблем Тихонов запропонував метод регуляризації для стабілізації рішення, включивши негативний функціонал, який вкладає попередню інформацію про рішення.

Найбільш поширена форма попередньої інформації передбачає припущення, що функція відображення вводу-виводу є гладкою, тобто подібні входи дають аналогічні результати.

Теорія регуляризації Тихнова додає термін регуляризації до функції витрат (функція втрат, яку слід мінімізувати), яка включає параметр регуляризації та прийняту форму відображення . Значення вибирається між 0 і . Значення 0 означає, що рішення визначається повністю з навчальних зразків; тоді як значення означає, що приклади навчання недостовірні.λfλ

Таким чином, параметр регуляризації вибирається та оптимізується для досягнення бажаного балансу між зміщенням моделі та дисперсією моделі, включаючи в нього потрібну кількість попередньої інформації.λ

Деякі приклади таких функцій регульованої вартості:

Лінійна регресія:

J(θ)=1mi=1m[hθ(xi)yi]2+λ2mj=1nθj2

Логістична регресія:

J(θ)=1mi=1m[yilog(hθ(xi))(1yi)log(1hθ(xi))]+λ2mj=1nθj2

Де, - коефіцієнти, які ми визначили для , а - оцінка .θxhθ(x)y

Другий член підсумовування в кожному прикладі - це термін регуляризації. Оскільки цей термін завжди є негативним значенням, він зупиняє оптимізатор досягати глобальних мінімумів для функції витрат. Форма терміна, показаний тут, є регуляризацією . Існує багато варіацій у формі функції регуляризації, поширеними формами є: ласо, еластична сітка та регресія хребта. Вони мають свої переваги та недоліки, які допомагають вирішити, де їх найкраще застосувати.L2

Чистий ефект від застосування регуляризації полягає у зменшенні складності моделі, що зменшує перенапруження. Інші підходи до регуляризації (не наведені в прикладах вище) включають модифікації структурних моделей, такі як регресія / класифікація Дерев, підсилених дерев тощо, випадаючи вузлів для спрощення дерев. З недавніх пір це було застосовано у так званому «глибокому навчанні», випадаючи зв’язки між нейронами в нейронній мережі.

Конкретна відповідь на Q3 полягає в тому, що деякі методи збирання, такі як випадковий ліс (або подібні схеми голосування), досягають регуляризації завдяки властивому їм методу, тобто голосуванню та вибору відповіді з колекції нерегульованих дерев. Незважаючи на те, що окремі дерева мають надмірну силу, процес "усереднення" їх результатів зупиняє ансамбль від переодягання до навчального набору.

Редагувати:

Поняття регулярності належить до теорії аксіоматичних множин, ви можете посилатися на цю статтю для покажчиків - en.wikipedia.org/wiki/Axiom_of_regularity і вивчити цю тему далі, якщо вас цікавлять деталі.

Про регуляризацію нейронних мереж: Під час регулювання ваг під час виконання алгоритму зворотного розповсюдження термін регуляризації додається до функції витрат таким же чином, як приклади лінійної та логістичної регресії. Таким чином, додавання терміну регуляризації зупиняє поширення зворотного шляху до глобальних мінімумів.

Стаття, що описує нормалізацію партії для нейронних мереж, - Нормалізація партії: Прискорення глибокої тренувальної мережі шляхом зменшення внутрішнього коваріатного зсуву, Іоффе, Сегеді, 2015. Відомо, що зворотне розповсюдження для тренування нейронної мережі працює краще, коли вхідні змінні нормалізуються. У цій роботі автори застосували нормалізацію до кожної міні-партії, що використовується у стохастичному градієнтному узвозі, щоб уникнути проблеми "зникаючих градієнтів" під час тренування багатьох шарів нейронної мережі. Алгоритм, описаний у їх роботі, розглядає середню та дисперсію, обчислені в кожній партії для кожного шару активацій, як інший набір параметрів, оптимізованих в міні-пакетному SGD (крім ваг NN). Потім активації нормалізуються, використовуючи весь навчальний набір. Ви можете звернутися до їх статті для отримання детальної інформації про цей алгоритм. Використовуючи цей метод, вони змогли уникнути використання відмов для регуляризації, а отже, вони стверджують, що це інший тип регуляризації.


дякую за чудову відповідь. Чи можете ви математично пояснити, як такі методи, як нормалізація, досягають регуляризації? У розмові Goodfellow він сказав, що все, що диференціюється, може виступати регулятором для нейронної мережі. Також, чи знаєте ви, що таке закономірності? вони просто мають на увазі шаблони чи є якась математика за цим? знову дякую.
Рафаель

Дякую за відповідь. Я не пам'ятаю розмови. У нейронні мережі ми додаємо такі шари, як партійна нормалізація. Мені хотілося знати мотики, що вони сприяють регуляризації?
Рафаель

Відредаговано, щоб відповісти на ваш коментар, а також додати відповіді, наведені в попередніх коментарях.
Sandeep S. Sandhu

3

питання 1

Мені невідоме жодне канонічне визначення, і ваші запитання свідчать про те, що цей термін використовується з різним значенням. Почнемо з простих прикладів (які дадуть відповідь на питання 2).

Питання 2

Хребет регресія може бути гарною відправною точкою. Це метод регуляризації, який обходить питання, порушене сингулярною матрицею .

Однак "параметр регуляризації", визначений у методах підвищення градієнта (на приклад), є для забезпечення низької складності моделі.

Питання 3

Нормалізація як регуляризація має інше значення (і ця термінологія є досить оманливою). Це перетворює складну проблему "з точки зору градієнтного спуску" в щось простіше. Хоча це не потрібно для калібрування нейронної мережі, воно справді допомагає під час калібрування. (Однак зауважте, що якби ми могли знайти глобальну крайність довільних функцій, нормалізація не була б необхідною)

Питання 4

Регуляризація (як спосіб зменшити складність моделі) використовується для зменшення надлишкової кількості. Чим менш складна модель, тим менша ймовірність її перевиконання.

Убік

С. Ватанабе докладно застосовує цю термінологію у своїх дослідженнях.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.