Регуляризація застосовується майже в усіх алгоритмах машинного навчання, де ми намагаємося навчитися з кінцевих зразків навчальних даних.
Я спробую опосередковано відповісти на ваші конкретні запитання, пояснивши генезис концепції регуляризації. Повна теорія набагато детальніше, і це пояснення не слід трактувати як повне, а має на меті просто направити вас у правильному напрямку для подальшого вивчення. Оскільки ваша основна мета - зрозуміти інтуїтивне розуміння регуляризації, я узагальнив та значно спростив наступне пояснення з глави 7 "Нейрових мереж та навчальних машин", 3-е видання Саймона Хайкіна (і опустив кілька деталей, роблячи це).
Дозволяє переглянути задачу, що контролюється, з незалежними змінними та залежною змінною , намагаючись знайти функцію яка зможе "відобразити" вхід X на вихід Y.хiуif
Щоб продовжити це, давайте розберемося з терміналогією Хадамарда "добре поставленої" проблеми - проблема є добре поставленою, якщо вона задовольняє наступним трьом умовам:
- Для кожного вводу , і виводу існує.хiуi
- Для пари входів і , тоді і тільки тоді, якщо .x1x2f(x1)=f(x2)x1=x2
- Відображення неперервне (критерії стійкості)f
Для контрольованого навчання ці умови можуть бути порушені, оскільки:
- Для даного входу може не існувати чіткий вихід.
- У навчальних зразках може бути недостатньо інформації для побудови унікального відображення вводу-виводу (оскільки використання алгоритму навчання на різних навчальних зразках призводить до різних функцій відображення).
- Шум у даних додає непевності процесу реконструкції, що може вплинути на його стабільність.
Для вирішення таких «невдалених» проблем Тихонов запропонував метод регуляризації для стабілізації рішення, включивши негативний функціонал, який вкладає попередню інформацію про рішення.
Найбільш поширена форма попередньої інформації передбачає припущення, що функція відображення вводу-виводу є гладкою, тобто подібні входи дають аналогічні результати.
Теорія регуляризації Тихнова додає термін регуляризації до функції витрат (функція втрат, яку слід мінімізувати), яка включає параметр регуляризації та прийняту форму відображення . Значення вибирається між 0 і . Значення 0 означає, що рішення визначається повністю з навчальних зразків; тоді як значення означає, що приклади навчання недостовірні.λfλ∞∞
Таким чином, параметр регуляризації вибирається та оптимізується для досягнення бажаного балансу між зміщенням моделі та дисперсією моделі, включаючи в нього потрібну кількість попередньої інформації.λ
Деякі приклади таких функцій регульованої вартості:
Лінійна регресія:
J(θ)=1m∑mi=1[hθ(xi)−yi]2+λ2m∑nj=1θ2j
Логістична регресія:
J(θ)=1m∑mi=1[−yilog(hθ(xi))−(1−yi)log(1−hθ(xi))]+λ2m∑nj=1θ2j
Де, - коефіцієнти, які ми визначили для , а - оцінка .θxhθ(x)y
Другий член підсумовування в кожному прикладі - це термін регуляризації. Оскільки цей термін завжди є негативним значенням, він зупиняє оптимізатор досягати глобальних мінімумів для функції витрат. Форма терміна, показаний тут, є регуляризацією . Існує багато варіацій у формі функції регуляризації, поширеними формами є: ласо, еластична сітка та регресія хребта. Вони мають свої переваги та недоліки, які допомагають вирішити, де їх найкраще застосувати.L2
Чистий ефект від застосування регуляризації полягає у зменшенні складності моделі, що зменшує перенапруження. Інші підходи до регуляризації (не наведені в прикладах вище) включають модифікації структурних моделей, такі як регресія / класифікація Дерев, підсилених дерев тощо, випадаючи вузлів для спрощення дерев. З недавніх пір це було застосовано у так званому «глибокому навчанні», випадаючи зв’язки між нейронами в нейронній мережі.
Конкретна відповідь на Q3 полягає в тому, що деякі методи збирання, такі як випадковий ліс (або подібні схеми голосування), досягають регуляризації завдяки властивому їм методу, тобто голосуванню та вибору відповіді з колекції нерегульованих дерев. Незважаючи на те, що окремі дерева мають надмірну силу, процес "усереднення" їх результатів зупиняє ансамбль від переодягання до навчального набору.
Редагувати:
Поняття регулярності належить до теорії аксіоматичних множин, ви можете посилатися на цю статтю для покажчиків - en.wikipedia.org/wiki/Axiom_of_regularity і вивчити цю тему далі, якщо вас цікавлять деталі.
Про регуляризацію нейронних мереж: Під час регулювання ваг під час виконання алгоритму зворотного розповсюдження термін регуляризації додається до функції витрат таким же чином, як приклади лінійної та логістичної регресії. Таким чином, додавання терміну регуляризації зупиняє поширення зворотного шляху до глобальних мінімумів.
Стаття, що описує нормалізацію партії для нейронних мереж, - Нормалізація партії: Прискорення глибокої тренувальної мережі шляхом зменшення внутрішнього коваріатного зсуву, Іоффе, Сегеді, 2015. Відомо, що зворотне розповсюдження для тренування нейронної мережі працює краще, коли вхідні змінні нормалізуються. У цій роботі автори застосували нормалізацію до кожної міні-партії, що використовується у стохастичному градієнтному узвозі, щоб уникнути проблеми "зникаючих градієнтів" під час тренування багатьох шарів нейронної мережі. Алгоритм, описаний у їх роботі, розглядає середню та дисперсію, обчислені в кожній партії для кожного шару активацій, як інший набір параметрів, оптимізованих в міні-пакетному SGD (крім ваг NN). Потім активації нормалізуються, використовуючи весь навчальний набір. Ви можете звернутися до їх статті для отримання детальної інформації про цей алгоритм. Використовуючи цей метод, вони змогли уникнути використання відмов для регуляризації, а отже, вони стверджують, що це інший тип регуляризації.