Попередня підготовка в глибокій згорткової нейромережі?


33

Хтось бачив якусь літературу про попередню підготовку в глибокій згортковій нейронній мережі? Я бачив лише непідготовлену попередню підготовку в автоінкодерах або машинах з обмеженим набором болцманів.

Відповіді:


39

Я не впевнений, чи це точно відповідає вашому запитанню, але з того, що я розумію, з якої причини ви не бачите людей, які розслідують ( я маю на увазі це в непідконтрольному дослідженні сенсі ) конвертів, це тому, що в суто підготовленому навчанні були різні нововведення, які зробили непідконтрольний розслідування непотрібним (поки хто знає, які проблеми та проблеми матиме майбутнє?).

Одне з головних нововведень - відхід від сигмоїдальних (сигмоїдних, танних) активаційних одиниць, які можуть насичувати / мати ділянки майже плоскої кривизни, і, таким чином, дуже малий градієнт поширюється назад, тому навчання неймовірно повільне, якщо не повністю зупинене для всіх практичних намірів і цілі. У статті Глоро, Бордів та Бенджо Нейрові мережі випрямленого випрямлення використовували випрямлені лінійні одиниці (ReLU) як функції активації замість традиційних сигмоїдних одиниць. ReLU мають такий вигляд: . Зауважте, що вони не обмежені і в позитивній частині мають постійний градієнт 1.f(х)=макс(0,х)

У статті Glorot, Bordes та Bengio використовуються ReLUs для багатошарових перцептронів, а не Conv Nets. Попередня стаття Що є найкращою багатоступеневою архітектурою для розпізнавання об'єктів Джарретом та іншими людьми з групи Нью-Йорка Янна Лекуна, використовувала випрямні нелінійки, але для сигмоїдальних одиниць, тому вони мали функції активації у вигляді f(х)=|тан(х)|та ін. Обидві статті зауважили, що використання випрямлюючих нелінійностей, здається, закриває значну частину розриву між суто контрольованими методами та непідконтрольними розглянутими методами.

Ще одне нововведення полягає в тому, що ми виявили набагато кращі ініціалізації для глибоких мереж. Використовуючи ідею стандартизації дисперсії в шарах мережі, протягом багатьох років були встановлені хороші правила. Одним з перших, найпопулярніших з них був Глоро та Бенджо, що розуміють складність навчання мереж Deep Feedforward, що дало спосіб ініціалізувати глибокі мережі під гіпотезою лінійної активації, а пізніше - Delving Deep Into Rectifiersгрупою членів дослідницької групи Microsoft, яка модифікує ініціалізацію ваги Glorot та Bengio для врахування виправних нелінійностей. Ініціалізація ваги - це велика справа для надзвичайно глибоких мереж. Для мережі з 30 шарами, ініціалізація ваги MSR виконувалася набагато краще, ніж ініціалізація ваги Glorot. Майте на увазі, що документ Glorot вийшов у 2010 році, а документ MSR - у 2015 році.

Я не впевнений, чи класифікація ImageNet із папером Алекс Крижевський, Ілля Суцкевер та Джеффом Гінтоном була першою, яка використовувала ReLU для конвертних мереж, але це найбільший вплив. У цій роботі ми бачимо, що ReLU для конвертних мереж прискорює навчання, про що свідчить один із їх графіків CIFAR-10, який показує, що конвертні мережі ReLU можуть досягати більш низьких показників помилок у навчанні швидше, ніж мережі, що не стосуються ReLU. Ці релізи не страждають від зникаючих градієнтних / насичуючих сигмоїдних проблем і можуть використовуватися для тренування набагато глибших мереж. Одним з інших великих нововведень є використання тренувань на випадання, техніку стохастичного введення шуму або техніку усереднення моделей (залежно від вашої точки зору), яка дозволяє нам тренувати більш глибокі, більші нейронні мережі довше, не маючи стільки перенапруження.

І чисте нововведення conv продовжувалося з ниючими темпами, майже всі методи, що використовують ReLU (або якусь модифікацію, як PReLUs від Microsoft Research), відмову та суто під контролем навчання (SGD + Momentum, можливо, деякі методи адаптивного курсу навчання, такі як RMSProp або ADAGrad ).

Отже, на сьогоднішній день багато хто з найкращих мережевих конвертів здаються суто під наглядом. Це не означає, що непідвладний пошук або використання методів без нагляду можуть не мати важливого значення в майбутньому. Але деякі неймовірно глибокі конвертні програми пройшли навчання, відповідність або перевершення продуктивності на людських рівнях на дуже багатих наборах даних, використовуючи лише навчання під наглядом. Насправді я вважаю, що остання подання Microsoft Research на конкурс ImageNet 2015 мала 150 шарів. Це не друкарня. 150.

Якщо ви хочете використовувати непідконтрольний пошук для конвертних мереж, я думаю, вам найкраще знайти завдання, коли «стандартне» навчання під контрольованими мережами працює не так добре, і спробуйте непідконтрольний пошук.

На відміну від моделювання на природній мові, здається, важко знайти непідвладне завдання, яке допомагає відповідному контрольованому завданню, що стосується даних зображень. Але якщо достатньо оглянути Інтернет, ви побачите, хто з піонерів глибокого навчання (Йошуа Бенджо, Янн Лекун назвати декількох) говорять про те, наскільки важливим, на їхню думку, є і буде непідконтрольне навчання.


1
Я бачив у підручнику Стенфорда на ConvNet, що там відбувається пошук в конволюційних нейронних мережах. ось посилання: cs231n.github.io/transfer-learning Чи відрізняються вони? адже вони насправді роблять те саме, що правильно?
Rika

2
Ей, вибачте за пізню відповідь. Трансферне навчання робиться багато. Він використовується, щоб уникнути нудної задачі навчання з нуля, а замість цього використовувати функції, підготовлені на великому наборі даних, як ImageNet, і ми натомість тренуємо класифікатор на вершині цих функцій. Я оновив свою відповідь, щоб уточнити, що в ці дні ви не бачите багато непідконтрольного пошуку , що не те саме, що перенесення навчання. Дякую за коментар
Інді АІ

+1. Дуже гарна відповідь. Те, що мені не вистачає, є деяка дискусія чи коментар щодо того, чи те, що ви говорите (тобто, що не потрібно попередньо тренуватися), стосується конкретно конволюційних нейронних мереж (якщо так, то чому?) Або будь-яких глибоких мереж, включаючи не- згорткові.
Амеба каже, що поверніть Моніку

14

Як можна зрозуміти з вищезазначених відповідей, попередня підготовка була «вироблена», коли траплялось багато речей. Однак я хочу перекрити своє розуміння цього:

  1. Давно в 2010 році всі дбали про попередню підготовку. Ось чудовий документ на цю тему, який я не бачив виховувати.
  2. Трохи перед тим, як Алекс Крижевський, Ілля Суцкевер та Джефф Гінтон опублікували свій іміджевий папір, люди все ще вважали, що особливості мають значення, але в основному були зосереджені на непідвладному навчанні і навіть самонавчанні, щоб виготовити ці функції.
  3. Не важко зрозуміти, чому - будівельні блоки нейронних мереж у той час не були настільки надійними і дуже повільно переходили на корисні функції. Багато разів вони навіть вражали невдало. Попередня підготовка була корисною, коли у вас було достатньо даних, ви можете отримати хорошу ініціалізацію для SGD.
  4. Коли релу виховувались, мережі конвергувалися швидше. Коли були висунуті протікаючі релу та новітні рішення, нейронні мережі стали більш надійними машинами, коли мова йде про зближення до життєздатного результату. Я настійно рекомендую пограти з відмінною демонстрацією нейронних мереж, про яку писав цей талановитий гуглер , ви побачите, про що я говорю.
  5. Переходимо до нашого основного моменту, тобто не кажучи про те, що якась форма попередньої підготовки не є важливою у глибокому навчанні. Якщо ви хочете отримати найсучасніші результати, вам доведеться виконати попередню обробку даних (наприклад, ZCA) і правильно вибрати початкові ваги - це дуже хороший документ з цього питання .

Отож, бачите, попередня підготовка змінилася у формі до попередньої обробки та ініціалізації ваги, але залишилась у функціонуванні та стала більш елегантною.

На завершення, машинне навчання дуже модне. Я особисто ставку, як Ендрю Нг, що непідвладне і самоучка буде домінуючим у майбутньому, тому не робіть це релігією :)


13

Існує декілька паперів, але не настільки, як автоінкодери або RBM. Я думаю, що причина - часова лінія NN. Складені УЗМ та автокодер запроваджені відповідно у 2006 та 2007 роках. Після працевлаштування ReLU у 2009 році від непідконтрольного навчання частково відмовляється (коли є достатня кількість даних для навчання у прямому контрольованому навчанні). Незважаючи на те, що мережа Convolution (або LeNet) була винайдена в 1989 році , вона не могла виховуватись як глибока структура до 2012 року, що після популяризації прямого керованого навчання з ReLU. Тож, напевно, дослідники навчали це здебільшого за допомогою прямого керованого навчання.


Отже, ви погоджуєтесь, що ще немає попередньої підготовки в глибокій згорткової нейромережі?
RockTheStar

4
@RockTheStar ні, є, але не так багато, як попередні два. research.microsoft.com/pubs/200804/CNN-Interspeech2013_pub.pdf це дослідження використовувало його. Ось коротка цитата; "Ми зауважуємо, що попередня підготовка покращує і DNN, і CNN, за винятком CNN на TIMIT, коли пошуки не допомогли. Взагалі, відносне покращення використання пошукової роботи для CNN менше, ніж у DNN."
yasin.yazici
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.