Вузьке місце застосування глибокого навчання на практиці


9

Прочитавши багато робіт з глибокого вивчення, таке грубе відчуття, що існує багато хитрощів у навчанні мережі, щоб досягти кращої, ніж звичайної, продуктивності. З точки зору галузевого застосування, дуже важко розробити подібні хитрощі, за винятком тих елітних дослідницьких груп у великих технологічних компаніях, наприклад, google або facebook. Тоді який найкращий спосіб застосувати алгоритми глибокого навчання на практиці. Будь-яка думка та пропозиції будуть високо оцінені.

Відповіді:


9

Правда, деякі деталі, які використовуються для підвищення продуктивності, розглядаються як хитрощі, і ви не завжди дізнаєтесь, чи приносять ці трюки однакове поліпшення для ваших даних та вашої мережі.

Деякі речі, які вам обов'язково знадобляться:

  • Дані , багато
  • Графічні процесори дозволять вам швидше проводити експерименти та випробовувати більше речей за коротший проміжок часу.
  • Аналіз кривої навчання. Врешті-решт, це зводиться до продуктивності на тестовому наборі, але, переглядаючи і показники поїздів, і тестів, ви можете виявити причини поганої роботи. Сильна упередженість? Занадто багато прихованих вузлів?
  • Функція активації . Я не думаю, що це вважає хитрістю дізнатися, яка функція активації вам потрібна. ReLU мають критичну символіку тим, що вони не насичуються, як сигмоїди і тан. Нейрон з ReLU довше матиме ймовірнісний вихід, але вам це не потрібно для нейронів у шарах середнього рівня. Отримані переваги - це пом'якшення зникнення або вибуху градієнтів та прискорення конвергенції.
  • Регуляризація . Можна застосувати як хитрощі, але якщо ви використовуєте будь-яку з основних бібліотек глибокого навчання, ви можете отримати реальні реалізації для регуляризації за допомогою відміни.
  • Збільшення даних. Ви в основному синтетично розширюєте свій набір даних без додаткових витрат на ручну анотацію. Ключовим моментом є збільшення даних за допомогою перетворень, які є актуальними. Так що мережа зможе побачити варіанти даних, з якими вона може зіткнутися на етапі тестування або коли вона буде розгорнута в продукт. Для візуальних даних це горизонтальне перегортання є тривіальним і додає багато користі. Джиттер, ймовірно, залежить від типу даних та того, наскільки вони шумні.
  • Занурення в розвідку гіперпараметрів може бути розчаровуючим. Почніть з невеликих мереж та простих навчальних процедур. Дрібні мережі швидше навчаються. Додайте більше шарів, коли ви побачите ознаки надягання.
  • Хороша ініціалізація . Випадкова ініціалізація підходить для оцінки здатності мережі до конвергенції, але не обов'язково призводить до оптимальної продуктивності. У той же час, продовження ітерації може призвести до того, що мережа переповнює навчальні дані. Якщо можливо, скористайтеся заздалегідь підготовленою мережею, яка вже вивчила представлення, і тонко налаштуйте її на свій набір даних. Непідконтрольне попереднє тренування - це ще один шлях, який може дозволити розпорядницькій тренувальній процедурі починатись із набагато перспективнішої позиції у ваговому просторі.
  • Проаналізуйтехитрощі. Зрозумійте, що насправді робить фокус. У документі, що описує невеликі деталі, які використовувались для покращення продуктивності мережі, буде зосереджено увагу на цьому новому аспекті. Документ може бути частиною послідовності проектів, над якими працювали автори. Контекст фокусу може бути не завжди зрозумілим одразу, але для авторів це не трюк, а техніка, яка вирішує проблему, яку вони мали. Іноді техніка виходить і трактується як хитрість, а згодом хтось проаналізує її вплив та опише її функцію. Наприклад, що цей трюк еквівалентний регуляризації L2, який знають більше люди. Ми можемо вирішити, чи варто спробувати цю нову техніку або дотримуватися регуляризацію L2, про яку ми вже знаємо. Багато цих хитрощів намагаються вирішити проблеми з глибоким навчанням, як-от ризик перенаситити, дорогі обчислення, над параметризацією та надмірними вагами. Варто витратити час, щоб зрозуміти, що насправді роблять ці хитрощі. Розуміючи проблему, яку вони намагаються вирішити, ми можемо судити про застосування різних хитрощів і вибрати той, який добре працює з обмеженнями, які ми можемо мати (наприклад, невелика обчислювальна потужність, невеликий набір даних)

2

Ось цікава книга Neural Networks: Tricks of Trade , оновлена ​​версія книги у 2012 році. Багато статей деяких піонерів нейронних мереж.

ypx чудово торкнувся багатьох практичних питань, пов'язаних із навчанням, тому торкайтеся інших питань, які ви порушили: багато елітних промислових лабораторій все ще публікують свої результати. Для команди Приклад Microsoft Research, тільки що виграв ImageNet 2015 і випустили технічний звіт з описом їх новий глибокий чистий модуль: Deep Залишкова Навчання для розпізнавання образів , команда Google опублікував свою Вступний архітектуру , а також, заглиблюючись з згорток . До нетривіальної міри все ще існує культура машинного навчання (поки що) обміну великими нововведеннями. Можливо тому, що ключовим є доступ до даних. Google і Facebook просто мають доступ до даних, яких у нас немає. Важко сказати, скільки кредитів припадає на необроблені алгоритмічні інновації та скільки йде на величезну кількість даних.

Що стосується того, що буде в майбутньому? Важко сказати. Це питання, яке багато людей піднімало, враховуючи, наскільки цінні ці компанії стали інформацією та наскільки конкурентоспроможний ринок. Але наразі я думаю, що існує достатньо хороший баланс того, що ділять і не ділять лабораторії промислових наукових досліджень. Я розумію, що вони не діляться їх точною реалізацією коду. Але вони поділяють деякі дуже новинки.

Знайдіть дослідників, які публікують важливі результати та читають, читають, читають. Я вірю в AMA Янна Лекуна на Reddit, він згадав, що він ненажерливий читач. Я вважаю, що це найважливіше. І наскільки це практично, спробуйте відновити їх орієнтири або застосувати їх метод до набору даних, який знаходиться у межах вашого бюджету.

Я думаю, що незалежно від того, де ти знаходишся чи яка твоя станція в житті, це найкращий спосіб бути гострим та продовжувати розвивати свої навички. Будь ненажерливим читачем і впроваджуй речі та будуй інтуїцію. Я особисто не маю ресурсів для участі в змаганнях ImageNet, але читання всіх найвищої роботи статей групи ImageNet дуже допомогло мені.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.