Яка різниця між "глибоким навчанням" та багаторівневим / ієрархічним моделюванням?


31

Чи "глибоке навчання" - це ще один термін для багаторівневого / ієрархічного моделювання?

Я набагато більше знайомий з останнім, ніж з першим, але, як я можу сказати, головна відмінність полягає не в їх визначенні, а в тому, як вони використовуються та оцінюються в межах своєї області застосування.

Схоже, кількість вузлів у типовому додатку «глибокого навчання» більша і використовує загальну ієрархічну форму, тоді як додатки багаторівневого моделювання зазвичай використовують ієрархічні зв’язки, що імітують генераційний процес, який моделюється. Використання загальної ієрархії у прикладній статистиці (ієрархічне моделювання) домену розцінюватиметься як "неправильна" модель явищ, тоді як моделювання доменної ієрархії може розглядатися як підривне завдання створення загальної машини глибокого навчання.

Чи справді ці дві речі однакові машини під двома різними назвами, що використовуються двома різними способами?

Відповіді:


38

Схожість

В основному обидва типи алгоритмів були розроблені, щоб відповісти на одне загальне питання в машинному навчанні:

З урахуванням прогнозів (факторів) - як включити взаємодії між цими факторами з метою підвищення продуктивності?x1,x2,,xp

Один із способів - просто запровадити нові прогноктори: Але це виявляється поганою ідеєю через величезну кількість параметрів та дуже специфічний тип взаємодій.xp+1=x1x2,xp+2=x1x3,

І алгоритми багаторівневого моделювання, і алгоритми глибокого навчання відповідають на це питання, вводячи значно розумнішу модель взаємодій. І з цієї точки зору вони дуже схожі.

Різниця

Тепер дозвольте спробувати дати зрозуміти, у чому полягає велика концептуальна різниця між ними. Для того, щоб дати певне пояснення, давайте подивимось припущення, які ми робимо у кожній з моделей:

Багаторівневе моделювання: 1 шари, які відображають структуру даних, можуть бути представлені у вигляді Байєсової ієрархічної мережі . Ця мережа є фіксованою і зазвичай надходить із доменних додатків.1

Глибоке навчання: 2 дані були створені взаємодією багатьох факторів. Структура взаємодій не відома, але може бути представлена ​​у вигляді шаруватої факторизації: взаємодії вищого рівня отримуються шляхом перетворення уявлень нижчого рівня.2

Принципова відмінність походить від фрази "структура взаємодій не відома" в "Глибокому навчанні". Можна припустити деякі пріоритети щодо типу взаємодії, але все ж алгоритм визначає всі взаємодії під час процедури навчання. З іншого боку, ми повинні визначити структуру взаємодій для багаторівневого моделювання (ми дізнаємось лише змінювати параметри моделі згодом).

Приклади

x1,x2,x3{x1}{x2,x3}

х1х2х1х3х2х3 . Звичайно, частково на результати впливатиме кореляція помилок, але це не так важливо для прикладу.

При глибокому вивченні, наприклад, у багатошарових машинах Больцмана з обмеженим обмеженням ( RBM ) з двома прихованими шарами та лінійною функцією активації, ми матимемо всі можливі поліноміальні взаємодії зі ступенем меншим або рівним трьох.

Загальні переваги та недоліки

Багаторівневе моделювання

(-) потрібно визначити структуру взаємодій

(+) результати зазвичай простіше інтерпретувати

(+) може застосовувати методи статистики (оцінювати інтервали довіри, перевіряти гіпотези)

Глибоке навчання

(-) вимагає величезної кількості даних для тренувань (і часу для тренування також)

(-) результати, як правило, неможливо інтерпретувати (надається у вигляді чорного поля)

(+) ніяких експертних знань не потрібно

(+) колись добре навчений, зазвичай перевершує більшість інших загальних методів (не специфічних для застосування)

Сподіваюся, це допоможе!


Чому глибока нейронна мережа потребує величезної кількості даних для навчання? Я про це раніше не чув.
Jase

1
@Jase Нейронні мережі зазвичай мають безліч параметрів, тому в багатьох випадках, якщо ви використовуєте невеликий набір даних, ви, ймовірно, просто перевиконаєте. Звичайно, все залежить від поставленого завдання, але більшість найбільш вражаючих результатів НН сьогодні використовують надзвичайно величезні набори даних.
Дмитро Лаптєв

Погодились, що вражаючі результати є на величезних наборах даних, але я не впевнений, що ми не можемо використати випадання та інші хитрощі, щоб змусити їх добре узагальнити невеликі набори даних.
Jase

1
@Jase Sure, ви можете використовувати різні евристики. Але, на мій досвід обробки зображень, майже всі вони вводять деяку регуляризацію, що в основному еквівалентно введенню деяких попередніх і, отже, упереджених. Що не завжди хочеться.
Дмитро Лаптєв,

Імовірно, вам не потрібно визначати структуру взаємодій, якщо ви використовуєте непараметричні показники, наприклад, попередній ієрархічний дирихле.
Астрід

2

Незважаючи на те, що це питання / відповідь було дещо там, я вважав, що може бути корисним уточнити кілька моментів відповіді. По-перше, словосполучення, поставлене як головне розмежування між ієрархічними методами та глибокими нейронними мережами "Ця мережа виправлена". невірно. Ієрархічні методи не є більш «фіксованими», ніж альтернативні нейронні мережі. Див., Наприклад, статтю « Глибоке навчання з ієрархічним аналізом згорткового фактора», Chen et. ін.. Думаю, ви також виявите, що вимога щодо визначення взаємодій також більше не є відмінною точкою. Декілька пунктів, які не є переліченими в ієрархічному моделюванні, є, з мого досвіду, значно зменшеною проблемою переозброєння та вмінням обробляти як дуже великі, так і дуже малі навчальні набори. Справа в тому, що при застосуванні ієрархічних методів Байєса інтервали довіри та тестування гіпотез, як правило, не є статистичними методами, які застосовувалися б.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.