Чому люди не використовують більш глибокі RBF або RBF у поєднанні з MLP?


12

Тож, дивлячись на нейронні мережі радіальної основи функції, я помітив, що люди лише рекомендують використовувати 1 прихований шар, тоді як при багатошарових персептронних нейронних мережах більше шарів вважається кращим.

З огляду на те, що мережі RBF можуть бути навчені з версією поширення зворотного зв'язку? Чи є причини, чому більш глибокі мережі RBF не працюватимуть, або що рівень RBF не може бути використаний як передостанній або перший рівень у глибокій мережі MLP? (Я думав, передостанній шар, щоб він по суті міг бути навчений особливостям, вивченим попередніми шарами MLP)


Я не є експертом з міжнародних мереж, але моє враження полягає в тому, що при стандартних NN подачах декількох прихованих шарів зазвичай не додається багато.
gung - Відновіть Моніку

1
Це було в попередні часи досліджень NN, проте зараз більше шарів, як правило, є рецептом для підвищення продуктивності (глибокого навчання). Я думаю, що сьогоднішній улюблений підхід - це розумна ініціалізація, якомога більше шарів, регуляризація через випадання та софтмакс замість сигмоїдальних активацій, щоб уникнути насичення. (Але я можу помилитися в техніці). Я думаю, що деякі люди також використовують ітеративне поглиблення для отримання кращих результатів. Також Google отримав найсучасніший вміст у imageNet у 2014 році із 100-шаровою мережею.
user1646196

Відповіді:


4

Фундаментальна проблема полягає в тому, що ПДФ є а) надто нелінійними; б) не роблять зменшення розмірів.

через a) ПДВ завжди тренувалися за допомогою k-засобів, а не градієнтного спуску.

Я б стверджував, що головний успіх у Глибоких НН - це конвертні мережі, де однією з ключових частин є зменшення розмірів: хоча працюючи з скажімо 128x128x3 = 50 000 входів, кожен нейрон має обмежене сприйнятливе поле, і в кожному шарі набагато менше нейронів . У даному шарі в MLP - кожен нейрон представляє особливість / розмірність), тому ви постійно зменшуєте розмірність (переходячи від шару до шару).

Хоча можна зробити матрицю коваріації RBF адаптивною і зменшити розмірність, це ще більше ускладнює тренування.


Нещодавно я прочитав документ, який запропонував алгоритм зворотного поширення для навчання мереж RBF. Враховуючи це, чи може їх користь мати RBF як останній рівень у глибокій мережі? Я припускаю, що в такому вигляді решта глибокої мережі по суті буде виявляти функції, які може класифікувати RBF
user1646196

можливо, вам слід посилатись на папір, і тоді люди можуть дати більш усвідомлені відповіді. Я не бачу ніякої користі ... враховуючи, що RBF занадто нелінійний (наприклад, сигмоїди були замінені на relu, оскільки вони були занадто нелінійним градієнтом ...). Що люди роблять - тренуватися з conv net із стандартним mlp зверху, потім викинути mlp та використовувати svm
seanv507

Документ - "Навчання мереж RBF із селективною зворотною розповсюдженням", не впевнений, чи можете ви їх прочитати тут, чи є paywall sciencedirect.com/science/article/pii/S0925231203005411 . Мені не було відомо, що сигмоїди були замінені релу через нелінійність, але враховуючи, що я бачу, як посилиться нелінійність від посилення. Я
відзначу
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.