Призначення та визначення часу використання прихованих шарів

9

Звернення до цього питання ...

Я намагаюся навчитися використовувати та створювати нейронні мережі для моїх досліджень, і одна точка мене дещо уникає. Я розумію, що приховані шари є дещо необхідною частиною цього, однак я застряг у двох моментах, які мої посилання не пояснюють моєму задоволенню:

Яке саме призначення прихованого шару?
Як можна визначити, скільки прихованих шарів використовувати?

З того, що я збираю, це "моделювати" функціонал реального світу, але якщо можливо, я хотів би трохи більше пояснень.

ne.neural-evol

— the_e
джерело

але деякий час я стикаюсь з тим, що якщо ви збільшите приховані шари, то виникає проблема переобладнання, тому дуже важко сказати, скільки прихованих шарів ми можемо використовувати? це може бути метод удару та випробування.

9

Прихований шар використовується для підвищення виразності мережі. Це дозволяє мережі представляти більш складні моделі, ніж це можливо, без прихованого шару.

Вибір кількості прихованих шарів або, загалом, вибір вашої мережевої архітектури, включаючи кількість прихованих одиниць і в прихованих шарах, - це рішення, які повинні ґрунтуватися на даних вашої підготовки та перехресної перевірки. Ви повинні навчити мережу з заданою кількістю вузлів (для початку спробуйте один прихований шар з одним одиницею на вхідний блок) і протестуйте модель.

Щоб отримати додаткову допомогу, перегляньте це посилання: http://www.faqs.org/faqs/ai-faq/neural-nets/part3/section-10.html

— Ніл Тібревала
джерело

1

це посилання дуже корисне

— the_e

6

Я припускаю, що ми обговорюємо прості нейронні мережі, що передаються вперед, тобто багатошарові перцептрони.

Прихований шар необхідний для фіксації нелінійних залежностей між характеристиками ваших даних та змінною, яку ви намагаєтеся передбачити. Якщо ви не використовуєте прихований шар, ви також можете використовувати лінійну регресію (для регресії) або логістичну регресію (для класифікації).
Спробувавши різні кількості прихованих шарів і оцінивши, наскільки добре вони працюють, наприклад, в умовах перехресної перевірки. Зазвичай одного прихованого шару буде достатньо, і продуктивність NN оптимізується, змінюючи його розміри та регуляризацію.

Зауважте, що з більш ніж двома прихованими шарами ви перебуваєте в глибокому навчальному краї, і вам, ймовірно, потрібні спеціальні алгоритми для навчання вашої мережі. Причина полягає в тому, що зворотне розповсюдження ванілі страждає від проблеми "зникаючого градієнта" в глибоких сітках: градієнт функції помилок відмирає на шарах, близьких до входу, і ці шари навряд чи будуть навчені.

— Фред Фу
джерело