Сучасні нейронні мережі, що будують власну топологію


21

Обмеженнями стандартних алгоритмів нейронної сітки (як backprop) є те, що вам потрібно прийняти проектне рішення про те, скільки прихованих шарів та нейронів на шар вам потрібно. Зазвичай рівень навчання та узагальнення є дуже чутливим до цих варіантів. Це стало причиною того, чому алгоритми нейронної сітки, такі як каскадна кореляція , викликали інтерес. Починається з мінімальної топології (просто вхідна та вихідна одиниця) та набору нових прихованих одиниць у міру прогресування навчання.

Алгоритм CC-NN був введений Фальманом у 1990 році, а повторювана версія в 1991 році. Які ще новітні (після 1992 року) алгоритми нейронної сітки починаються з мінімальної топології?


Пов'язані питання

CogSci.SE: Нейронні мережі з біологічно правдоподібними рахунками нейрогенезу


Можна експериментувати з нейронними мережами на основі випадкової проекції. Код для вступу в блог (github)
Шон О'Коннор,

Відповіді:


10

Тут неявне питання полягає в тому, як можна визначити топологію / структуру нейронної мережі або моделі машинного навчання, щоб модель була "потрібного розміру", а не надмірна / недостатня.

Починаючи з каскадної кореляції ще в 1990 році, існує ціла низка методів для цього, багато з яких мають набагато кращі статистичні чи обчислювальні властивості:

  • прискорення: навчайте слабкого учня за раз, при цьому кожен слабкий учень отримує зважений навчальний набір, щоб він засвоїв речі, яких минулі учні не вивчили.
  • регуляризація, що індукує обмеженість, наприклад, ласо або автоматичне визначення відповідності: почніть з великої моделі / мережі та використовуйте регуляризатор, який спонукає непотрібні блоки "вимкнути", залишивши корисні активні.
  • Байєсівська непараметрика: забудьте спробувати знайти «правильний» розмір моделі. Просто використовуйте одну велику модель, і будьте обережні з регулярізацією / бути баєсами, щоб ви не перестаралися. Наприклад, нейронна мережа з нескінченною кількістю одиниць та гауссових пріорів може бути виведена як процес Гаусса, який, як виявляється, набагато простіший у навчанні.
  • Глибоке навчання: як зазначено в іншій відповіді, тренуйте глибоку мережу один за одним. Це насправді не вирішує проблему визначення кількості одиниць на шар - часто це все-таки встановлюється вручну або перехресною валідацією.


4

Як я розумію, вершиною мистецтва сьогодні є "Непідконтрольне навчанню особливостям та глибоке навчання". у двох словах: мережу навчають без нагляду, кожен шар за один раз:


це починається з мінімальної кількості нейронів (лише вхід і вихід)?
Артем Казнатчеєв

глибоке навчання містить широкий спектр методів нейронних мереж з декількома прихованими шарами. Я не знайомий з такими методами, які визначають кількість нейронів, але, можливо, вчений google знає більше ...
Ран

Число Afaik заздалегідь фіксується у всіх конкурентних поточних методах. Це дещо є проблемою, оскільки це означає, що існує велика кількість гіпер параметрів. Щоб вирішити це, Джеймс Бергстра нещодавно запропонував використовувати Гауссові процеси для пошуку найкращих параметрів гіперпараметрів9http: //people.fas.harvard.edu/~bergstra/files/pub/11_nips_hyperopt.pdf). Але це свого роду "зовнішній цикл", який розумно намагається багато різних налаштувань.
Андреас Мюллер

4

Вже згадується про NEAT (нейронна еволюція з наростаючими топологіями). У цьому є досягнення, включаючи специфікацію та HyperNEAT. HyperNEAT використовує мережу "мета" для оптимізації зважування повністю пов'язаного фенотипу. Це дає мережі "просторову обізнаність", яка є неоціненною для розпізнавання зображень та проблем типу настільних ігор. Ви також не обмежені 2D. Я використовую його в 1D для аналізу сигналів і 2D вгору можливо, але стає важким на вимогу обробки. Шукайте документи Кен Стенлі та є група в Yahoo. Якщо у вас є проблеми, які можна відстежити з мережею, то NEAT та / або HyperNEAT цілком можуть застосовуватися.


3

На цю тему є нещодавній документ: Р. П. Адамс, Х. Уоллах та Зубін Гахрамані. Вивчення структури глибоких розріджених графічних моделей. Це трохи поза звичайною спільнотою нейронних мереж і більше з боку машинного навчання. У роботі використовуються непараметричні байєсівські умовиводи щодо структури мережі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.