Версія з трьох пропозицій:
Кожен шар може застосувати будь-яку функцію, яку ви хочете, до попереднього шару (як правило, лінійне перетворення з подальшим нелінійністю скорочення).
Завдання прихованих шарів полягає в перетворенні входів у те, що може використовувати вихідний шар.
Вихідний шар перетворює активацію прихованого шару в будь-який масштаб, на якому ви хотіли б отримати результат.
Як і вам 5:
Якщо ви хочете, щоб комп'ютер повідомив вам, чи є на фотографії шина, комп'ютер може полегшити час, якби у нього були потрібні інструменти.
Тож ваш детектор автобуса може бути виготовлений з колісного детектора (щоб допомогти вам сказати, що це транспортний засіб), коробкового детектора (оскільки шина має форму великої коробки) та детектора розміру (щоб сказати вам, що це занадто великий, щоб бути автомобілем ). Це три елементи вашого прихованого шару: вони не є частиною неочищеного зображення, це інструменти, які ви створили, щоб допомогти вам визначити шини.
Якщо всі три з цих детекторів включаються (або, можливо, вони особливо активні), то є хороший шанс, що перед вами автобус.
Нейронні сітки корисні тим, що є хороші інструменти (як, наприклад, розмноження) для створення безлічі детекторів та їх з'єднання.
Наче ти доросла людина
Нейронна мережа, що передається вперед, застосовує до даних ряд функцій. Точні функції залежать від нейронної мережі, яку ви використовуєте: найчастіше ці функції обчислюють лінійне перетворення попереднього шару з подальшим нелінійністю скорочення. Іноді функції виконують щось інше (наприклад, обчислення логічних функцій у ваших прикладах або усереднення за суміжними пікселями на зображенні). Тож ролі різних шарів можуть залежати від того, які функції обчислюються, але я спробую бути дуже загальним.
хгодуfхгодггоду
f( х )г( f( х ) )
fг
г( f( х ) )fг
Приклад з логічними функціями:
fг
Функції першого шару:
- Переконайтеся, що принаймні в одному елементі є "ІСТИНА" (використовуючи АБО)
- Переконайтесь, що вони не всі "ПРАВИЛЬНІ" (використовуючи NAND)
Функція другого шару:
- Переконайтесь, що обидва критерії першого рівня задоволені (використовуючи AND)
Вихід мережі - це лише результат цієї другої функції. Перший шар перетворює входи в те, що другий шар може використовувати, щоб вся мережа могла виконувати XOR.
Приклад із зображеннями:
Слайд 61 із цієї бесіди - також доступний тут як єдине зображення - показує (один із способів візуалізації) того, що шукають різні приховані шари в певній нейромережі.
Перший шар шукає короткі шматочки ребер на зображенні: їх дуже легко знайти за допомогою даних про невідкладні пікселі, але вони самі по собі не дуже корисні, щоб розповісти, чи дивитесь ви на обличчя, автобус чи слона .
Наступний шар складається з ребер: якщо краї нижнього прихованого шару певним чином з’єднаються, то може ввімкнутись один із детекторів очей посередині лівого стовпчика. Важко було б зробити один шар, який був би настільки гарний, щоб знайти щось настільки специфічне із сирих пікселів: очні детектори набагато простіше побудувати з крайових детекторів, ніж із необроблених пікселів.
Наступний шар вгору складається з очних детекторів і детекторів носа в обличчя. Іншими словами, вони загоряться, коли очні детектори та детектори носа з попереднього шару включаються правильними візерунками. Вони дуже добре шукають конкретні види обличчя: якщо одне або кілька з них загоряється, то ваш вихідний шар повинен повідомити про наявність обличчя.
Це корисно, оскільки детектори обличчя легко створити з очних детекторів та детекторів носа, але насправді важко побудувати за інтенсивністю пікселів.
Таким чином, кожен шар робить вас все далі і далі від неочищених пікселів і ближче до кінцевої мети (наприклад, виявлення обличчя або виявлення шини).
Відповіді на різні питання
"Чому деякі шари у вхідному шарі підключені до прихованого шару, а деякі - ні?"
Від'єднані вузли в мережі називаються вузлами "зміщення". Там дійсно гарне пояснення тут . Коротка відповідь полягає в тому, що вони ніби перехоплюють терміни в регресії.
"Звідки беруться фотографії" детектора очей "на прикладі зображення?"
Я ще не двічі перевіряв конкретні зображення, з якими я пов’язаний, але в цілому ці візуалізації показують набір пікселів у вхідному шарі, що максимізують активність відповідного нейрона. Отже, якщо ми думаємо про нейрон як детектор очей, це образ, який нейрон вважає найбільш очним. Люди зазвичай знаходять ці набори пікселів за допомогою процедури оптимізації (сходження на гірку).
У цьому документі деякі люди з однієї з найбільших нейронних мереж у світі вони показують нейрон «детектор обличчя» та нейрон «детектор кішок», а також другий спосіб: вони також показують фактичні зображення, які активують нейрон найбільш сильно (фіг.3, фігура 16). Другий підхід хороший тим, що він показує, наскільки гнучка і нелінійна мережа - ці "детектори" високого рівня чутливі до всіх цих зображень, хоча вони не особливо схожі на рівні пікселів.
Повідомте мене, якщо тут щось незрозуміло або у вас є якісь питання.