Це питання зводиться до того, як саме працюють шари згортки .
Припустимо, у мене є відтінків сірого. Отже, зображення має один канал. У першому шарі я кратну кратну згортку з фільтрами та накладками. Тоді у мене є ще один шар згортки з згортками та фільтрами. Скільки функціональних карт у мене є?
Світло типу 1
Перший шар виконується. Після цього у мене є карти функцій (по одній для кожного фільтра). Кожен з них має розмір . Кожен окремий піксель був створений шляхом взяття пікселів із вкладеного вхідного зображення. n × m 3 ⋅ 3 = 9
Потім наноситься другий шар. Кожен окремий фільтр застосовується окремо до кожної карти функцій . Це призводить до отримання карток характеристик для кожної з карток зображень . Отже, після другого шару є функції функції. Кожен окремий піксель кожної із створених нових карт функцій створюється, беручи "пікселів" вкладеної карти попередніх функцій.k 1 k 1 × k 2 5 ⋅ 5 = 25
Система повинна вивчити параметри .
Свиток 2.1 типу
Як і раніше: перший шар виконується. Після цього у мене є карти функцій (по одній для кожного фільтра). Кожен з них має розмір . Кожен окремий піксель був створений шляхом взяття пікселів із вкладеного вхідного зображення. n × m 3 ⋅ 3 = 9
На відміну від раніше: потім наноситься другий шар. Кожен окремий фільтр застосовується до одного регіону, але всі картки представлені раніше. Це призводить до загальної кількості зображень після виконання другого шару. Кожен окремий піксель кожної із створених нових карт функцій створюється, беручи "пікселі" вкладених карт функцій раніше.k 2 ⋅ 5 ⋅ 5 = 25 ⋅ k 2
Система повинна вивчити параметри .
Свиток 2.2 типу
Як і вище, але замість того, щоб мати параметрів на фільтр, які потрібно вивчити та отримати просто скопійовано для інших вхідних карт, ви маєте параметрів, які потрібно вивчити.
Питання
- Зазвичай використовується тип 1 або тип 2?
- Який тип використовується в Alexnet ?
- Який тип використовується в GoogLeNet ?
- Якщо ви говорите тип 1: Чому згортання мають сенс? Вони не лише множать дані з постійною?
- Якщо ви говорите тип 2: Поясніть, будь ласка, квадратичну вартість ("Наприклад, у мережі глибокого зору, якщо два звивисті шари пов'язані ланцюгом, будь-яке рівномірне збільшення кількості їх фільтрів призводить до квадратичного збільшення обчислень")
Для всіх відповідей, будь ласка, дайте деякі докази (документи, підручники, документація рамок), що ваша відповідь правильна.
Бонусне питання 1
Чи об'єднуються об'єднання завжди лише на одній карті функцій чи це також робиться на кількох картах функцій?
Бонусне питання 2
Я відносно впевнений, що тип 1 правильний, і у мене щось не так з папером GoogLe. Але є і 3D-згортки. Скажімо, у вас є 1337 карт функцій розміром і ви застосовуєте фільтр . Як просунути фільтр по картах функцій? (Зліва направо, зверху вниз, перша карта зображень для останньої карти об’єктів?) Чи важливо це, поки ви це робите послідовно?
Моє дослідження
- Я прочитав два документи зверху, але все ще не впевнений, що використовується.
- Я прочитав документацію про лазанью
- Я прочитав документацію Theano
- Я читав відповіді на тему " Розуміння звивистих нейронних мереж" (не переглядаючи всі посилання)
- Я читав конволюційні нейронні мережі (LeNet) . Особливо, цифра 1 робить мене відносно впевненим, що тип 2.1 є правильним. Це також підходило б до коментаря "квадратичної вартості" в GoogLe Net та до деякого практичного досвіду, який я мав з Caffee.