Що таке / чи використовуються фільтри за замовчуванням, які використовує Keras Convolution2d ()?

18

Я досить новачок у нейронних мережах, але розумію лінійну алгебру і математику згортки досить пристойно.

Я намагаюся розібратися в прикладі коду, який я знаходжу в різних місцях мережі для тренування конвертної NN Keras з даними MNIST для розпізнавання цифр. Моє сподівання було б, що коли я створюю згортковий шар, мені доведеться вказати фільтр або набір фільтрів, які потрібно застосувати до вводу. Але три знайдених нами зразки створюють такий згортальний шар, як цей:

model.add(Convolution2D(nb_filter = 32, nb_row = 3, nb_col = 3,
                        border_mode='valid',
                        input_shape=input_shape))

Схоже, застосовується 32 фільтри 3х3 до зображень, оброблених CNN. Але що це за фільтри? Як би я описав їх математично? Документація про керас не допомагає.

Спасибі заздалегідь,

convnet keras

— ChrisFal
джерело

2

Це випливає з розуміння складової частини CNN. Ви можете прочитати тут: cs231n.github.io/convolutional-networks

— Крістіан Сафка,

15

За замовчуванням фільтри $W$ ініціалізуються випадковим чином glorot_uniformметодом, який виводить значення з рівномірного розподілу з позитивними та негативними межами, описаними так:

W \sim U (\frac{6}{н_{i н} + н_{о у т}}, \frac{- 6}{н_{i н} + н_{о у т}}),

$W \sim \mathcal{U}\left(\frac{6}{n_{in} + n_{out}}, \frac{-6}{n_{in} + n_{out}}\right),$

де $n_{in}$ - кількість одиниць, що подаються в цю одиницю, і $n_{out}$ - кількість одиниць, на яку подається результат.

Коли ви використовуєте мережу для прогнозування, ці фільтри застосовуються на кожному шарі мережі. Тобто, для кожного фільтра на кожному вхідному зображенні виконується дискретна згортка, і результати цих згортків подаються на наступний шар згортків (або повністю пов'язаний шар, або все, що у вас може бути).

Під час тренінгу значення у фільтрах оптимізуються за допомогою зворотного пропорції щодо функції втрат. Для таких завдань класифікації, як розпізнавання цифр, зазвичай використовується поперечна втрата ентропії. Ось візуалізація деяких фільтрів, вивчених у першому шарі (вгорі) та фільтрів, вивчених у другому шарі (знизу) згорткової мережі:

Як бачимо, фільтри першого шару в основному всі виступають як прості реберні детектори, тоді як фільтри другого шару є більш складними. У міру заглиблення в мережу фільтри здатні виявляти складніші форми. Хоча це візуалізує трохи складно, оскільки ці фільтри діють на зображення, які вже були складені багато разів, і, ймовірно, не дуже схожі на оригінальне природне зображення.

— тимлетхарт
джерело

5

glorot_uniformне використовує нормальний розподіл. Я думаю, ви описуєте glorot_normal. Я не думаю, що це має велике значення для відповіді - ключовими моментами є випадкова ініціалізація з подальшими наслідками тренувань. Можливо, варто пояснити, як підготовлені фільтри виглядають як фільтри крайових / кутових тощо (можливо, з одним із класичних зображень до / після тренування зображень фільтрів першого шару).

— Ніл Слейтер

Тім, спасибі за те, що ти надав математику. @Neil Slater - ваше уявлення про те, що фільтри після тренування із зворотним розповсюдженням можуть виявитись схожими на виявлення ребер тощо. Якби я мав більше репутації, я поставив би +1 вашим внескам.

— ChrisFal

@NeilSlater Спасибі за ваш коментар - ви маєте рацію, я сплутав glorot_normalі glorot_uniform, і я оновив відповідь , щоб відобразити це. Я також додав трохи додаткової інформації про те, як закінчуються фільтри, як ви запропонували.

— timleathart

6

$A$ $F_k$ $B_k(i,j)$

Б_{к} (i, j) = (Ж_{к} * А) (i, j) = \sum_{л = 0, 1, 2} \sum_{м = 0, 1, 2} Ж_{к} (л, м) А (i - л, j - м)

$B_k(i,j) = (F_k * A) (i,j) = \sum_{l=0,1,2}\sum_{m=0,1,2}F_k(l,m)A(i-l,j-m)$

Перероблена модель буде тренувати ядра відповідно до вашої функції витрат, і врешті ці ядра є фільтрами вашої моделі.

— lucky6qi
джерело

Я зрозумів цю математику, але впевнений, що багато читачів цієї теми знайдуть діаграму корисною. Тож дякую!

— ChrisFal

imghost.in/images/2018/03/06/XvatD.jpg, можливо, зображення має бути з коордами (0,0) на B?

— вініту

@vinnitu так, справді. Насправді мені також потрібно змінити B на Bk (i, j), (i = 0,1,2, j = 0,1,2).

— lucky6qi