Чому CNN укладаються з шарами FC?


11

З мого розуміння, CNN складаються з двох частин. Перша частина (шари conv / pool), яка виконує вилучення функції, і друга частина (шари fc), яка робить класифікацію за ознаками.

Оскільки повноз'єднані нейронні мережі не є найкращими класифікаторами (тобто вони отримують більшу ефективність від SVM та RFs більшу частину часу), чому CNN укладаються з шарами FC, а не скажімо, SVM чи RF?

Відповіді:


4

Це не так просто. Перш за все, SVM певним чином є типом нейронної мережі (ви можете дізнатися рішення SVM за допомогою зворотного розповсюдження). Дивіться, що таке «штучна нейронна мережа»? . По-друге, ви не можете заздалегідь знати, яка модель буде працювати краще, але справа в цілком нейроморфній архітектурі ви зможете вивчити ваги від кінця до кінця, приєднавши SVM або RF до останнього активації прихованого шару CNN. просто спеціальна процедура. Це може бути краще, а може й не бути, ми не можемо знати без тестування.

Важлива частина полягає в тому, що повністю згорнута архітектура здатна репрезентувати навчання, що корисно з безлічі причин. Один раз, це може зменшити або усунути інженерію функцій у вашій проблемі.

Щодо шарів FC, вони математично еквівалентні 1x1 згорткові шари. Дивіться публікацію Янна Лекуна , яку я розшифровую нижче:

У конволюційних мережах немає такого поняття, як "повністю пов'язані шари". Існують лише шари згортання з 1x1 ядрами згортки та повною таблицею з'єднань.

Це надто рідко зрозумілий факт, що ConvNets не потребує введення фіксованого розміру. Ви можете навчити їх на входах, які можуть створювати один вихідний вектор (без просторової міри), а потім застосувати їх до більших зображень. Замість одного вихідного вектора ви отримуєте просторову карту вихідних векторів. Кожен вектор бачить вікна введення в різних місцях на вході.

У цьому сценарії "повністю пов'язані шари" дійсно виступають як 1x1 згортки.


0

Якби ви знали теорему безвісного обіду (Wolpert & Macready), ви б не зациклювались на одному класифікаторі і запитали, чому це не найкраще. Теорема NFL по суті заявляє, що "у Всесвіті всіх функцій витрат немає жодного найкращого класифікатора". По-друге, продуктивність класифікатора завжди "залежить від даних".

Гидке каченя теорема (Watanabe) стверджує , по суті , що «у всесвіті всіх множин функцій, не один кращий набір функцій.»

p>н

Зважаючи на вищезазначене, як і на бритва Occam , ніколи не буває нічого кращого, ніж будь-що інше, незалежно від функції даних та витрат.

Я завжди стверджував, що CNN самі по собі не є ансамблями класифікаторів, для яких можна оцінити різноманітність (kappa vs error).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.