Одношаровий NeuralNetwork з активацією ReLU, рівним SVM?


10

Припустимо, я маю просту одношарову нейронну мережу з n входами та одним виходом (завдання бінарної класифікації). Якщо я встановив функцію активації у виходному вузлі як сигмоподібну функцію, то результат - класифікатор логістичної регресії.

У цьому ж сценарії, якщо я зміню активацію виводу на ReLU (випрямлена лінійна одиниця), то отримана структура така ж, як і схожа на SVM?

Якщо ні, чому?


чи є у вас гіпотеза, чому це може бути так? Причина того, що єдиний перцептрон = логістичний саме через активацію - вони по суті є однією і тією ж моделлю, математично (хоча можливо тренується інакше) - лінійні ваги + сигмоїд, застосований до множення матриці. SVM працюють зовсім інакше - вони шукають найкращої лінії для розділення даних - вони геометричніші, ніж "вагомі" / "матрикси". Для мене немає нічого про ReLU, що повинно змусити мене думати = ах, вони однакові для SVM. (логістичний та лінійний svm, як правило, виконують дуже схоже)
metjush

ціль max-запасу svm та функція активації relu виглядають однаково. Звідси питання.
AD

"SVM працюють зовсім інакше - вони шукають найкращої лінії для розділення даних. Вони геометричніші, ніж" вагомі "/" матрикси ". Це трохи ручно-хвилясті - ВСІ лінійні класифікатори шукають найкращої лінії для розділення даних, включаючи логістичну регресію і персептрон.
AD

Відповіді:


11

Можливо, те, що ви змушуєте думати про ReLU, - це втрата шарніру SVM, але втрата не обмежує функцію активації виводу негативною (ReLU).E=max(1ty,0)

Щоб втрата мережі була в тому ж вигляді, що і SVM, ми можемо просто видалити будь-які нелінійні функції активації з вихідного шару та використовувати втрату шарніру для зворотного розповсюдження.

Більше того, якщо ми замінимо втрату шарніру на (що виглядає як плавна версія втрати шарніру), то ми будемо робити логістичну регресію як типову сигмоподібну + крос-ентропійні мережі. Це можна вважати переміщенням сигмоїдної функції від вихідного шару до втрати.E=ln(1+exp(ty))

Отже, з точки зору функцій втрат, SVM та логістична регресія є досить близькими, хоча SVM використовують зовсім інший алгоритм для тренувань і умовиводів, заснований на векторах підтримки.

У розділі 7.1.2 книги Розпізнавання візерунків та машинного навчання є хороша дискусія про співвідношення SVM та логістичної регресії .

введіть тут опис зображення


дякую за вказівку на книгу. Тож я отримую відчуття, що крім функцій активації, реальна різниця полягає в алгоритмах оптимізації, що використовуються. Для LR ми можемо використовувати простий безперешкодний градієнтний спуск, тоді як у SVM ми зазвичай вирішуємо обмежену оптимізацію.
AD
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.