По суті, моє питання полягає в тому, що в багатошарових перцептронах персептрони використовуються з функцією активації сигмоїдів. Так що в правилі поновлення у обчислюється як
Чим цей «сигмоїдний» Перцепцепрон відрізняється від логістичної регресії тоді?
Я б сказав , що одношаровий персептрон сигмовидної еквівалентно логістичної регресії в тому сенсі , що обидва використовують у = 1 у правилі оновлення. Крім, як зворотнийв передбаченні. Однак у багатошарових перцептронах функція активації сигмоїдів використовується для повернення ймовірності, а не сигналу вимкнення на відміну від логістичної регресії та одношарового персептрона.
Я думаю, що використання терміна "Perceptron" може бути дещо неоднозначним, тому дозвольте навести деякий фон, який базується на моєму теперішньому розумінні щодо одношарових перцептронів:
Класичне правило перцептрона
По-перше, класичний перцептрон Ф. Розенблатта, де у нас є ступінчаста функція:
оновити ваги
Так що у розраховується як
Спуск градієнта
За допомогою градієнтного спуску ми оптимізуємо (мінімізуємо) функцію витрат
там, де у нас є "реальні" числа, тому я бачу це в основному аналогічно лінійній регресії з тією різницею, що вихід нашого класифікації є пороговим.
Тут ми робимо крок у негативному напрямку градієнта, коли оновлюємо ваги
Але тут ми маємо у = ш Т х я замість у = знак ( ш Т х I )
Крім того, ми обчислюємо суму помилок у квадраті за повний прохід по всьому навчальному набору даних (у режимі пакетного навчання) на відміну від класичного правила перцептрон, яке оновлює ваги по мірі надходження нових зразків тренувань (аналог стохастичному градієнту спуску - онлайн навчання).
Функція активації сигмоїдів
Тепер ось моє питання:
У багатошарових перцептронах використовуються персептрони з функцією активації сигмоїдів. Так що в правилі поновлення у обчислюється як
Чим цей «сигмоїдний» Перцепцепрон відрізняється від логістичної регресії тоді?