Як може працювати багатокласний перцептрон?


13

У математики я не маю жодного фону, але я розумію, як працює простий Perceptron, і я думаю, що я розумію концепцію гіперплана (я уявляю це геометрично як площину в тривимірному просторі, яка відокремлює дві точкові хмари, подібно до того, як лінія відокремлена. дві точкові хмари у двовимірному просторі).

Але я не розумію, як одна площина або одна лінія могли розділити три різні хмари точок у тривимірному просторі або у 2D просторі, відповідно - це геометрично неможливо, чи не так?

Я намагався зрозуміти відповідний розділ у статті Вікіпедії , але вже невдало виправдався у реченні «Тут вхідні дані x та вихід y виведені з довільних множин». Чи може хтось пояснити мені багатокласний перцептрон і як це іде з ідеєю гіперплана, чи, можливо, вказує мені на не дуже математичне пояснення?

Відповіді:


8

Припустимо, у нас є дані де x iR n - вхідні вектори, а y i{ червоний, синій, зелений } - класифікації.(x1,y1),,(xk,yk)xiRnyi{red, blue, green}

Ми знаємо, як створити класифікатор бінарних результатів, тому робимо це три рази: групуємо результати разом, , { синій, червоний чи зелений } та { зелений, синій чи червоний } .{red, blue or green}{blue, red or green}{green, blue or red}

Кожна модель набирає вигляду функції , назвемо їх F R , F B , F G відповідно. Це приймає вхідний вектор підписаним відстані від гиперплоскости , асоційованої з кожною моделлю, де позитивні відстань відповідає прогнозу синього , якщо F B , червоною , якщо F R і зелений , якщо F G . В основному чим позитивніший f G ( x ) , тим більше модель вважає, що xf:RnRfR,fB,fGfBfRfGfG(x)xзелений, і навпаки. Нам не потрібно, щоб результат був імовірним, нам просто потрібно вміти вимірювати, наскільки впевнена модель.

Давши вхід , класифікуємо його відповідно до argmax c f c ( x ) , тож якщо f G ( x ) є найбільшим серед { f G ( x ) , f B ( x ) , f R ( x ) } , передбачити зелений для x .xargmaxc fc(x)fG(x){fG(x),fB(x),fR(x)}x

Ця стратегія називається "один проти всіх", і про неї ви можете прочитати тут .


3

Я взагалі не можу зрозуміти цю статтю Wiki. Ось альтернативний замах на його пояснення.

p1p

pi1i=(1,2)pi

mm+1


Ви впевнені, що вихід є фактичною ймовірністю? У всякому разі, я не знаю, як працює багаточленна логістична регресія, тому мені доведеться розібратися в цьому. Але чи не існує (алгоритмічний) спосіб пояснити, як будується перцептрон з двома або більше вихідними вузлами? Вони якось прикуті разом?
wnstnsmth
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.