Лінійний дискримінантний аналіз та правило Байєса: класифікація


12

Яке відношення між лінійним дискримінантним аналізом та правилом Байєса? Я розумію, що LDA використовується в класифікації, намагаючись мінімізувати співвідношення між груповою дисперсією та між дисперсією групи, але я не знаю, як в ній використовується правило Байєса.


Дискримінантні функції витягуються таким чином, щоб максимізувати відхилення між групами до коефіцієнта варіації в межах групи. Це не має нічого спільного з класифікацією, яка є другим та окремим етапом LDA.
ttnphns

Відповіді:


16

Класифікація LDA йде наступним чином (підхід до правила Байєса). [Про вилучення дискримінантів можна подивитися тут .]

Відповідно до теореми Байєса, шукана ймовірність того, що ми маємо справу з класом , спостерігаючи в даний час точку є , деx P ( k | x ) = P ( k ) P ( x | k ) / P ( x )kxP(k|x)=P(k)P(x|k)/P(x)

k P ( x ) x P ( x | k ) x k kP(k) - безумовна (фонова) ймовірність класу ; - безумовна (фонова) ймовірність точки ; - ймовірність присутності точки у класі , якщо клас, що знаходиться у виправі, дорівнює .kP(x)xP(x|k)xkk

"Спостереження в даний час точки " є базовою умовою, , і знаменник можна опустити. Таким чином, .P ( x ) = 1 P ( k | x ) = P ( k ) P ( x | k )xP(x)=1P(k|x)=P(k)P(x|k)

x k P ( k ) P ( k ) P ( k | x ) x k P ( x | k )P(k) - це попередня (доаналітична) ймовірність того, що нативний клас для дорівнює ; задається користувачем. Зазвичай за замовчуванням всі класи отримують рівні = 1 / number_of_classes. Для того, щоб обчислити , тобто задню (пост-аналітичну) ймовірність того, що нативний клас для дорівнює , слід знати .xkP(k)P(k)P(k|x)xkP(x|k)

P ( x | k ) x k P D F ( x | k ) p pP(x|k) - ймовірність сама по собі - не можна знайти для дискримінантів, головним питанням LDA є суцільні, а не дискретні змінні. Кількість, що виражає у цьому випадку та пропорційна їй - щільність ймовірності (функція PDF). Цим нам потрібно обчислити PDF для точки у класі , у -вимірному нормальному розподілі, утвореному значеннями дискримінантів. [Див. Багатовимірний звичайний розподіл у Вікіпедії]P(x|k)xkPDF(x|k)pp

PDF(x|k)=ed/2(2π)p/2|S|)

де - квадратна відстань махаланобіса [Див. Вікіпедія Махаланобіська відстань] у просторі дискримінантів від точки до центру класу; - коваріаційна матриця між дискримінантами , що спостерігається в межах цього класу.x SdxS

Обчисліть таким чином для кожного з класів. для точки та класу виражають шукане для нас . Але з вищезазначеним резервом, що PDF не є ймовірністю сама по собі, лише пропорційною їй, ми повинні нормалізувати , поділяючи на суму s над усіма класами. Наприклад, якщо всього 3 класи, , , , тоPDF(x|k)P(k)PDF(x|k)xkP(k)P(x|k)P(k)PDF(x|k)P(k)PDF(x|k)klm

P(k|x)=P(k)PDF(x|k)/[P(k)PDF(x|k)+P(l)PDF(x|l)+P(m)PDF(x|m)]

Точка LDA присвоюється класу, для якого є найвищим.xP(k|x)

Примітка. Це був загальний підхід. Багато програм LDA за замовчуванням використовують об'єднану матрицю класу для всіх класів у формулі для PDF вище. Якщо так, формула значно спрощується, оскільки таке у LDA є матрицею ідентичності (див. Нижню виноску тут ), а отже, і перетворюється на евклідову відстань у квадраті (нагадування: об'єднане в межах класу ми говоримо, - це коваріації між дискримінантами, а не між вхідними змінними, матриця яких зазвичай позначається як ).SS|S|=1dSSw

Доповнення . Перед тим, як вищевказаний підхід до правила класифікації Байєса був введений в LDA, Фішер, піонер LDA, запропонував обчислити так звані функції лінійної класифікації Фішера для класифікації точок у LDA. Для точки оцінка функції приналежності до класу є лінійною комбінацією , де є змінними провісника в аналізі.xkbkv1V1x+bkv2V2x+...+ConstkV1,V2,...Vp

Коефіцієнт , - кількість класів, а - елемент об'єднаного розсіювача класу матриця змінних.bkv=(ng)wpsvwV¯kwgsvwp V

Constk=log(P(k))(vpbkvV¯kv)/2 .

Точка присвоюється класу, для якого її бал є найвищим. Результати класифікації, отримані цим методом Фішера (який обходить вилучення дискримінантів, що беруть участь у складному ейгендекомпозиції), ідентичні тим, отриманим методом Байєса, лише якщо об'єднана матриця коваріації класу використовується методом Байєса на основі дискримінантів (див. "Примітка" вище), і всі дискримінанти використовуються в класифікації. Метод Байєса є більш загальним, оскільки він дозволяє використовувати і окремі матриці класу.x


Це байєсівський підхід? Який підхід Фішера до цього?
zca0

1
Додано до відповіді на ваш запит
ttnphns

+1 для розрізнення підходу ЛДА Байєса та Фішера. Я новачок в LDA, і книги, які я читаю, вчать мене LDA в підході Байєса, який класифікує до класу з найвищим , тому мені доведеться обчислити всі для кожного класу , правда? За підходом Фішера мені просто потрібно з'ясувати дискримінантів та їх відповідних кофе, і не потрібно обчислювати задній для кожного класу, правда? K p ( K | X ) p ( K | X ) KXKp(K|X)p(K|X)K
авокадо

І я вважаю, що підхід Байєса є більш зрозумілим, і навіщо нам використовувати підхід Фішера?
авокадо

Нам це не потрібно. Тільки для історичної справи.
ttnphns

1

Припустимо рівні ваги для двох типів помилок у задачі двох класів. Припустимо, два класи мають умовну щільність класу багатовимірних класифікаційних змінних. Тоді для будь-якого спостережуваного вектора та класової умовної щільності та правило Байєса класифікує як належність до групи 1, якщо і як клас 2 в іншому випадку. Правило Байєса виявляється лінійним дискримінантним класифікатором, якщо іf 1 ( x ) f 2 ( x ) x f 1 ( x ) f 2 ( x ) f 1 f 2xf1(x)f2(x)xf1(x)f2(x)f1f2обидві багатоваріантні нормальні щільності з однаковою матрицею коваріації. Звичайно, щоб можна було з користю розрізнити середні вектори, повинні бути різними. Приємне уявлення про це можна знайти в класифікації та аналізу сцени Дуда та Харт 1973 року (книга нещодавно була переглянута, але особливо мені подобається презентація в оригінальному виданні).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.