Підходи Байєсіана та Фішера до лінійного дискримінантного аналізу


10

Я знаю 2 підходи до виконання LDA, байєсівський підхід і підхід Фішера .

Припустимо, ми маємо дані , де - -вимірний предиктор, а - залежна змінна класів.(x,y)xpyK

За байєсівським підходом ми обчислюємо задній , і сказано в книгах, припустимо, є Гауссом, тепер у нас є дискримінантна функція для го класу як , я можу побачити - лінійна функція , тому для всіх класів ми маємо лінійні дискримінантні функції.

p(yk|x)=p(x|yk)p(yk)p(x)p(x|yk)p(yk)
p(x|yk)k
fk(x)=lnp(x|yk)+lnp(yk)=ln[1(2π)p/2|Σ|1/2exp(12(xμk)TΣ1(xμk))]+lnp(yk)=xTΣ1μk12μkTΣ1μk+lnp(yk)
fk(x)xKK

Однак, за підходу Фішера , ми намагаємось спроектувати розмірний простір від до для отримання нових функцій, що мінімізує дисперсію в межах класу та максимізує дисперсію між класом , скажімо, матриця проекцій становить а кожен стовпець є проекцією напрямок. Цей підхід більше схожий на техніку зменшення розмірів .x(K1)W

Мої запитання є

(1) Чи можемо ми зменшити розмірність за допомогою байєсівського підходу? Я маю на увазі, ми можемо використовувати байєсівський підхід для класифікації шляхом пошуку дискримінантних функцій що дає найбільше значення для нового , але чи можна ці дискримінантні функції використовувати для проектування на нижній розмірний підпростір ? Як і підхід Фішера .fk(x)xfk(x)x

(2) Чи співвідносяться два підходи між собою? Я не бачу ніякого відношення між ними, оскільки одне, здається, просто може класифікувати зі значенням , а інше в першу чергу спрямоване на зменшення розмірів.fk(x)

ОНОВЛЕННЯ

Завдяки @amoeba, згідно з книгою ESL, я виявив це: введіть тут опис зображення

і це лінійна дискримінантна функція, отримана через теорему Байеса плюс припущення, що всі класи мають однакову матрицю коваріації . І ця дискримінантна функція є однаковою, як та, яку я писав вище .f k ( x )Σfk(x)

Чи можу я використовувати як напрямок, на який проектувати , щоб зробити зменшення розмірів? Я не впевнений у цьому, оскільки AFAIK зменшення розмірів досягається шляхом аналізу дисперсії між внутрішніми . xΣ1μkx

ОНОВЛЕННЯ ПРОТИ

З розділу 4.3.3, таким чином отримані такі прогнози:

введіть тут опис зображення

і, звичайно, він передбачає спільну коваріацію між класами, тобто загальну коваріаційну матрицю (для коваріації в межах класу)W , правда? Моя проблема полягає в тому, як я обчислюю цей з даних? Оскільки я мав би різних матриць коваріації в класі, якщо я спробую обчислити з даних. Тож я повинен об'єднати коваріацію всіх класів разом, щоб отримати загальну?К ШWKW


1
Ви запитуєте, поєднує дві речі. Я думаю, ви не переварили нашу розмову за попереднім запитанням. Перше, що ви описуєте, - баєсовський підхід до класифікації (а не "баєсовський підхід до LDA"). Цей підхід може бути використаний (1) з оригінальними змінними як класифікатори або (2) з дискримінантами, отриманими в LDA як класифікатори. Який тоді підхід Фішера?
ttnphns

1
(Проти.) Ну, "LDA Fisher" - це просто LDA з K = 2. Роблячи класифікацію в межах такої LDA, Фішер винайшов власні формули класифікації. Ці формули можуть працювати і для K> 2. Його метод класифікації в даний час майже не використовується, оскільки підхід Байєса є більш загальним.
ttnphns

1
@ttnphns, причина мене збиває з пантелику в тому, що майже в кожній книзі, яку я згадував, говорили про ЛДА, використовуючи цей байєсівський підхід, читаючи лекцію ЛДА як генеративну модель, вони не згадують про співвідношення між дисперсією між групами та в межах групи .
авокадо

1
@loganecolss: Ви бачили мою відповідь нижче? У вас є якісь запитання щодо цього? Я трохи розгублений, бо думав, що пояснив те, про що ви зараз запитуєте, знову в коментарях. Підхід "між внутрішньою дисперсією" математично еквівалентний "байєсівському підходу" з припущенням рівних коваріацій. Ви можете подумати про це як дивовижну математичну теорему, якщо хочете. Доказ наведений у книзі Хасті, яка є у вільному доступі в Інтернеті, а також у деяких інших підручниках з машинного навчання. Тож я не впевнений, що може означати "єдиний автентичний спосіб зробити LDA"; ці два однакові способи.
амеба

1
@loganecolss: Повірте, вони рівноцінні :) Так, ви повинні мати можливість отримувати прогнози, але вам потрібно додаткове припущення про рівні матриці коваріації (як я писав у своїй відповіді). Дивіться мій коментар нижче.
амеба

Відповіді:


11

Я надам лише коротку неформальну відповідь і посилаюсь на вас у розділі 4.3 Елементи статистичного навчання для детальної інформації.

Оновлення: "Елементи" дуже детально висвітлюють саме ті запитання, які ви тут задаєте, включаючи те, що ви написали у своєму оновленні. Відповідний розділ - 4.3, зокрема 4.3.2-4.3.3.

(2) Чи співвідносяться два підходи між собою?

Вони, звичайно, так і роблять. Те, що ви називаєте "баєсівським" підходом, є більш загальним і передбачає лише гауссові розподіли для кожного класу. Ваша ймовірність функція - це по суті відстань махаланобіса від до центру кожного класу.x

Ви, звичайно, праві, що для кожного класу це лінійна функція . Однак зауважте, що співвідношення ймовірностей для двох різних класів (які ви збираєтеся використовувати для виконання фактичної класифікації, тобто вибирати між класами) - це співвідношення не буде лінійним у якщо різні класи мають різні коваріаційні матриці. Насправді, якщо розробити межі між класами, вони виявляться квадратичними, тому це також називається квадратичним дискримінантним аналізом , QDA.хxx

Важливе розуміння полягає в тому, що рівняння значно спрощуються, якщо припускати, що всі класи мають однакову коваріацію [ Оновлення: якби ви припускали це все разом, це могло бути частиною непорозуміння] . У такому випадку межі рішення стають лінійними, і саме тому цю процедуру називають лінійним дискримінантним аналізом, LDA.

Потрібні деякі алгебраїчні маніпуляції, щоб зрозуміти, що в цьому випадку формули фактично стають абсолютно еквівалентними тим, що Фішер розробив, використовуючи свій підхід. Подумайте про це як математичну теорему. Дивіться підручник Хасті про всю математику.

(1) Чи можемо ми зменшити розмірність за допомогою байєсівського підходу?

Якщо під "байєсівським підходом" ви маєте на увазі справу з різними матрицями коваріації в кожному класі, то ні. Принаймні, це не буде лінійним зменшенням розмірності (на відміну від LDA) через те, що я писав вище.

Однак якщо ви раді прийняти загальну коваріаційну матрицю, то так, звичайно, тому що "байєсівський підхід" просто еквівалентний LDA. Однак якщо ви перевірите Hastie 4.3.3, ви побачите, що правильні прогнози не подано як ви писали (я навіть не розумію, що це повинно означати: ці прогнози залежать від , і що зазвичай розуміється під проекцією, це спосіб проектування всіх точок з усіх класів на одне і те ж низькомірне колектор), але спочатку [узагальненими] власними векторами , де - матриця коваріації центроїдів класу . доΣ1μkkΣ1MMμk


1
+1. Я можу посилатись також на власну відповідь, згадуючи QDA stats.stackexchange.com/a/71571/3277 .
ttnphns

+1 для частини вирішення мого питання 2). Я знаю, що, роблячи аналіз між дисперсіями в межах , я міг знайти найкращі вказівки для проектування оригінальної змінної та отримання цих дискримінантів. З чим я зараз боюсь, чи можу я знайти ці напрямки проекції за допомогою Байесіана, не звертаючись до співвідношення дисперсії між усередині ? X
авокадо

@loganecolss: Як я вже сказав, потрібно додатково припустити, що всі класи мають однакову матрицю коваріації! Тоді, починаючи з байєсівського підходу + це припущення, ви можете отримати стандартні прогнози LDA. Ідея полягає у діагоналізації . Про це детально написано в «Елементах статистичного навчання», розділ 4.3. Σ
амеба

Я прочитаю цей розділ пізніше. Як ви сказали, якщо припустити, що всі класи мають однакову коваріаційну матрицю, я можу отримати функцію, яку я написав у своєму , правда? І справді лінійна функція , і згідно з вашим коментарем, має бути матрицею проекцій LDA? fk(x)fk(x)xΣ1μk
авокадо

Я оновлюю свій пост, додаючи кліп розділу 4.3
авокадо
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.