Як LDA, класифікаційна техніка, також виконує функції зменшення розмірності, як PCA


20

У цій статті автор пов'язує лінійний дискримінантний аналіз (LDA) з аналізом основних компонентів (PCA). Зі своїми обмеженими знаннями я не в змозі простежити, як LDA може бути дещо схожим на PCA.

Я завжди вважав, що LDA - це форма алгоритму класифікації, схожа на логістичну регресію. Я буду вдячний за допомогу в розумінні того, наскільки LDA схожий на PCA, тобто як це техніка зменшення розмірності.


2
Не правильно називати LDA лише технікою класифікації. Це складна двоступенева техніка: спочатку зменшіть розмірність, а потім класифікуйте. У міру зменшення розмірності він контролюється, на відміну від PCA. В якості класифікації він розглядає граничну ймовірність, на відміну від логістичної регресії.
ttnphns

Найбільш зрозуміло використовувати термін «зменшення розмірності», щоб мати справу лише з непідконтрольними методами навчання, наприклад, кластеризацією та аналізом надмірності. LDA суворо керується навчанням, тому це створило б вигідне упередження, якби воно було використано на першому кроці скорочення даних.
Френк Харрелл

Старіше дуже схоже запитання: stats.stackexchange.com/q/22884/3277 .
ttnphns

1
Френк, на 1-му етапі LDA можна застосувати різні стратегії, наприклад, вибору особливостей (включаючи ступінчастий підхід, що не відповідає вам :-).
ttnphns

Відповіді:


23

Як я зазначив у коментарі до вашого запитання, дискримінаційний аналіз - це складна процедура з двома різними стадіями - зменшення розмірності (під наглядом) та етап класифікації. При зменшенні розмірності ми отримуємо дискримінантні функції, які замінюють вихідні пояснювальні змінні. Тоді ми класифікуємо (зазвичай за підходом Байєса) спостереження до класів, використовуючи ці функції.

Деякі люди, як правило, не визнають цього чіткого двоступеневого характеру LDA просто тому, що вони ознайомилися лише з LDA з 2 класів (називається дискримінантним аналізом Фішера ). У такому аналізі існує лише одна дискримінантна функція, і класифікація є простою, і тому все можна пояснити в підручнику за один "пропуск", не запрошуючи понять зменшення простору та класифікацію Байєса.

LDA тісно пов'язаний з MANOVA. Остання є "поверхневою та широкою" стороною (багатоваріантної) лінійної моделі, тоді як "глибинна та зосереджена" картина її - це канонічний кореляційний аналіз (CCA). Вся справа в тому, що кореляція між двома багатовимірними наборами змінних не є одновимірною і пояснюється кількома парами "прихованих" змінних, званих канонічними змінними.

Як зменшення розмірності, LDA є теоретично собою CCA з двома наборами змінних, один набір є співвіднесеними "пояснювальними" змінними інтервалу, а інший - манекенними (або іншими кодованими контрастними) змінними, що представляють k групи, класи спостережень.к-1к

У CCA ми розглядаємо два корельовані множини змінних X і Y як рівні в правах. Тому ми витягуємо канонічні змінні з обох сторін, і вони утворюють пари: змінна 1 з множини X і змінна 1 з множини Y з канонічною кореляцією між ними максимальна; потім змінна 2 з множини X і змінна 2 з множини Y з меншою канонічною кореляцією і т. д. У LDA нас, як правило, чисельно не цікавлять канонічні змінні зі сторони класу; проте ми цікавимося канонічними змінними з боку пояснювальної множини. Вони називаються канонічними дискримінантними функціями або дискримінантами .

Дискримінанти - це те, що максимально співвідноситься з "лініями" роздільності між групами. Дискримінант 1 пояснює основну частину відокремленості; дискримінант 2 вибирає частину відокремленості, яка залишилася незрозумілою через ортогональність попередньої окремості; descriminat 3 пояснює ще деякий залишок ортогональної відокремленості від попередніх двох тощо. У LDA з вхідними змінними (розмірами) та k класами можлива кількість дискримінантів (зменшені розміри) становить m i npкмiн(к-1,p)див. ).

Повторюся, це насправді за своєю природою CCA. LDA з 3+ класами навіть називають "канонічним LDA". Незважаючи на те, що CCA та LDA , як правило, реалізуються алгоритмічно дещо по-різному, з точки зору ефективності програми вони достатньо «однакові», щоб можна було перерахувати результати (коефіцієнти тощо), отримані в одній процедурі, на ті, що отримані в іншій. Більша частина специфіки LDA полягає в області кодування категоричних змінних, що представляють групи. Це та сама дилема, яка спостерігається в (M) ANOVA. Різні схеми кодування призводять до різних способів інтерпретації коефіцієнтів.

Оскільки LDA (як зменшення розмірності) можна розуміти як окремий випадок CCA, ви, безумовно, повинні вивчити цю відповідь, порівнюючи CCA з PCA та регресією. Основний момент полягає в тому, що CCA є, в певному сенсі, ближчим до регресії, ніж до PCA, оскільки CCA є контрольованою технікою (латентна лінійна комбінація витягується для кореляції з чимось зовнішнім), а PCA - ні (малюється латентна лінійна комбінація підсумувати внутрішнє). Це дві гілки зменшення розмірності.

Якщо мова йде про математику, ви можете виявити, що хоча дисперсії основних компонентів відповідають власним значенням хмари даних (матриця коваріації між змінними), відхилення дискримінантів не так чітко пов'язані з тими власними значеннями, які виробляються в LDA. Причина полягає в тому, що в LDA власні значення не підсумовують форму хмари даних; скоріше, вони стосуються абстрактної кількості відношення між класом до зміни класу в хмарі.

Отже, основні компоненти максимізують дисперсію, а дискримінанти максимально розділяють клас; простий випадок, коли ПК не досить добре розрізняє класи, але дискримінант може це ці зображення. Якщо малювати як лінії в оригінальному просторі, дискримінанти зазвичай не виглядають ортогональними (все-таки некорельованими), але ПК.


Виноска для ретельного. Як, за їх результатами, LDA точно пов'язаний із CCA . Повторимо: якщо ви LDA з pзмінними і kкласами , і ви CCA з Set1 як ті pзмінні і Set2 як k-1індикатор фіктивних змінних , що представляють групи ( на насправді, не обов'язково індикаторні змінні - інші типи контрастних змінних, таких як відхилення або Хелмерта - буде робити ), то результати є еквівалентними щодо канонічних змінних, витягнутих для Set1 - вони безпосередньо відповідають дискримінантним функціям, витягнутим у LDA. Яке точне співвідношення?

jj

Стандартизований коефіцієнт CCAКоефіцієнт сировини LDA=Канонічне значення змінної CCAДискримінантне значення LDA=об'єднаний у межах дисперсії класу у змінній об'єднані в межах відмінності класів у дискримінанта

n-11

об'єднаний у межах дисперсії класу у змінній
вул. відхилення дискримінантаσ щоб отримати результати CCA.

Різниця між CCA та LDA пов'язана з тим, що LDA "знає", що існують класи (групи): ви безпосередньо вказуєте групи для обчислення матриць розсіяння всередині та між ними. Це робить як обчислення швидшими, так і результати зручнішими для наступних класифікації дискримінантами. CCA, з іншого боку, не знає класів і обробляє дані так, ніби всі вони були суцільними змінними - що є більш загальним, але повільнішим способом обчислення. Але результати рівноцінні, і я показав, як.

Поки малося на увазі, що k-1манекени вводяться CCA типовим способом, тобто в центрі (як і змінні Set1). Можна запитати, чи можна вводити всі kманекени і не зосереджувати їх (щоб уникнути сингулярності)? Так, це можливо, хоча і, мабуть, менш зручно. З'явиться нульове значення власного значення канонічної змінної, коефіцієнти для якої слід викинути. Інші результати залишаються дійсними. За винятком df s для перевірки значущості канонічних кореляцій. Df для 1-ї кореляції буде p*kнеправильним, і справжній df, як у LDA, є p*(k-1).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.