Алгебра ЛДА. Дискримінаційний потенціал Фішера та лінійний дискримінаційний аналіз


13

Мабуть,

Аналіз Фішера спрямований на одночасне максимальне розмежування між класом, мінімізуючи дисперсію всередині класу. Отже, корисна міра потужності дискримінації змінної дана діагональною величиною: .Bii/Wii

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

Я розумію , що розмір ( p x p) з С ( Б ) і В-класу ( W ) матриці задається числом вхідних змінних, p. З огляду на це, як може бути "корисним заходом дискримінації" однієї змінної? Щонайменше дві змінні потрібні для побудови матриць B і W, тому відповідні сліди представляли б більше однієї змінної.Bii/Wii

Оновлення: чи я маю рацію, думаючи, що - це не слід за слідом, де мається на увазі сума, а елемент матриці розділений на ? В даний час це єдиний спосіб я погодити вираз із концепцією.Bii/WiiBiiWii

Відповіді:


24

Ось коротка розповідь про лінійний дискримінантний аналіз (LDA) як відповідь на запитання.

Коли ми маємо одну змінну і групи (класи), щоб розмежовувати її, це ANOVA. Дискримінація сила змінної , або .kSSbetween groups/SSwithin groupsB/W

Коли ми маємо змінні, це MANOVA. Якщо змінні не співвідносяться ні в загальній вибірці, ні в межах груп, то вищевказана потужність дискримінації, , обчислюється аналогічно і може бути записана як , де є об'єднаною матрицею розсіювання всередині групи (тобто сума матриць SSCP змінних, зосереджена на центроїді відповідної групи); - матриця розсіювання між групою , деpB/Wtrace(Sb)/trace(Sw)Swk p x p Sb=StSwSt є матрицею розсіювання для всіх даних (SSCP-матриця змінних, орієнтованих на грандіозний центроїд. ("Матриця розсіювання" - це просто коваріаційна матриця без поділу на sample_size-1.)

Коли між змінними існує деяка кореляція - і зазвичай є -, вище виражається що вже не є скаляром, а матрицею. Це просто пов'язано з тим, що за цією "загальною" дискримінацією приховано дискримінаційні змінні та частково їх поділяють.B/WSw1Sbp

Тепер ми можемо захотіти зануритися в MANOVA та розкласти на нові та взаємно ортогональні латентні змінні (їх кількість становить ), які називаються дискримінантними функціями чи дискримінантами - 1-й. будучи найсильнішим дискримінатором, другий - наступним позаду тощо. Так само, як ми робимо це в аналізі компонентів Pricipal. Ми замінюємо оригінальні корельовані змінні некорельованими дискримінантами без втрати дискримінативної сили. Оскільки кожен наступний дискримінант стає все слабшим і слабшим, ми можемо прийняти невелику підмножину перших дискримінантів без великих втрат дискримінативної сили (знову ж таки, як ми використовуємо PCA). Це суть ЛДА щодо зменшення розмірностіSw1Sbmin(p,k1)m методика (LDA - це також метод класифікації Байєса, але це абсолютно окрема тема).

LDA, таким чином, нагадує PCA. PCA розкладає "кореляційність", LDA розкладає "відокремленість". У LDA, оскільки вищезазначена матриця, що виражає "відокремленість", не є симетричною, алгебраїчний трюк в обхідному застосуванні використовується для знаходження власних значень та власних векторів . Власне значення кожної дискримінантної функції (латентна змінна) - це її дискримінаційна сила я говорив у першому пункті. Також варто згадати, що дискримінанти, хоч і некорельовані, не є геометрично ортогональними, як осі, намальовані у вихідному просторі змінної.1B/W

Деякі потенційно пов’язані теми, які ви можете прочитати:

LDA MANOVA "поглибився" в аналіз латентної структури і є окремим випадком канонічного кореляційного аналізу (точної еквівалентності між ними як такої ). Як LDA класифікує об'єкти та які коефіцієнти Фішера. (Я посилаюсь лише на свої власні відповіді, наскільки я їх пам’ятаю, але на цьому сайті є багато хороших і кращих відповідей).


1 Обчислення фази вилучення LDA є наступними. Власні значення ( ) з такі ж, як у симетричної матриці , де є коренем Холецкого з : верхня трикутна матриця-чого . Що стосується власних векторів , вони задаються через , де - власні вектори вищевказаної матриці . (Примітка: , будучи трикутним, можна перевернутиLSw1Sb(U1)SbU1USwUU=SwSw1SbV=U1EE(U1)SbU1U- використання мови низького рівня - швидше, ніж використання стандартної загальної функції "inv" пакетів.)

Описаний спосіб вирішення методу обрізування- реалізується в деяких програмах (наприклад, у SPSS), тоді як в інших програмах реалізований метод "квазі zca-відбілювання", який, будучи лише трохи повільніше, дає ті самі результати і описано в інших місцях . Щоб узагальнити його тут: отримайте ZCA-відбілюючу матрицю для - симетричного квадратного кореня (що робиться через ейгендекомпозицію); то ейгендекомпозиція (що є симетричною матрицею) дає дискримінантні власні значення та власні вектори , завдяки чому дискримінантні власні векториSw1SbSwSw1/2Sw1/2SbSw1/2LAV=Sw1/2A. Метод "квазі zca-відбілювання" може бути переписаний, щоб це зробити за допомогою синхронічного декомпозиції величини випадкових даних замість роботи з та матрицями розсіювання; що додає обчислювальної точності (що важливо в ситуації майже сингулярності), але жертвує швидкістю.SwSb

Гаразд, перейдемо до статистики, яка зазвичай обчислюється в LDA. Канонічні кореляції, що відповідають власним значенням, . Якщо власне значення дискримінанта становить від ANOVA цього дискримінанта, то канонічна кореляція в квадраті становить (T = загальна сума квадратів) цієї ANOVA.Γ=L/(L+1)B/WB/T

Якщо ви нормалізуєте (до SS = 1) стовпці власних векторів то ці значення можна розглядати як косинуси напрямку обертання осей-змінних на осі-дискримінанти; тому з їх допомогою можна побудувати дискримінантів як осі на розсіювачі, визначені оригінальними змінними (власні вектори, як осі в просторі цих змінних, не є ортогональними).V

У нестандартизованих дискримінантних коефіцієнтах або ваги просто масштабовані власні вектори . Це коефіцієнти лінійного прогнозування дискримінантів за центрированими вихідними змінними. Значення самих дискримінантних функцій (дискримінантні бали) є , де - центрировані вихідні змінні (введення багатоваріантних даних у центрі кожного стовпця). Дискримінанти є некорельованими. При обчисленні за вищенаведеною формулою вони також мають властивість, що їх об'єднана матриця коваріації класу є матрицею ідентичності.C=Nk VXCX

Необов’язкові постійні терміни, що супроводжують нестандартні коефіцієнти і дозволяють відцентрувати дискримінантів, якщо вхідні змінні мали ненульові засоби, є , де - діагональна матриця значень p змінних, а - сума всіх змінних.C0=pdiag(X¯)Cdiag(X¯)p

У стандартизованих коефіцієнтах дискримінації внесок змінних у дискримінант регулюється тим, що змінні мають різні відхилення і можуть вимірюватися в різних одиницях; (де diag (Sw) - діагональна матриця з діагоналлю ). Незважаючи на те, що вони "стандартизовані", ці коефіцієнти можуть періодично перевищувати 1 (тому не плутайте). Якщо вхідні змінні були стандартизовані z у межах кожного класу окремо, стандартизовані коефіцієнти = нестандартні. Коефіцієнти можуть використовуватися для тлумачення дискримінантів.K=diag(Sw)VSw

Узагальнені в межах-групи кореляція ( "Структура матриця", іноді звані навантаження) між змінними і дискримінант задаються . Кореляції нечутливі до проблем колінеарності та становлять альтернативні (до коефіцієнтів) вказівки для оцінки внеску змінних та тлумачення дискримінантів.R=diag(Sw)1SwV


Дивіться повний вивід фази екстракції дискримінантного аналізу райдужної оболонки даних тут .

Прочитайте цю приємну відповідь, яка пояснює трохи формальніше та детальніше ті ж речі, що я робив тут.

Це питання стосується питання стандартизації даних перед тим, як зробити LDA.


Як сказано у вашій відповіді, в основному LDA використовується для зменшення розмірів, але якщо мета - лише класифікація, ми можемо просто використовувати підхід Байєса, правда? Але якщо метою є зменшення розмірів, тоді ми повинні скористатися підходом Фішера, щоб знайти ті напрямки, за якими ми будемо проектувати оригінальний вхід , правда? X
авокадо

1
Так. Однак слово "підхід Фішера" неоднозначне. Це може означати 2 речі: 1) LDA (для 2 класу) себе ; 2) Класифікаційні функції Фішера в LDA.
ttnphns
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.