Ось коротка розповідь про лінійний дискримінантний аналіз (LDA) як відповідь на запитання.
Коли ми маємо одну змінну і групи (класи), щоб розмежовувати її, це ANOVA. Дискримінація сила змінної , або .kSSbetween groups/SSwithin groupsB/W
Коли ми маємо змінні, це MANOVA. Якщо змінні не співвідносяться ні в загальній вибірці, ні в межах груп, то вищевказана потужність дискримінації, , обчислюється аналогічно і може бути записана як , де є об'єднаною матрицею розсіювання всередині групи (тобто сума матриць SSCP змінних, зосереджена на центроїді відповідної групи); - матриця розсіювання між групою , деpB/Wtrace(Sb)/trace(Sw)Swk p x p
Sb=St−SwSt є матрицею розсіювання для всіх даних (SSCP-матриця змінних, орієнтованих на грандіозний центроїд. ("Матриця розсіювання" - це просто коваріаційна матриця без поділу на sample_size-1.)
Коли між змінними існує деяка кореляція - і зазвичай є -, вище виражається що вже не є скаляром, а матрицею. Це просто пов'язано з тим, що за цією "загальною" дискримінацією приховано дискримінаційні змінні та частково їх поділяють.B/WS−1wSbp
Тепер ми можемо захотіти зануритися в MANOVA та розкласти на нові та взаємно ортогональні латентні змінні (їх кількість становить ), які називаються дискримінантними функціями чи дискримінантами - 1-й. будучи найсильнішим дискримінатором, другий - наступним позаду тощо. Так само, як ми робимо це в аналізі компонентів Pricipal. Ми замінюємо оригінальні корельовані змінні некорельованими дискримінантами без втрати дискримінативної сили. Оскільки кожен наступний дискримінант стає все слабшим і слабшим, ми можемо прийняти невелику підмножину перших дискримінантів без великих втрат дискримінативної сили (знову ж таки, як ми використовуємо PCA). Це суть ЛДА щодо зменшення розмірностіS−1wSbmin(p,k−1)m методика (LDA - це також метод класифікації Байєса, але це абсолютно окрема тема).
LDA, таким чином, нагадує PCA. PCA розкладає "кореляційність", LDA розкладає "відокремленість". У LDA, оскільки вищезазначена матриця, що виражає "відокремленість", не є симетричною, алгебраїчний трюк в обхідному застосуванні використовується для знаходження власних значень та власних векторів . Власне значення кожної дискримінантної функції (латентна змінна) - це її дискримінаційна сила я говорив у першому пункті. Також варто згадати, що дискримінанти, хоч і некорельовані, не є геометрично ортогональними, як осі, намальовані у вихідному просторі змінної.1B/W
Деякі потенційно пов’язані теми, які ви можете прочитати:
LDA MANOVA "поглибився" в аналіз латентної структури і є окремим випадком канонічного кореляційного аналізу (точної еквівалентності між ними як такої ).
Як LDA класифікує об'єкти та які коефіцієнти Фішера. (Я посилаюсь лише на свої власні відповіді, наскільки я їх пам’ятаю, але на цьому сайті є багато хороших і кращих відповідей).
1 Обчислення фази вилучення LDA є наступними. Власні значення ( ) з такі ж, як у симетричної матриці , де є коренем Холецкого з : верхня трикутна матриця-чого . Що стосується власних векторів , вони задаються через , де - власні вектори вищевказаної матриці . (Примітка: , будучи трикутним, можна перевернутиLS−1wSb(U−1)′SbU−1USwU′U=SwS−1wSbV=U−1EE(U−1)′SbU−1U- використання мови низького рівня - швидше, ніж використання стандартної загальної функції "inv" пакетів.)
Описаний спосіб вирішення методу обрізування- реалізується в деяких програмах (наприклад, у SPSS), тоді як в інших програмах реалізований метод "квазі zca-відбілювання", який, будучи лише трохи повільніше, дає ті самі результати і описано в інших місцях . Щоб узагальнити його тут: отримайте ZCA-відбілюючу матрицю для - симетричного квадратного кореня (що робиться через ейгендекомпозицію); то ейгендекомпозиція (що є симетричною матрицею) дає дискримінантні власні значення та власні вектори , завдяки чому дискримінантні власні векториS−1wSbSwS−1/2wS−1/2wSbS−1/2wLAV=S−1/2wA. Метод "квазі zca-відбілювання" може бути переписаний, щоб це зробити за допомогою синхронічного декомпозиції величини випадкових даних замість роботи з та матрицями розсіювання; що додає обчислювальної точності (що важливо в ситуації майже сингулярності), але жертвує швидкістю.SwSb
Гаразд, перейдемо до статистики, яка зазвичай обчислюється в LDA. Канонічні кореляції, що відповідають власним значенням, . Якщо власне значення дискримінанта становить від ANOVA цього дискримінанта, то канонічна кореляція в квадраті становить (T = загальна сума квадратів) цієї ANOVA.Γ=L/(L+1)−−−−−−−−−√B/WB/T
Якщо ви нормалізуєте (до SS = 1) стовпці власних векторів то ці значення можна розглядати як косинуси напрямку обертання осей-змінних на осі-дискримінанти; тому з їх допомогою можна побудувати дискримінантів як осі на розсіювачі, визначені оригінальними змінними (власні вектори, як осі в просторі цих змінних, не є ортогональними).V
У нестандартизованих дискримінантних коефіцієнтах або ваги просто масштабовані власні вектори . Це коефіцієнти лінійного прогнозування дискримінантів за центрированими вихідними змінними. Значення самих дискримінантних функцій (дискримінантні бали) є , де - центрировані вихідні змінні (введення багатоваріантних даних у центрі кожного стовпця). Дискримінанти є некорельованими. При обчисленні за вищенаведеною формулою вони також мають властивість, що їх об'єднана матриця коваріації класу є матрицею ідентичності.C=N−k−−−−−√ VXCX
Необов’язкові постійні терміни, що супроводжують нестандартні коефіцієнти і дозволяють відцентрувати дискримінантів, якщо вхідні змінні мали ненульові засоби, є , де - діагональна матриця значень p змінних, а - сума всіх змінних.C0=−∑pdiag(X¯)Cdiag(X¯)∑p
У стандартизованих коефіцієнтах дискримінації внесок змінних у дискримінант регулюється тим, що змінні мають різні відхилення і можуть вимірюватися в різних одиницях; (де diag (Sw) - діагональна матриця з діагоналлю ). Незважаючи на те, що вони "стандартизовані", ці коефіцієнти можуть періодично перевищувати 1 (тому не плутайте). Якщо вхідні змінні були стандартизовані z у межах кожного класу окремо, стандартизовані коефіцієнти = нестандартні. Коефіцієнти можуть використовуватися для тлумачення дискримінантів.K=diag(Sw)−−−−−−−−√VSw
Узагальнені в межах-групи кореляція ( "Структура матриця", іноді звані навантаження) між змінними і дискримінант задаються . Кореляції нечутливі до проблем колінеарності та становлять альтернативні (до коефіцієнтів) вказівки для оцінки внеску змінних та тлумачення дискримінантів.R=diag(Sw)−1SwV
Дивіться повний вивід фази екстракції дискримінантного аналізу райдужної оболонки даних тут .
Прочитайте цю приємну відповідь, яка пояснює трохи формальніше та детальніше ті ж речі, що я робив тут.
Це питання стосується питання стандартизації даних перед тим, як зробити LDA.