Що таке "коефіцієнти лінійних дискримінантів" у LDA?


17

В R, я використовую ldaфункцію з бібліотеки , MASSщоб зробити класифікацію. Як я розумію, LDA вхід x буде присвоєний міткою y , яка максимізує p(y|x) , правда?

Але коли я підходять до моделі, в якій

x=(Lag1,Lag2)
y=Direction,
я не зовсім розумію вихід lda,

Редагувати: щоб відтворити вихідний результат, спочатку запустіть:

library(MASS)
library(ISLR)

train = subset(Smarket, Year < 2005)

lda.fit = lda(Direction ~ Lag1 + Lag2, data = train)
> lda.fit
Call:
lda(Direction ~ Lag1 + Lag2, data = train)

Prior probabilities of groups:
    Down       Up 
0.491984 0.508016 

Group means:
            Lag1        Lag2
Down  0.04279022  0.03389409
Up   -0.03954635 -0.03132544

Coefficients of linear discriminants:
            LD1
Lag1 -0.6420190
Lag2 -0.5135293

Я розумію всю інформацію у наведеному вище висновку, але одне, що таке LD1? Я шукаю в Інтернеті це, чи це лінійна дискримінантна оцінка ? Що це таке і навіщо мені це потрібно?

ОНОВЛЕННЯ

Я читав кілька публікацій (таких як ця та ця ), а також шукаю в Інтернеті DA, і ось ось що я думаю про DA чи LDA.

  1. Його можна використовувати для класифікації, і коли це є метою, я можу використовувати підхід Байєса, тобто обчислити задній p(y|x) для кожного класу yi , а потім класифікувати x до класу з найвищим задній. За такого підходу мені взагалі не потрібно з’ясовувати дискримінантів, правда?

  2. Коли я читаю в публікаціях, DA або принаймні LDA орієнтовані в першу чергу на зменшення розмірності , для класів K і D -dim прогностичного простору я можу спроектувати D -dim x у новий (K1) -dim функціональний простір z , тобто

    x=(x1,...,xD)z=(z1,...,zK1)zi=wiTx
    ,zможна розглядати як перетворений вектор властивості від вихідногоx, а кожнийwi- вектор, на якийпроектуєтьсяx.

Я маю рацію щодо вищезазначених тверджень? Якщо так, у мене є такі питання:

  1. Що таке дискримінант ? Чи кожен запис zi у векторі z є дискримінантним? Або wi ?

  2. Як зробити класифікацію з використанням дискримінантів?


1
LDA має дві чіткі стадії: вилучення та класифікація. При вилученні утворюються латентні змінні, які називаються дискримінантами, як лінійні комбінації вхідних змінних. Коефіцієнти в цих лінійних комбінаціях називаються коефіцієнтами дискримінантності; це те, про що ви питаєте. На 2-му етапі точки даних присвоюються класам тими дискримінантами, а не оригінальними змінними. Щоб прочитати більше, пошукайте discriminant analysisна цьому сайті.
ttnphns

2
Лінійний бал дискримінанта - це значення точки даних дискримінанта, тому не плутайте його з коефіцієнтом дискримінації, який є як коефіцієнт регресії. Дивіться мою детальну відповідь тут .
ttnphns

Xp(y|x)LD1

Ви можете і можете робити класифікацію правил Байєса на основі оригінальних змінних. Але це не буде дискримінаційним аналізом. Суттєвою частиною LDA є зменшення розмірності, яке дозволяє замінити вихідні змінні-класифікатори меншою кількістю похідних класифікаторів, дискримінантів. Будь ласка, читайте тут публікації, особливо мої, вони ретельно описують ідеї та математику LDA.
ttnphns

@ttnphns, я читаю пост, який ви зв'язали у коментарі, ;-)
авокадо

Відповіді:


5

LDA10.6420190×Lag1+0.5135293×Lag2

Наведена нижче діаграма ілюструє залежність між оцінкою, задньою ймовірністю та класифікацією для набору даних, використовуваних у питанні. Основні зразки завжди дотримані при двогруповому ЛДА: між показниками та задньою ймовірністю відображається 1-до-1, а прогнози є рівнозначними, якщо вони зроблені з задньої ймовірності чи з балів.

Оцінка, задня ймовірність, класифікація

Відповіді на підпитання та деякі інші коментарі

  • Хоча LDA може використовуватися для зменшення розмірів, це не те, що відбувається в прикладі. При двох групах причина, за якою потрібно лише один бал за спостереження, полягає в тому, що це все необхідне. Це тому, що ймовірність перебування в одній групі є доповненням ймовірності перебування в іншій (тобто вони додають до 1). Ви можете побачити це на графіку: десятки менш -.4 класифікуються як в Даун групі і більш високі бали, по прогнозам, буде вгору .

  • Іноді вектор балів називають а discriminant function. Іноді так називають коефіцієнти. Мені не зрозуміло, чи правильно це чи то. Я вважаю, що MASS discriminantвідноситься до коефіцієнтів.

  • Функція пакету MASS ldaвиробляє коефіцієнти по-різному від більшості інших програм LDA. Альтернативний підхід обчислює один набір коефіцієнтів для кожної групи, і кожен набір коефіцієнтів має перехоплення. З використанням дискримінантної функції (балів), розрахованої за допомогою цих коефіцієнтів, класифікація базується на найвищій оцінці, і немає необхідності в обчисленні задніх ймовірностей для прогнозування класифікації. Я помістив деякий код LDA в GitHub, який є модифікацією MASSфункції, але створює ці більш зручні коефіцієнти (пакет називається Displayr/flipMultivariates, і якщо ви створюєте об'єкт за допомогою, LDAви можете витягти коефіцієнти, використовуючи obj$original$discriminant.functions).

  • Я розмістив R для коду всіх понять в цьому пості тут .

  • Не існує єдиної формули для обчислення задніх ймовірностей з оцінки. Найпростіший спосіб зрозуміти варіанти - (для мене все одно) подивитися вихідний код, використовуючи:

library(MASS) getAnywhere("predict.lda")


I'm not clear on whether either [word use] is correct"дискримінантна функція" aka "дискримінант" є витягнутою змінною - змінною, виміром. Тому він характеризується як коефіцієнтами (вагами) для оцінки його з вхідних змінних, так і за балами, значеннями. Точно як ПК у PCA. Отже, "коефіцієнти дискримінантності" та "бали дискримінантності" є правильним використанням.
ttnphns

@ttnphns, ваше використання термінології дуже чітке та однозначне. Але це не використання, яке з'являється у більшості публікацій та публікацій на цю тему, і це те, що я намагався зробити. Грунтуючись лише на словозначенні, мені цілком зрозуміло, що "дискримінантна функція" повинна стосуватися математичної функції (тобто сукупного продукту та коефіцієнтів), але знову ж таки мені не зрозуміло, що це широке використання.
Тім

@Tim посилання, яке ви опублікували для коду, мертве, чи можете ви скопіювати його у свою відповідь, будь ласка?
baxx

0

Теорія, що стоїть за цією функцією, - "метод Фішера для дискримінації серед кількох груп населення". Я рекомендую главу 11.6 у застосованому багатоваріантному статистичному аналізі (ISBN: 9780134995397) для довідки.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.