Три варіанти дискримінаційного аналізу: відмінності та способи їх використання


26

Чи може хтось пояснити відмінності та навести конкретні приклади, як використовувати ці три аналізи?

  • LDA - лінійний дискримінантний аналіз
  • FDA - дискримінантний аналіз Фішера
  • QDA - Квадратичний дискримінантний аналіз

Я шукав всюди, але не міг знайти реальних прикладів з реальними значеннями, щоб побачити, як використовуються ці аналізи та обчислюють дані, лише безліч формул, які важко зрозуміти без реальних прикладів. Як я намагався зрозуміти, важко було розрізнити, які рівняння / формули належать до LDA, а які до FDA.

Наприклад, скажімо, що є такі дані:

x1 x2 class
1  2  a
1  3  a
2  3  a
3  3  a
1  0  b
2  1  b
2  2  b

Скажімо, деякі дані тестування:

x1 x2
2  4
3  5
3  6

Тож як використовувати такі дані з усіма цими трьома підходами? Найкраще було б подивитися, як все обчислити вручну, не використовуючи математичний пакет, який обчислює все за кадром.

PS Я знайшов лише цей підручник: http://people.revoledu.com/kardi/tutorial/LDA/LDA.html#LDA . Він показує, як використовувати LDA.

Відповіді:


23

"Дискримінантний аналіз Фішера" - це просто LDA в ситуації, що склалася в 2 класи. Коли є лише два класи, обчислення вручну є здійсненними, і аналіз безпосередньо пов'язаний з множинною регресією. LDA є прямим поширенням ідеї Фішера на ситуацію будь-якої кількості класів і використовує матричні пристрої алгебри (наприклад, eigendecomposition) для її обчислення. Отже, термін "Дискримінантний аналіз Фішера" сьогодні можна розглядати як застарілий. Натомість слід використовувати "Лінійний дискримінантний аналіз". Дивіться також . Дискримінантний аналіз з 2+ класами (багатокласним) є канонічним за своїм алгоритмом (витягує дікримінанти як канонічні змінні); рідкісний термін "Канонічний дискримінантний аналіз"

Фішер використовував те, що тоді називалося "класифікаційними функціями Фішера" для класифікації об'єктів після обчислення дискримінантної функції. На сьогодні для класифікації об'єктів використовується більш загальний підхід Байєса в рамках процедури LDA.

На ваш запит на роз'яснення ЛДА я можу надіслати вам такі відповіді: вилучення в ЛДА , класифікація в ЛДА , ЛДА серед суміжних процедур . Також це , це , це питання та відповіді.

Так само, як ANOVA вимагає припущення рівних дисперсій, LDA вимагає припущення рівних дисперсійно-коваріаційних матриць (між вхідними змінними) класів. Це припущення є важливим для класифікації етапу аналізу. Якщо матриці суттєво відрізняються, спостереження, як правило, будуть віднесені до класу, де мінливість більша. Для подолання проблеми було винайдено QDA . QDA - це модифікація LDA, яка допускає вищевказану неоднорідність коваріаційних матриць класів.

Якщо у вас є неоднорідність (як виявлено, наприклад, тестом M Box) і у вас немає QDA під рукою, ви все одно можете використовувати LDA в режимі використання індивідуальних матриць коваріації (а не об'єднаної матриці) дискримінантів при класифікації . Це частково вирішує проблему, хоча і менш ефективно, ніж у QDA, оскільки - як вже зазначалося - це матриці між дискримінантами, а не між оригінальними змінними (які матриці відрізнялися).

Дозвольте залишити для аналізу ваші приклади.


Відповідь на відповідь та коментарі @ zyxue

LDA - це те, що ви визначили, що FDA є у вашій відповіді. LDA спочатку витягує лінійні конструкції (які називаються дискримінантами), які максимізують між розділеннями в межах, а потім використовує їх для проведення (гауссова) класифікації. Якби (як ви кажете) LDA не були пов'язані із завданням витягнути дискримінантів, LDA виявиться просто гауссовим класифікатором, назва "LDA" взагалі не знадобиться.

Це той етап класифікації, коли LDA передбачає як нормальність, так і дисперсію-коваріантну однорідність класів. Екстракції або «зниження розмірності» стадія LDA передбачає лінійність і ковариационную однорідність , два допущення разом становить «лінійну сепарабельном» здійсненні. (Ми використовуємо одиночну об'єднану матрицю для створення дискримінантів, які, таким чином, мають ідентифікацію, об'єднану в межах коваріаційної матриці класу, що дає нам право застосовувати один і той же набір дискримінантів для класифікації до всіх класів. Якщо всі s однакові, то сказане в межах- класні коваріації - це все одно, ідентичність; це право їх використання стає абсолютним.)SшSш

Гауссовий класифікатор (другий етап LDA) використовує правило Байєса для присвоєння спостереженням класам дискримінантів. Цей же результат може бути досягнутий завдяки так званій функції лінійної класифікації Фішера, яка безпосередньо використовує оригінальні функції. Однак підхід Байєса, який базується на дискримінантах, є дещо загальним, оскільки він дозволить використовувати окремі коваріаційні матриці дискримінантного класу, на додаток до способу використання однієї, об'єднаної. Крім того, це дозволить грунтувати класифікацію на підгрупі дискримінантів.

Якщо є лише два класи, обидва етапи LDA можна описати разом за один прохід, оскільки "вилучення запізнень" та "класифікація спостережень" зводяться до одного завдання.


Я думаю, що я пам’ятаю, що в моєму курсі машинного навчання я пам’ятав, що гауссова ЛДА 2-го класу передбачала щільність гаусса і використовує байєсовське правило MPE, тоді як ЛДР Фішера не робить гауссового припущення і не змінює критерій оптимальності для максимізації SNR. Чи відповідає це вашій відповіді?
Остін

1
@Jake Цікаво про це і у цій відповіді: stats.stackexchange.com/questions/87975/… , зазначено, що результат той самий. Коментарі?
Доле

Ви впевнені, що "Дискримінантний аналіз Фішера" є просто LDA у 2 класах "?
zyxue

@zyxue, на 95% впевнений, але все одно я вважаю цей термін застарілим. Будь ласка, дивіться мою виноску в stats.stackexchange.com/q/190806/3277 .
ttnphns

@ ttnphns, fyi, відповідно до youtu.be/hGKt0yy9q_E?t=3010 , FDA та LDA часто змішуються в літературі. Одним із способів розрізнити два, FDA - це метод вилучення ознак, тоді як LDA та QDA є класифікаційною технікою.
zyxue

1

Мені важко погодитись, що FDA є LDA для двох класів, як запропонував @ttnphns.

Я рекомендую дві дуже інформативні та красиві лекції на цю тему професора Алі Годсі:

  1. LDA & QDA . Крім того, на сторінці 108 книги «Елементи статистичного навчання» ( pdf ) є опис LDA, що відповідає лекції.
  2. FDA

Для мене LDA і QDA схожі, оскільки вони обидві методи класифікації з припущеннями Гаусса. Основна різниця між ними полягає в тому, що LDA припускає, що матриці коваріації ознак обох класів однакові, що призводить до лінійної межі рішення. На відміну від цього, QDA менш суворий і дозволяє використовувати різні коваріаційні матриці для різних класів, що призводить до межі квадратичного рішення. Дивіться наступну фігуру з scikit-learn, щоб дізнатися , як виглядає межа квадратичного рішення.

Деякі коментарі до субплотів :

  • Верхній ряд: коли матриці коваріації дійсно однакові в даних, LDA та QDA призводять до однакових меж рішення.
  • Підсумковий рядок: коли матриці коваріації різні, LDA призводить до поганих показників, оскільки його припущення стає недійсним, тоді як QDA виконує класифікацію набагато краще.

З іншого боку, FDA - це дуже різний вид, що не має нічого спільного з припущенням Гауссії. Те, що FDA намагається зробити, - це знайти лінійну трансформацію для максимізації середньої відстані між класом при мінімізації дисперсії в межах класу . 2-я лекція прекрасно пояснює цю ідею. На відміну від LDA / QDA, FDA не класифікує, хоча ознаки, отримані після трансформації, знайдені FDA, можуть бути використані для класифікації, наприклад, з використанням LDA / QDA або SVM або інших.


2
Будь ласка, дивіться мою відповідь на вашу відповідь. Я не переглядав відео-урок, на який ви посилаєтесь, тому не можу сказати, чи можу я з цим погодитися. Я не згоден з тлумаченням / визначенням (LDA проти FDA), яке ви даєте у відповіді. Але це - визначення двох термінів - для мене не дуже важлива тема. Важливо зрозуміти, як це все працює.
ttnphns

2
Якщо ви розумієте, FDA doesn't do classification, although the features obtained after transformation found by FDA could be used for classificationтоді я б сказав, що це я називаю "фаза вилучення ЛДА". Звичайно, ці витягнуті функції (дискримінантні функції) - ви можете використовувати їх як завгодно. У стандартній класифікації LDA вони використовуються як гауссові класифікатори.
ttnphns

Мені цікаво, де ви читали, що " LDA спочатку витягує лінійні конструкції (звані дискримінантами)" ? Я вважав, що це називається лінійним дискримінантним, оскільки межа рішення є лінійною, що є результатом припущення, що матриця коваріації ознак однакова для різних класів. Аналогічно, QDA має межу квадратичного рішення. Вони також показані на вбудованих фігурах. Окрім вищезазначених відео, я згадую «Елементи статистичного навчання» ( pdf . На сторінці 108, він починає описувати LDA без згадки про вилучення особливостей.
zyxue

Afterall, я думаю, ми говоримо про одне і те ж, але це лише спосіб називання речей. Ви думаєте, що LDA = особливість_екстракція + класифікація, але на основі моїх посилань LDA - це лише класифікація. Тут представлена ​​особливість екстракції називається FDA. Важливо , що тут немає нічого спільного з кількістю занять. І LDA, і FDA можуть мати справу з більш ніж двома класами.
zyxue

Ми можемо дотримуватися визначень, до яких ми також використовуємось. У будь-якому разі, слід зазначити, що "лінійні конструкції" та "межі лінійного рішення" пов'язані між собою, в контексті ДА вони приблизно однакові. Подивіться на свою картинку з межею рішення як на пряму. При перетворенні занадто класів еліпси, які будуть сферичними, дискримінантна функція буде точно перпендикулярна до кордону. Власне, "первинною" річчю тут є дискримінантна функція, змінна, розмірність, тоді як межа рішення - це межа в просторі, залежно від напрямку її. Межа грудня - "вторинна".
ttnphns
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.