Зрозуміла розбіжність джерел щодо лінійного, квадратичного та дискримінаційного аналізу Фішера


10

Я вивчаю дискримінантний аналіз, але мені важко узгодити кілька різних пояснень. Я вважаю, що мені щось треба бракувати, тому що я ніколи раніше не стикався з цим (здавалося б) рівнем розбіжності. Незважаючи на це, кількість запитань щодо дискримінаційного аналізу на цьому веб-сайті здається свідченням його складності.

LDA та QDA для декількох класів

Моя основна підручник - це багатосторонній статистичний аналіз Johnson & Wichern (AMSA), і на цьому спираються записки мого вчителя. Я проігнорую налаштування двох груп, тому що я вважаю, що спрощена формула в цій настройці викликає хоч деяку плутанину. Відповідно до цього джерела LDA та QDA визначаються як параметричне (припускаючи багатоваріантну нормальність) розширення правила класифікації на основі очікуваної вартості помилкової класифікації (ECM). ECM підсумовує понад умовні очікувані витрати для класифікації нового спостереження x до будь-якої групи (включаючи витрати на помилкову класифікацію та попередні ймовірності), і ми обираємо класифікаційні регіони, які мінімізують це. де

ECM=i=1groupspi[k=1; ikgroupsP(k|i)c(k|i)]
П(к|i)=П(класифікуючи предмет як групу k | пункт - група i)=Rкfi(х)гх , fi(х) - щільність населення, Rк - сукупність спостережень у групі k, c - вартість, а pi - попередні ймовірності. Потім можуть бути віднесені нові спостереження до групи, для якої внутрішній доданок найменший або еквівалентний, для якого ліва частина внутрішньої точки pкfк(х) є найбільшою

Імовірно, це класифікаційне правило еквівалентно "такому, що максимально збільшує задні ймовірності" (sic AMSA), про який я можу лише припустити, що це я бачив підхід Байєса. Це правильно? І чи це метод ECM старіший, тому що я ніколи не бачив, щоб він відбувався більше ніде.

Для нормальної сукупності це правило спрощує показник квадратичного дискримінанта: .

гiQ(х)=-12лог(Σi)-12(х-мкi)ТΣi-1(х-мкi)+лог(pi)

Це здається еквівалентним формулі 4.12 Елементи статистичного навчання (ESL) на сторінці 110, хоча вони описують це як квадратичну дискримінантну функцію, а не бал . Більше того, вони надходять сюди через коефіцієнт log багатоваріантної щільності (4.9). Це ще одна назва підходу Байєса?

Коли ми припускаємо рівну коваріантність, формула ще більше спрощує лінійний дискримінантний бал .

гi(х)=мкiТΣ-1х-12мкiТΣ-1мкi+лог(pi)

Ця формула дійсно відрізняється від ESL (4.10), де перший сторнується: . Версія ESL також є в списку в Статистичному навчанні в R . Більше того, у висновку SAS, представленому в AMSA, описана лінійна дискримінантна функція , що складається з постійної та коефіцієнта вектор , здавалося б, відповідає версії ESL.хТΣ-1мкк0,5Х¯jТСОV-1Х¯j+лн доjСОV-1Х¯j

Що може бути причиною цієї розбіжності?

Дискримінант та метод Фішера

Примітка: якщо це питання буде визнано занадто великим, я видалю цей розділ і відкрию нове запитання, але воно базується на попередньому розділі. Вибачте за стіну тексту незалежно, я намагався дещо структурувати його, але я впевнений, що моя плутанина щодо цього методу призвела до певних досить дивних стрибків логіки.

Книга AMSA продовжує описувати метод рибалки, також для кількох груп. Тим НЕ менше, ttnphns зазначив кілька разів , що FDA просто LDA з двома групами. Що це тоді за багатокласний FDA? Можливо, FDA може мати кілька значень?

AMSA описує дискримінантів Фішера як власні вектори які максимізують співвідношення . Лінійні комбінації - це вибіркові дискримінанти (яких є ). Для класифікації вибираємо групу k з найменшим значенням для де r - кількість дискримінантів, які ми хотіли б використати. Якщо ми будемо використовувати всі дискримінанти, це правило було б еквівалентно лінійній дискримінантній функції.W-1Ба^ТБа^а^ТWа^е^iхмiн(г-1,p)j=1r[е^jТ(х-х¯к)]2

Багато пояснень щодо LDA, схоже, описують методологію, яка називається FDA у книзі AMSA, тобто починаючи з цього між / в межах аспекту мінливості. Що тоді мається на увазі під FDA, якщо не розкладання матриць BW?

Це вперше в текстовій книзі згадується аспект зменшення розмірності дискримінантного аналізу, тоді як кілька відповідей на цьому веб-сайті підкреслюють двоступеневий характер цієї методики, але це не ясно в двох групах, оскільки існує лише 1 дискримінантний. З огляду на вищезазначені формули для багатокласових LDA та QDA, мені все ще не видно, де проявляються дискримінанти.

Цей коментар особливо збентежив мене, зазначивши, що класифікація Байєса по суті може бути виконана на оригінальних змінних. Але якщо FDA і LDA математично еквівалентні як було зазначено в книзі , і тут не слід скорочення розмірності бути притаманні функції ? Я вважаю, що саме це стосується останнього посилання, але я не зовсім впевнений.гi

Курсові записки мого викладача продовжують пояснювати, що FDA є, по суті, формою канонічного кореляційного аналізу. Я знайшов лише одне інше джерело, яке розповідає про цей аспект, але воно, здається, ще раз тісно пов'язане з підходом Фішера щодо декомпозиції змінної між і в межах. SAS представляє результат у своїй процедурі LDA / QDA (DISCRIM), яка, очевидно, пов'язана з методом Фішера ( https://stats.stackexchange.com/a/105116/62518 ). Однак опція FDA SAS (CANDISC) по суті виконує канонічну кореляцію, не представляючи цих так званих класифікаційних коефіцієнтів Фішера. У ньому представлені неочищені канонічні коефіцієнти, які, на мою думку, еквівалентні власним векторам R-1B R, отриманим lda (MASS) (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). Коефіцієнти класифікації, мабуть, отримані з дискримінантної функції, яку я описав у розділі LDA та QDA (оскільки на 1 населення існує 1 функція, і ми обираємо найбільшу).

Буду вдячний за будь-які роз’яснення чи посилання на джерела, які могли б допомогти мені побачити ліс через дерева. Основна причина моєї плутанини, здається, полягає в тому, що різні підручники називають методи різними іменами або представляють незначну зміну математики, не визнаючи інших можливостей, хоча, мабуть, це не повинно стати несподіванкою, враховуючи вік книги AMSA .


If we use all the discriminants this rule would be equivalent to the linear discriminant functionНезрозуміло. "Дискримінантна" та "дискримінантна функції" є синонімічними. Ви можете використовувати всіх дискримінантів або лише декілька найсильніших / значущих з них. Я не звернувся до книги AMSA, але підозрюю, що FDA = LDA для авторів. Власне, я особисто думаю, що "Fisher LDA" був би надлишковим, непотрібним терміном.
ttnphns

"Доповнення" до цієї відповіді про класифікацію LDA зауважую, що обчислення "функцій лінійної класифікації Фішера" безпосередньо зі змінних еквівалентно Extract the discriminants -> classify by them all (using Bayes approach, as usual)тому, як, як зазвичай, за замовчуванням в класифікації використовується об'єднана матриця коваріації в межах класу дискримінантів.
ttnphns

Насправді, "лінійна класифікаційна функція Фішера" - це спосіб зробити LDA, не роблячи eigendecomposition, W^-1Bа потім робити "Bayes". Він еквівалентний, але менш гнучкий (Ви не можете вибрати лише декілька дискримінантів, ви не можете використовувати окремі коваріаційні матриці при класифікації тощо).
ttnphns

Я все ще перетравлюю вашу відповідь та посилання (дякую), але: 1) Ось уривок із AMSA, що роз'яснює "дискримінантів" та "дискримінантних балів" i.imgur.com/7W7vc8u.jpg?1 Я використав терміни "оцінка" і "функція" взаємозамінно. 3) У цьому ж уривку видно, що книга AMSA посилається на eigendecomposition як спосіб отримання дискримінантів Фішера. Те, як він представлений тут, метод Фішера здається більш гнучким, ніж лінійний / квадратичний метод, що лише призводить до однієї жорсткої дискримінантної функції / оцінки.W-1Б
Зеніт

Зеніт, для мене, дискримінантна оцінка - це значення (канонічної) дискримінантної функції. Я не можу так далеко порівняти формули, які ви цитуєте, з тим, що я знаю про те, як канонічні дискримінанти обчислюються в SPSS . Я пропоную вам зробити розрахунки та порівняти результати та викласти свої висновки. Також я підозрюю, що різні тексти можуть по-різному застосовувати етикетку "Fisher's".
ttnphns

Відповіді:


8

Я звертаюся лише до одного аспекту питання і роблю це інтуїтивно без алгебри.

Якщо класи мають однакові дисперсійно-коваріаційні матриці і відрізняються лише зміщенням своїх центроїдів у -вимірному просторі, то вони повністю лінійно відокремлюються у підпросторі . Це те, що робить LDA. Уявіть, що у просторі змінних вас є три однакові еліпсоїди . Ви повинні використовувати інформацію з усіх змінних, щоб прогнозувати приналежність до класу без помилок. Але через те, що це були однакові розміри та орієнтовані хмари, можна змінити їх масштаб шляхом загального перетворення на кулі одиничного радіуса. Тодігpq=мiн(г-1,p)V1,V2,V3q=г-1=2Незалежних вимірів буде достатньо, щоб передбачити приналежність до класу так само точно, як раніше. Ці розміри називаються дискримінантними функціями . Маючи 3 кулі однакових розмірів точок, вам потрібно лише 2 осьових лінії та знати координати центрів кульок на них, щоб правильно призначити кожну точку.D1,D2

введіть тут опис зображення

Дискримінанти - це некорельовані змінні, їх коваріаційні матриці в межах класу є ідеально ідентичними (кулями). Дискримінанти утворюють підпростір вихідного простору змінних - це їх лінійні комбінації. Однак вони не є ротаційними (PCA-подібними) осями: видно в оригінальному просторі змінних, дискримінанти як осі не є взаємно ортогональними .

Отже, за припущенням про однорідність варіанто-коваріацій класу LDA, що використовують для класифікації всі існуючі дискримінанти, не гірше, ніж негайно класифікувати за вихідними змінними. Але вам не доведеться використовувати всіх дискримінантів. Ви можете використовувати лише перших найбільш сильних / статистично значущих з них. Таким чином, ви втрачаєте мінімальну інформацію для класифікації, і пропуск класифікації буде мінімальним. Якщо дивитися з цієї точки зору, LDA - це зменшення даних, подібне до PCA, лише під наглядом.м<q

Зауважте, що припускаючи однорідність (+ багатоваріантність нормальності) і за умови, що ви плануєте використовувати, але всі дискримінанти в класифікації, можна обійти вилучення самих дискримінантів - що передбачає узагальнену власну проблему - та обчислити так звану "класифікаційну функцію Фішера" від змінних безпосередньо, для того , щоб класифікувати з ними , з еквівалентним результатом. Таким чином, коли класи однакові за формою, ми можемо вважати вхідні змінні або функції Фішера або дискримінантами всіма еквівалентними наборами "класифікаторів". Але дискримінанти у багатьох відношеннях зручніші. гpгq1

Оскільки зазвичай класи не є "однаковими еліпсами" насправді, класифікація за дискримінантами дещо бідніша, ніж якщо ви робите класифікацію Байєса за всіма вихідними змінними. Наприклад, на цій ділянці два еліпсоїди не паралельні один одному; і можна візуально зрозуміти, що одного існуючого дискримінанта недостатньо, щоб класифікувати точки так точно, як це дозволяють дві змінні. QDA (квадратичний дискримінантний аналіз) був би тоді кроком кращим наближенням, ніж LDA. Практичним підходом на півдорозі між LDA та QDA є використання LDA-дискримінантів, але використання спостережуваних коваріаційних матриць окремого класу при класифікації ( див. , Див. Див.qp) замість їх об'єднаної матриці (яка є тотожністю).

(І так, LDA можна розглядати як тісно пов'язаний навіть з конкретним випадком аналізу MANOVA та Canonical кореляції або багатоваріантної регресії зі зниженим рангом - див. , Див. , Див .)


1 Важлива термінологічна примітка. У деяких текстах класифікаційних функцій Фішера можна назвати «дискримінантні функції Фішера», який може сплутати з discriminats які є канонічними дискримінантному функціями (тобто отримані в eigendecomposition згqW-1Б). Для наочності я рекомендую сказати "Класифікаційні функції Фішера" проти "канонічні дискримінантні функції" (= дискримінант, коротше). У сучасному розумінні LDA є канонічним лінійним дискримінантним аналізом. "Дискримінантний аналіз Фішера" - це, принаймні, на мій обізнаність, або LDA з 2 класами (де єдиний канонічний дискримінант неминуче те саме, що класифікаційні функції Фішера), або, в цілому, обчислення класифікаційних функцій Фішера в багатокласових настройках.


Знову термінологія: стаття Вікіпедії про LDA ( en.wikipedia.org/wiki/Linear_discriminant_analysis ) зазначає, що "Терміни лінійного дискримінанта Фішера та LDA часто використовуються взаємозамінно, хоча в початковій статті Фішера [1] насправді описується дещо інший дискримінант, який робить не робити певних припущень LDA, таких як нормально розподілені класи або коваріації рівних класів. " Виходячи з цього, LDA для 2 класів здається особливим випадком "FDA", якщо групові товариства "однакові". @ttnphns: це правильно?
Laryx Decidua

@LaryxDecidua, я не впевнений на 100% в термінології в цьому випадку, і я бачив різні думки. Я взагалі не використовую термін "DA Fisher's". Але коли люди запитують, я відповідаю на це: "FDA - це LDA з 2 класами".
ttnphns

Дякую, для мене найцікавішим аспектом є те, що "FDA", згідно з Вікіпедією, не передбачає нормальності, тоді як "LDA" (і QDA). Можливо, "FDA - це LDA з 2 класами, не припускаючи нормальності чи гомоскедастичності".
Laryx Decidua
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.