Як MANOVA пов'язаний з LDA?


18

У кількох місцях я побачив твердження, що MANOVA схожа на ANOVA плюс лінійний дискримінантний аналіз (LDA), але це завжди робилося рукою, що розмахує рукою. Я хотів би знати, що саме це має означати.

Я знайшов різні підручники, що описують усі деталі обчислень MANOVA, але, здається, дуже важко знайти хорошу загальну дискусію (не кажучи вже про картинки ), доступну для того, хто не є статистиком.


2
Мої власні локальні рахунку LDA відносного ANOVA і MANOVA є це , це . Можливо, вони махають руками, але вони певною мірою стосуються вашої теми. Ключова приказка полягає в тому, що "LDA - це MANOVA, занурений у приховану структуру". MANOVA - це дуже багате обладнання для перевірки гіпотез; серед іншого він може проаналізувати приховану структуру відмінностей; цей аналіз включає ЛДА.
ttnphns

1
@ttnphns, я боюся, що попередній коментар не був наданий (я забув поставити ваше ім’я користувача), тому дозвольте повторити: Вау, спасибі, великі ваші відповіді, схоже, дуже пов'язані з моїм запитанням, і я, мабуть, їх пропустив в моєму пошуку перед публікацією. У мене знадобиться певний час, щоб переварити їх, і я, можливо, повернусь до вас після цього, але, можливо, ви вже можете вказати мені на деякі статті / книги, що висвітлюють ці теми? Я люблю , щоб побачити докладне обговорення цього матеріалу в стилі ваших пов'язаних відповідей.
Амеба каже, що повернеться до Моніки

Лише один старий і класичний обліковий запис webia.lip6.fr/~amini/Cours/MASTER_M2_IAD/TADTI/HarryGlahn.pdf . До речі, я цього ще не читав. Ще одна пов’язана стаття dl.acm.org/citation.cfm?id=1890259 .
ttnphns

@ttnphns: Дякую Я сам написав відповідь на своє запитання, в основному надавши деякі ілюстрації та конкретний приклад до вашої чудової пов'язаної відповіді на LDA / MANOVA. Я думаю, вони прекрасно доповнюють один одного.
амеба каже, що повернеться до Моніки

Відповіді:


21

Коротко

Як один з способів MANOVA і ЛД почати з розкладанням загального розкиду матрицею в матрицю розсіювання в класі Вт , а також між класом-розкид матрицею В , таким чином, що Т = Ш + В . Відзначимо , що це абсолютно аналогічно тому , як однофакторного дисперсійного аналізу розкладається загальна сума-квадратів T в межах-класу , так і між сумами-класу-квадратів: Т = B + W . У ANOVA співвідношення B / W потім обчислюється і використовується для знаходження p-значення: чим більше це відношення, тим менше p-значення. MANOVA та LDA складають аналогічну багатоваріантну кількість W - 1ТWBT=W+BTT=B+WB/W .W1B

Звідси вони різні. Єдина мета MANOVA - перевірити, чи засоби всіх груп однакові; це нульова гіпотеза означає, що повинна бути однаковою за розміром W . Таким чином, MANOVA виконує ейгендекомпозицію W - 1 B і знаходить її власні значення λ i . Тепер ідея перевірити, чи є вони досить великими, щоб відхилити нуль. Існує чотири загальні способи формування скалярної статистики з усієї сукупності власних значень λ i . Один із способів - взяти суму всіх власних значень. Інший спосіб - прийняти максимальне власне значення. У кожному випадку, якщо обрана статистика є достатньо великою, нульова гіпотеза відкидається.BWW1Bλiλi

На противагу цьому LDA виконує ейгендекомпозицію і дивиться на власні вектори (не власне значення). Ці власні вектори визначають напрямки у змінному просторі і називаютьсядискримінантними осями. Проекція даних на першу вісь, що дискримінує, має вищий клас поділу (вимірюється якB / W); на другий - другий найвищий; і т.д. Коли LDA використовується для зменшення розмірності, дані можна прогнозувати, наприклад, на перших двох осях, а решту відкидати.W1BБ/W

Дивіться також чудову відповідь @ttnphns в іншій нитці, яка охоплює майже ту саму основу.

Приклад

Розглянемо односторонній випадок із залежними змінними та k = 3 групами спостережень (тобто один фактор з трьома рівнями). Я візьму відомий набір даних про Іриса Фішера і розгляну лише довжину сепалу та ширину сепалу (щоб зробити його двовимірним). Ось сюжет розкидання:М=2к=3

Фішер Ірис розкидає сюжет

Ми можемо почати з обчислення ANOVA з сепальською довжиною / шириною окремо. Уявіть точки даних, спроектовані вертикально або горизонтально на осі x і y, і одностороння ANOVA, яка виконується для перевірки наявності трьох груп однакових засобів. Отримуємо і p = 10 - 31 для довжини сепала, і F 2 , 147 = 49Ж2,147=119p=10-31Ж2,147=49 і для ширини сепалу. Гаразд, тому мій приклад досить поганий, оскільки три групи суттєво відрізняються смішними значеннями p в обох заходах, але я все одно дотримуватимусь цього.p=10-17

Тепер ми можемо виконати LDA для пошуку осі, яка максимально розділяє три кластери. Як описано вище, ми обчислюємо матрицю повного розсіювання , матрицю розсіювання в межах класу W і матрицю розсіювання між класом B = T - W і знаходимо власні векториТWБ=Т-W . Я можу побудувати обидва власні вектори на одній і тій же розсипці:W-1Б

Fisher Iris LDA

Штрихові лінії - це дискримінаційні осі. Я побудував їх з довільною довжиною, але довша вісь показує власний вектор з більшим власним значенням (4.1), а коротший --- той, що має менше власне значення (0,02). Зауважимо, що вони не є ортогональними, але математика LDA гарантує, що проекції на ці осі мають нульову кореляцію.

Якщо ми зараз проектуємо наші дані на першу (довшу) дискримінантну вісь, а потім запускаємо ANOVA, отримуємо і p = 10 - 53Ж=305p=10-53 , що нижче, ніж раніше, і є найменшим можливим значенням серед усіх лінійних прогнозів (що була вся суть ЛДА). Проекція на другу вісь дає лише .p=10-5

Якщо ми запустили MANOVA на одних і тих же даних, обчислимо ту саму матрицю і подивимось її власні значення, щоб обчислити p-значення. У цьому випадку більше власне значення дорівнює 4,1, яка дорівнює B / W для ANOVA уздовж першого дискриминант ( на насправді, Р = В / Вт ( N - до ) / ( K - 1 ) = 4.1 147 / 2 =W-1ББ/W , де N = 150 - загальна кількість точок даних іЖ=Б/W(N-к)/(к-1)=4.1147/2=305N=150 - кількість груп).к=3

Існує кілька часто використовуваних статистичних тестів, які обчислюють значення p від власного спектру (в даному випадку і λ 2 = 0,02 ) і дають дещо інші результати. MATLAB дає мені тест Вілкса, який повідомляє p = 10 - 55 . Зауважте, що це значення нижче, ніж у нас раніше з будь-якою ANOVA, і інтуїція тут полягає в тому, що р-значення MANOVA "поєднує" два p-значення, отримані з ANOVA на двох дискримінантних осях.λ1=4.1λ2=0,02p=10-55

Ж(8,4)

Модифікований LDA Fisher Iris

p=10-55p=0,26p=10-545p0,05p

MANOVA vs LDA як машинне навчання порівняно зі статистикою

Це мені зараз здається одним із зразкових випадків того, як різні спільноти машинного навчання та спільноти статистики підходять до одного і того ж. Кожен підручник з машинного навчання охоплює LDA, показує приємні фотографії тощо, але він навіть ніколи не згадує про MANOVA (наприклад, Бішоп , Хасті та Мерфі ). Можливо, тому, що людей більше цікавить точність класифікації LDA (що приблизно відповідає розміру ефекту), і вони не зацікавлені в статистичній значущості групової різниці. З іншого боку, підручники з багатоваріантного аналізу обговорювали б MANOVA adusese, надавали б багато табличних даних (arrrgh), але рідко згадують LDA і навіть рідше показують будь-які сюжети (наприклад,Андерсон , або Гарріс ; однак Rencher & Christensen do, Huberty & Olejnik навіть називають "MANOVA and Discriminant Analysis").

Факторна MANOVA

Факторна MANOVA набагато заплутаніша, але її цікаво розглянути, оскільки вона відрізняється від LDA в тому сенсі, що "факторна LDA" насправді не існує, а факторна MANOVA безпосередньо не відповідає жодному "звичайному LDA".

32=6 "осередків" в експериментальній конструкції (з використанням термінології ANOVA). Для простоти я розгляну лише дві залежні змінні (DV):

факторіальна МАНОВА

На цьому малюнку всі шість "комірок" (я їх ще називатиму "групами" або "класами") добре розділені, що, звичайно, рідко трапляється на практиці. Зауважте, що очевидно, що тут є суттєві основні ефекти обох факторів, а також значний ефект взаємодії (тому що верхньоправа група зміщена вправо; якби я перемістив її у положення "сітки", то не було б ефект взаємодії).

Як в цьому випадку працюють обчислення MANOVA?

WБАБАW-1БА

БББАБ

Т=БА+ББ+БАБ+W.
Бне можна однозначно розкласти на суму трьох факторних внесків, оскільки фактори вже не є ортогональними; це схоже на обговорення типу I / II / III SS в ANOVA.]

БАWА=Т-БА

W-1БА


+1, це було приємно розповісти про це. Я змінився B^-1 Wна W^-1 B. Ваша картина з дискримінантами як осями схожа на мій власний сюжет ; я вважаю, що ви використовували той самий "неортогональний обертання відповідно до нормованих власних векторів".
ttnphns

Я виявив трохи туманно MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive. MANOVA звичайно не знає про нас, які роблять LDA. MANOVA просто споживає більше df, ніж ANOVA, оскільки це двовимірний тест, тому потужність p-значення повинна бути -54 замість -55.
ttnphns

Я сумніваюся, що слід говорити з точки зору p-значень. Натомість ключовим моментом у тому, що MANOVA аналізує ту саму матрицю, що W^-1 Bі LDA. LDA виводить із нього латентні змінні (дискримінанти). MANOVA ні; однак, він вивчає вищезазначену матрицю більш всебічно, обчислюючи різні статистичні дані (такі як слід Піллая, слід Hotteling) для того, щоб базувати на них тестування.
ttnphns

Сюжет, який буде метафорою MANOVA (і я думаю, ви можете додати її до своєї відповіді) на відміну від LDA (ваша друга картина) буде сюжетом, на якому 3 центроїди з'єднані з великим центроїдом пунктирними лініями .
ttnphns

Нарешті, я не думаю, що ви правильно зважили таку велику різницю в статистиці та машинному навчанні. Я дізнався аналіз статистичних даних ще до того, як почув слово machine learningвперше. І тексти, які я читав тоді, обговорювали LDA дуже багато, разом з MANOVA.
ttnphns
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.