Коротко
Як один з способів MANOVA і ЛД почати з розкладанням загального розкиду матрицею в матрицю розсіювання в класі Вт , а також між класом-розкид матрицею В , таким чином, що Т = Ш + В . Відзначимо , що це абсолютно аналогічно тому , як однофакторного дисперсійного аналізу розкладається загальна сума-квадратів T в межах-класу , так і між сумами-класу-квадратів: Т = B + W . У ANOVA співвідношення B / W потім обчислюється і використовується для знаходження p-значення: чим більше це відношення, тим менше p-значення. MANOVA та LDA складають аналогічну багатоваріантну кількість W - 1TWBT=W+BTT=B+WB/W .W−1B
Звідси вони різні. Єдина мета MANOVA - перевірити, чи засоби всіх груп однакові; це нульова гіпотеза означає, що повинна бути однаковою за розміром W . Таким чином, MANOVA виконує ейгендекомпозицію W - 1 B і знаходить її власні значення λ i . Тепер ідея перевірити, чи є вони досить великими, щоб відхилити нуль. Існує чотири загальні способи формування скалярної статистики з усієї сукупності власних значень λ i . Один із способів - взяти суму всіх власних значень. Інший спосіб - прийняти максимальне власне значення. У кожному випадку, якщо обрана статистика є достатньо великою, нульова гіпотеза відкидається.BWW−1Bλiλi
На противагу цьому LDA виконує ейгендекомпозицію і дивиться на власні вектори (не власне значення). Ці власні вектори визначають напрямки у змінному просторі і називаютьсядискримінантними осями. Проекція даних на першу вісь, що дискримінує, має вищий клас поділу (вимірюється якB / W); на другий - другий найвищий; і т.д. Коли LDA використовується для зменшення розмірності, дані можна прогнозувати, наприклад, на перших двох осях, а решту відкидати.W−1BБ / Вт
Дивіться також чудову відповідь @ttnphns в іншій нитці, яка охоплює майже ту саму основу.
Приклад
Розглянемо односторонній випадок із залежними змінними та k = 3 групами спостережень (тобто один фактор з трьома рівнями). Я візьму відомий набір даних про Іриса Фішера і розгляну лише довжину сепалу та ширину сепалу (щоб зробити його двовимірним). Ось сюжет розкидання:М= 2k = 3
Ми можемо почати з обчислення ANOVA з сепальською довжиною / шириною окремо. Уявіть точки даних, спроектовані вертикально або горизонтально на осі x і y, і одностороння ANOVA, яка виконується для перевірки наявності трьох груп однакових засобів. Отримуємо і p = 10 - 31 для довжини сепала, і F 2 , 147 = 49Ж2 , 147= 119р = 10- 31Ж2 , 147= 49 і для ширини сепалу. Гаразд, тому мій приклад досить поганий, оскільки три групи суттєво відрізняються смішними значеннями p в обох заходах, але я все одно дотримуватимусь цього.р = 10- 17
Тепер ми можемо виконати LDA для пошуку осі, яка максимально розділяє три кластери. Як описано вище, ми обчислюємо матрицю повного розсіювання , матрицю розсіювання в межах класу W і матрицю розсіювання між класом B = T - W і знаходимо власні векториТWB = T - W . Я можу побудувати обидва власні вектори на одній і тій же розсипці:W- 1Б
Штрихові лінії - це дискримінаційні осі. Я побудував їх з довільною довжиною, але довша вісь показує власний вектор з більшим власним значенням (4.1), а коротший --- той, що має менше власне значення (0,02). Зауважимо, що вони не є ортогональними, але математика LDA гарантує, що проекції на ці осі мають нульову кореляцію.
Якщо ми зараз проектуємо наші дані на першу (довшу) дискримінантну вісь, а потім запускаємо ANOVA, отримуємо і p = 10 - 53Ж= 305р = 10- 53 , що нижче, ніж раніше, і є найменшим можливим значенням серед усіх лінійних прогнозів (що була вся суть ЛДА). Проекція на другу вісь дає лише .р = 10- 5
Якщо ми запустили MANOVA на одних і тих же даних, обчислимо ту саму матрицю і подивимось її власні значення, щоб обчислити p-значення. У цьому випадку більше власне значення дорівнює 4,1, яка дорівнює B / W для ANOVA уздовж першого дискриминант ( на насправді, Р = В / Вт ⋅ ( N - до ) / ( K - 1 ) = 4.1 ⋅ 147 / 2 =W- 1ББ / Вт , де N = 150 - загальна кількість точок даних іЖ= В / Ш⋅ ( N- до ) / ( K - 1 ) = 4.1 ⋅ 147 / 2 = 305N= 150 - кількість груп).k = 3
Існує кілька часто використовуваних статистичних тестів, які обчислюють значення p від власного спектру (в даному випадку і λ 2 = 0,02 ) і дають дещо інші результати. MATLAB дає мені тест Вілкса, який повідомляє p = 10 - 55 . Зауважте, що це значення нижче, ніж у нас раніше з будь-якою ANOVA, і інтуїція тут полягає в тому, що р-значення MANOVA "поєднує" два p-значення, отримані з ANOVA на двох дискримінантних осях.λ1= 4.1λ2= 0,02р = 10- 55
Ж( 8 , 4 )
р = 10- 55р = 0,26р = 10- 54∼ 5p ≈ 0,05p
MANOVA vs LDA як машинне навчання порівняно зі статистикою
Це мені зараз здається одним із зразкових випадків того, як різні спільноти машинного навчання та спільноти статистики підходять до одного і того ж. Кожен підручник з машинного навчання охоплює LDA, показує приємні фотографії тощо, але він навіть ніколи не згадує про MANOVA (наприклад, Бішоп , Хасті та Мерфі ). Можливо, тому, що людей більше цікавить точність класифікації LDA (що приблизно відповідає розміру ефекту), і вони не зацікавлені в статистичній значущості групової різниці. З іншого боку, підручники з багатоваріантного аналізу обговорювали б MANOVA adusese, надавали б багато табличних даних (arrrgh), але рідко згадують LDA і навіть рідше показують будь-які сюжети (наприклад,Андерсон , або Гарріс ; однак Rencher & Christensen do, Huberty & Olejnik навіть називають "MANOVA and Discriminant Analysis").
Факторна MANOVA
Факторна MANOVA набагато заплутаніша, але її цікаво розглянути, оскільки вона відрізняється від LDA в тому сенсі, що "факторна LDA" насправді не існує, а факторна MANOVA безпосередньо не відповідає жодному "звичайному LDA".
3 ⋅ 2 = 6 "осередків" в експериментальній конструкції (з використанням термінології ANOVA). Для простоти я розгляну лише дві залежні змінні (DV):
На цьому малюнку всі шість "комірок" (я їх ще називатиму "групами" або "класами") добре розділені, що, звичайно, рідко трапляється на практиці. Зауважте, що очевидно, що тут є суттєві основні ефекти обох факторів, а також значний ефект взаємодії (тому що верхньоправа група зміщена вправо; якби я перемістив її у положення "сітки", то не було б ефект взаємодії).
Як в цьому випадку працюють обчислення MANOVA?
WБАБАW- 1БА
БББА Б
T = BА+ ВБ+ ВА Б+ W .
Бне можна однозначно розкласти на суму трьох факторних внесків, оскільки фактори вже не є ортогональними; це схоже на обговорення типу I / II / III SS в ANOVA.]
БАWА= Т - ВА
W- 1БА