Який взаємозв'язок між регресією та лінійним дискримінантним аналізом (LDA)?


24

Чи існує взаємозв'язок між регресією та лінійним дискримінантним аналізом (LDA)? У чому їх схожість та відмінності? Чи має якусь різницю, якщо є два класи або більше двох класів?


3
Примітка для читача: питання неоднозначне, його можна розуміти як запитання про логістичну регресію або про лінійну регресію . Здається, ОП зацікавила обидва аспекти (див. Коментарі). Прийнята відповідь стосується лінійної регресії, але натомість деякі інші відповіді зосереджуються на логістичній регресії.
амеба каже: Відновити Моніку

Відповіді:


20

Я вважаю, що питання стосується LDA та лінійної (не логістичної) регресії.

Існує значний і змістовний зв’язок між лінійною регресією та лінійним дискримінантним аналізом . У випадку, якщо залежна змінна (DV) складається лише з 2 груп, два аналізи фактично однакові. Незважаючи на те, що обчислення різні, а результати - коефіцієнти регресії та дискримінації - не однакові, вони точно пропорційні один одному.

Тепер для ситуації, що складається з більш ніж двох груп. По-перше, зазначимо, що LDA (її видобуток, а не класифікаційний етап) еквівалентний (лінійно пов'язаним результатам) канонічному кореляційному аналізу, якщо перетворити групуючий DV в набір фіктивних змінних (з однієї надлишкової з них випав) і зробити канонічну аналіз з наборами "IVs" та "манекени". Канонічні змінні на боці "IV", які ви отримаєте, - це те , що LDA називає "дискримінантними функціями" або "дискримінантами".

Отже, як канонічний аналіз пов'язаний з лінійною регресією? Канонічний аналіз - це, по суті, MANOVA (в сенсі "Багатовимірна множинна лінійна регресія" або "Багатоваріантна загальна лінійна модель"), поглиблений у латентну структурувзаємозв'язків між DV та IV. Ці дві варіації розкладаються у своїх взаємозв'язках на приховані "канонічні змінні". Візьмемо найпростіший приклад: Y vs X1 X2 X3. Максимізація кореляції між двома сторонами є лінійною регресією (якщо ви прогнозуєте Y за допомогою Xs) або - що те саме - це MANOVA (якщо ви прогнозуєте Xs на Y). Кореляція є одновимірною (з величиною R ^ 2 = слід Піллея), оскільки менша множина, Y, складається лише з однієї змінної. Тепер візьмемо ці два набори: Y1 Y2 проти X1 x2 x3. Тут максимальне співвідношення є двовимірним, оскільки менший набір містить 2 змінні. Перший і сильніший прихований вимір кореляції називається 1-м канонічним співвідношенням, а решта, ортогональною йому, 2-ю канонічною кореляцією. Так, MANOVA (або лінійна регресія) просто запитує, які є часткові ролі (коефіцієнти) змінних у всьому двовимірному співвідношенні множин; тоді як канонічний аналіз просто йде нижче, щоб запитати, які часткові ролі змінних у 1-му кореляційному вимірі та у другому.

Таким чином, канонічний кореляційний аналіз - це багатоваріантна лінійна регресія, поглиблена в приховану структуру взаємозв'язку між DV та IV. Дискримінантний аналіз - це окремий випадок канонічного кореляційного аналізу ( див. Саме як ). Отже, тут була відповідь про відношення ЛДА до лінійної регресії в загальному випадку більш ніж двох груп.

Зауважте, що моя відповідь зовсім не розглядає LDA як техніку класифікації. Я обговорював LDA лише як техніку вилучення пізніх термінів. Класифікація - це другий і окремий етап LDA (я описав це тут ). @Michael Chernick зосередив увагу на цьому у своїх відповідях.


Навіщо мені потрібен "канонічний кореляційний аналіз" і що він робить тут? Спасибі.
zca0

1
+1 (давно). Чи знаєте ви будь-які посилання, які обговорюють (докладно) цей зв'язок між MANOVA / CCA / регресією між X та матрицею групових манекенів Y та LDA (для загального випадку більш ніж двох груп)? Зараз я вивчаю цю тему, і, думаю, я вже більш-менш розібрався в цьому, але коли я шукаю, на regression formulation of LDAдиво важко щось знайти - є кілька дослідницьких робіт, опублікованих після 2000 року, які говорять про те, що такої постановки не існує або намагаючись запропонувати одне. Чи може бути хороша [стара] довідка?
амеба каже, що повернеться до Моніки

3
Ммм .. Просто пара документів , що надходять на розум швидко: Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling. Olcay Kursun et al. Canonical correlation analysis using within-class coupling. Якщо ви не можете знайти їх в Інтернеті, я можу надіслати вам. Якщо ви знайдете більше і кращих джерел - повідомте нас про це.
ttnphns

1
Мій пасаж зовсім не означає, що ви можете отримати коефіцієнти CCA, що мають лише результати регресії (MANOVA). Я говорив, що MANOVA - це "поверхня", а CCA - це більш "глибокі" шари того ж аналітичного підприємства. Я не сказав, що вони є синонімами, або що один є простим конкретним випадком іншого.
ttnphns

1
Розумію. Тут я вирішив опублікувати ще одну відповідь, надаючи математичні деталі еквівалентності LDA / регресії.
амеба каже: Відновити Моніку

11

Ось посилання на одну з робіт Efron: Ефективність логістичної регресії порівняно з нормальним дискримінантним аналізом , 1975 рік.

Інший релевантний документ - Ng & Jordan, 2001, « Про дискримінацію проти генеративних класифікаторів: порівняння логістичної регресії та наївного Байєса» . І ось реферат коментаря до нього Xue & Titterington , 2008, який згадує документи О'Нілла, пов'язані з його докторською дисертацією:

Порівняння генеративних та дискримінаційних класифікаторів є постійно тривалою темою. Як важливий внесок у цю тему, ґрунтуючись на їх теоретичних та емпіричних порівняннях між наївним класифікатором Байєса та лінійною логістичною регресією, Нг та Йорданія (NIPS 841 --- 848, 2001) стверджували, що між генеративними існують два чіткі режими роботи та дискримінаційні класифікатори стосовно розміру навчального набору. У цій роботі наші емпіричні та імітаційні дослідження як доповнення до їхньої роботи припускають, що існування двох різних режимів може бути не таким надійним. Крім того, для наборів даних у реальному світі поки що немає теоретично правильного, загального критерію вибору між дискримінаційним та генеративним підходами до класифікації спостереженнях в класу ; вибір залежить від відносної впевненості у правильності специфікації абоp(у|х) абоp(х,у) для даних. Це може бути певною мірою демонстрацією того, чому Ефрон (J Am Stat Assoc 70 (352): 892 --- 898, 1975) та О'Нілл (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) віддають перевагу нормальному лінійному дискримінантному аналізу (LDA), коли не відбувається неправильної специфікації моделі, але натомість інші емпіричні дослідження можуть віддавати перевагу лінійній логістичній регресії. Крім того, ми пропонуємо, що поєднання або LDA, що приймає загальну діагональну коваріаційну матрицю (LDA), або наївний класифікатор Байєса та лінійну логістичну регресію, може бути не ідеальною, і, отже, воно не може бути надійним для будь-яких тверджень, що були отримані з порівняння між LDA або наївний класифікатор Байєса та лінійна логістична регресія, які мають бути узагальнені до всіх генеративних та дискримінаційних класифікаторів.

Є багато інших посилань на це, які ви можете знайти в Інтернеті.


+1 за чимало впорядкованих посилань на (зараз уточнений ОП) предмет логістичної регресії проти LDA.
Макрос

1
Ось інше порівняння генеративних і гуманних класифікатори Ярослава Булатов на Quora: quora.com / ...
Pardis

Також пов’язана тема, stats.stackexchange.com/q/95247/3277
ttnphns

7

Мета цієї відповіді - пояснити точну математичну залежність між лінійним дискримінантним аналізом (LDA) та багатоваріантною лінійною регресією (MLR). Виявиться, що правильна структура забезпечується регресією зменшеного рангу (RRR).

Ми покажемо, що LDA еквівалентний RRR побіленої матриці індикаторів класу на матриці даних.


Позначення

Нехай - матриця n × d з точками даних x i в рядках і змінними в стовпцях. Кожна точка належить до одного з k класів, або груп. Точка x i належить до класу номер g ( i ) .Xn×dxikxig(i)

Нехай буде п × K членство в групі матриць кодування індикатора наступним чином : G я J = 1 , якщо х я належу до класу J і G я J = 0 в іншому випадку. У класі j є n j точок даних ; звичайно n j = n .Gn×kGij=1хijГij=0нjjнj=н

Ми припускаємо, що дані центрировані, і тому загальна середня дорівнює нулю, . Нехай - середнє значення класу .μ j jмк=0мкjj

LDA

Загальна матриця розсіювання може бути розкладена на суму матриць розсіювання між класом та всередині класу, визначених таким чином: Можна перевірити, що . LDA здійснює пошук дискримінантних осей, які мають максимальну дисперсію між групами та мінімальну дисперсію в групі проекції. Зокрема, перша дискримінантна вісь - це одиничний вектор максимізація , а перший дискримінант осі, складені разом у матрицюC bС=ХХC=Cb+CwwwCbw/(

Сб=jнjмкjмкjСш=(хi-мкг(i))(хi-мкг(i)).
С=Сб+Сшшp W L LшСбш/(шСшш)pW повинен максимізувати слід
LLDА=тр(WСбW(WСшW)-1).

Якщо припустити, що є повним рангом, рішення LDA є матрицею власних векторів (упорядкованих власними значеннями у порядку зменшення).W L D A CСшWLDАСш-1Сб

Це була звичайна історія. Тепер зробимо два важливих зауваження.

По-перше, матриця розсіювання всередині класу може бути замінена загальною матрицею розсіювання (зрештою, оскільки максимізація еквівалентна максимізації ), і дійсно, легко побачити, що має ті ж власні вектори.б / ( бб/шC - 1 C bб/(б+ш)С-1Сб

По-друге, матриця розсіювання між класом може бути виражена через матрицю групового членства, визначену вище. Дійсно, - матриця групових сум. Щоб отримати матрицю групових засобів, її слід помножити на діагональну матрицю з по діагоналі; це дає . Отже, матриця засобів групи - ( sapienti помітить, що це формула регресії). Для отримання нам потрібно взяти його матрицю розсіювання, зважену тією ж діагональною матрицею, отримавши Якщо всі однакові і рівніn j GG ( GG ) - 1 GX C b C b = XG ( GG )ГХнjГГ(ГГ)-1ГХСбn j m

Сб=ХГ(ГГ)-1ГХ.
нjм("збалансований набір даних"), тоді цей вираз спрощується до .ХГГХ/м

Ми можемо визначити нормалізовану матрицю індикаторів як де має . Тоді для обох, збалансованих і незбалансованих наборів даних, вираз просто . Зверніть увагу, що - до постійного коефіцієнта - побілена матриця індикаторів: . 1/Г~ G1Cb=X ˜ G ˜ GX ˜1/нjГ1Сб=ХГ~Г~Х ˜ G =G(Г~Г~=Г(ГГ)-1/2

Регресія

Для простоти ми почнемо з випадку збалансованого набору даних.

Розглянемо лінійну регресію на . Він знаходить мінімізацію . Регресія пониженого рангу робить те ж саме за умови обмеження, що повинно бути заданого рангу . Якщо це так, то можна записати в вигляді як з і , що має стовпчиків. Можна показати, що рішення рангу два можна отримати з рангового рішення, зберігаючи перший стовпець і додаючи додатковий стовпець тощо.X BG - X B 2ГХБГ-ХБ2БpББ=DЖDЖp

Щоб встановити зв’язок між LDA та лінійною регресією, доведемо, що збігається з .DWLDА

Доказ простий. Для даного оптимальне можна знайти за допомогою регресії: . Включивши це у функцію втрат, отримаємо які можна записати як простежити, використовуючи ідентичність . Після легких маніпуляцій ми отримуємо, що регресія еквівалентна максимізації (!) Наступного страшного сліду: що насправді є не що інше, якF F = ( DXX D ) - 1 DXGG - X D ( DXX D ) - 1 DXGDЖЖ=(DХХD)-1DХГ

Г-ХD(DХХD)-1DХГ2,
А2=тr(АА)...=тр ( ДЗ б D ( DЗ D ) - 1 ) / м~ л л Д .
тр(DХГГХD(DХХD)-1),
=тр(DСбD(DСD)-1)/мLLDА.

На цьому закінчується доказ. Для незбалансованих наборів даних нам потрібно замінити на .˜ GГГ~

Можна аналогічно показати, що додавання регуляризації хребта до регресії зменшеного рангу еквівалентно регульованій LDA.

Зв'язок між LDA, CCA та RRR

У своїй відповіді @ttnphns зробив зв'язок із канонічним кореляційним аналізом (CCA). Дійсно, LDA може бути показано, що еквівалентно ССА між і . Крім того, ССА між будь-яким і може бути записана в вигляді RRR передбачення вибіленої з . Решта випливає з цього.G Y X Y XХГYХYХ

Бібліографія

Важко сказати, хто заслуговує на заслуги за те, що представлено вище.

Існує нещодавній документ конференції Cai et al. (2013) Про еквівалент регресій, що базуються на низьких рейтингах та лінійних дискримінантних регресіях, що є точно таким же доказом, як і вище, але створюється враження, що вони винайшли такий підхід. Це точно не так. Торре написав детальну обробку того, як більшість загальних лінійних багатоваріантних методів можна розглядати як регресію зменшеного рангу, див . Рамку з найменшими квадратиками для аналізу компонентів , 2009 р. Та пізніше в розділі книги Уніфікація методів аналізу компонентів , 2013 р .; він подає той же аргумент, але також не дає жодних посилань. Цей матеріал також висвітлюється в підручнику « Сучасні багатоваріантні статистичні методики» (2008) Ізенмана, який представив RRR ще в 1975 році.

Зв'язок між LDA та CCA, очевидно, сходить до Бартлетта, 1938 р. Подальші аспекти теорії множинної регресії - ось те, з чим я часто стикаюся (але не перевіряв). Взаємозв'язок між CCA та RRR описаний у Izenman, 1975, регресія з пониженим рангом для багатоваріантної лінійної моделі . Тож усі ці ідеї існували вже деякий час.


+1 від мене за деталі та за посилання на мою відповідь та за введення тут RRR (заздалегідь підкресливши, бо пройде якийсь невідомий час, перш ніж я сідаю, щоб пролізти всю цю чудову / грізну алгебру!).
ttnphns

0

Лінійна регресія та лінійний дискримінантний аналіз сильно відрізняються. Лінійна регресія стосується залежної змінної до набору незалежних змінних прогнозів. Ідея полягає у пошуку лінійної функції в параметрах, яка найкраще відповідає даним. Він навіть не повинен бути лінійним у коваріатах. Лінійний дискримінантний аналіз, з іншого боку, є процедурою класифікації об'єктів на категорії. Для двокласової проблеми вона прагне знайти найкращий роздільний гіперплан для поділу груп на дві категорії. Тут найкраще означає, що вона мінімізує функцію втрат, яка є лінійною комбінацією частот помилок. Для трьох і більше груп він знаходить найкращий набір гіперпланів (k-1 для задачі k класу). При дискримінаційному аналізі гіпоерплани в змінних ознак лінійні.

Основна схожість між ними - термін лінійний у заголовках.


Вибачте, я написав неправильно. Повинна бути регресія та ЛДА. Я бачив деякі статті про лінійних дискримінантів за допомогою регресії, але не знаю, як це працює. Я думаю, що ЛДА та логістична регресія для двох класів мають певні стосунки, але не можуть дуже чітко сказати, що вони є. І вже більше двох класів я не знаю, чи є стосунки.
zca0

1
Так, існує зв'язок між логістичною регресією та лінійним дискримінантним аналізом. Про це писали Ефрон та його студент Террі О'Нілл в кінці 1970-х. Я спробую знайти посилання на посилання.
Майкл Р. Черник

2
Ось відповідне питання та відповіді на резюме. stats.stackexchange.com/questions/14697/…
Майкл Р. Черник

-1 тому, що насправді існує глибокий зв’язок між LDA та регресією, як пояснюють і @ttnphns, і я у своїх відповідях.
Амеба каже: Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.