Чи існує взаємозв'язок між регресією та лінійним дискримінантним аналізом (LDA)? У чому їх схожість та відмінності? Чи має якусь різницю, якщо є два класи або більше двох класів?
Чи існує взаємозв'язок між регресією та лінійним дискримінантним аналізом (LDA)? У чому їх схожість та відмінності? Чи має якусь різницю, якщо є два класи або більше двох класів?
Відповіді:
Я вважаю, що питання стосується LDA та лінійної (не логістичної) регресії.
Існує значний і змістовний зв’язок між лінійною регресією та лінійним дискримінантним аналізом . У випадку, якщо залежна змінна (DV) складається лише з 2 груп, два аналізи фактично однакові. Незважаючи на те, що обчислення різні, а результати - коефіцієнти регресії та дискримінації - не однакові, вони точно пропорційні один одному.
Тепер для ситуації, що складається з більш ніж двох груп. По-перше, зазначимо, що LDA (її видобуток, а не класифікаційний етап) еквівалентний (лінійно пов'язаним результатам) канонічному кореляційному аналізу, якщо перетворити групуючий DV в набір фіктивних змінних (з однієї надлишкової з них випав) і зробити канонічну аналіз з наборами "IVs" та "манекени". Канонічні змінні на боці "IV", які ви отримаєте, - це те , що LDA називає "дискримінантними функціями" або "дискримінантами".
Отже, як канонічний аналіз пов'язаний з лінійною регресією? Канонічний аналіз - це, по суті, MANOVA (в сенсі "Багатовимірна множинна лінійна регресія" або "Багатоваріантна загальна лінійна модель"), поглиблений у латентну структурувзаємозв'язків між DV та IV. Ці дві варіації розкладаються у своїх взаємозв'язках на приховані "канонічні змінні". Візьмемо найпростіший приклад: Y vs X1 X2 X3. Максимізація кореляції між двома сторонами є лінійною регресією (якщо ви прогнозуєте Y за допомогою Xs) або - що те саме - це MANOVA (якщо ви прогнозуєте Xs на Y). Кореляція є одновимірною (з величиною R ^ 2 = слід Піллея), оскільки менша множина, Y, складається лише з однієї змінної. Тепер візьмемо ці два набори: Y1 Y2 проти X1 x2 x3. Тут максимальне співвідношення є двовимірним, оскільки менший набір містить 2 змінні. Перший і сильніший прихований вимір кореляції називається 1-м канонічним співвідношенням, а решта, ортогональною йому, 2-ю канонічною кореляцією. Так, MANOVA (або лінійна регресія) просто запитує, які є часткові ролі (коефіцієнти) змінних у всьому двовимірному співвідношенні множин; тоді як канонічний аналіз просто йде нижче, щоб запитати, які часткові ролі змінних у 1-му кореляційному вимірі та у другому.
Таким чином, канонічний кореляційний аналіз - це багатоваріантна лінійна регресія, поглиблена в приховану структуру взаємозв'язку між DV та IV. Дискримінантний аналіз - це окремий випадок канонічного кореляційного аналізу ( див. Саме як ). Отже, тут була відповідь про відношення ЛДА до лінійної регресії в загальному випадку більш ніж двох груп.
Зауважте, що моя відповідь зовсім не розглядає LDA як техніку класифікації. Я обговорював LDA лише як техніку вилучення пізніх термінів. Класифікація - це другий і окремий етап LDA (я описав це тут ). @Michael Chernick зосередив увагу на цьому у своїх відповідях.
regression formulation of LDA
диво важко щось знайти - є кілька дослідницьких робіт, опублікованих після 2000 року, які говорять про те, що такої постановки не існує або намагаючись запропонувати одне. Чи може бути хороша [стара] довідка?
Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
. Olcay Kursun et al. Canonical correlation analysis using within-class coupling
. Якщо ви не можете знайти їх в Інтернеті, я можу надіслати вам. Якщо ви знайдете більше і кращих джерел - повідомте нас про це.
Ось посилання на одну з робіт Efron: Ефективність логістичної регресії порівняно з нормальним дискримінантним аналізом , 1975 рік.
Інший релевантний документ - Ng & Jordan, 2001, « Про дискримінацію проти генеративних класифікаторів: порівняння логістичної регресії та наївного Байєса» . І ось реферат коментаря до нього Xue & Titterington , 2008, який згадує документи О'Нілла, пов'язані з його докторською дисертацією:
Порівняння генеративних та дискримінаційних класифікаторів є постійно тривалою темою. Як важливий внесок у цю тему, ґрунтуючись на їх теоретичних та емпіричних порівняннях між наївним класифікатором Байєса та лінійною логістичною регресією, Нг та Йорданія (NIPS 841 --- 848, 2001) стверджували, що між генеративними існують два чіткі режими роботи та дискримінаційні класифікатори стосовно розміру навчального набору. У цій роботі наші емпіричні та імітаційні дослідження як доповнення до їхньої роботи припускають, що існування двох різних режимів може бути не таким надійним. Крім того, для наборів даних у реальному світі поки що немає теоретично правильного, загального критерію вибору між дискримінаційним та генеративним підходами до класифікації спостереження в клас ; вибір залежить від відносної впевненості у правильності специфікації або або для даних. Це може бути певною мірою демонстрацією того, чому Ефрон (J Am Stat Assoc 70 (352): 892 --- 898, 1975) та О'Нілл (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) віддають перевагу нормальному лінійному дискримінантному аналізу (LDA), коли не відбувається неправильної специфікації моделі, але натомість інші емпіричні дослідження можуть віддавати перевагу лінійній логістичній регресії. Крім того, ми пропонуємо, що поєднання або LDA, що приймає загальну діагональну коваріаційну матрицю (LDA), або наївний класифікатор Байєса та лінійну логістичну регресію, може бути не ідеальною, і, отже, воно не може бути надійним для будь-яких тверджень, що були отримані з порівняння між LDA або наївний класифікатор Байєса та лінійна логістична регресія, які мають бути узагальнені до всіх генеративних та дискримінаційних класифікаторів.
Є багато інших посилань на це, які ви можете знайти в Інтернеті.
Мета цієї відповіді - пояснити точну математичну залежність між лінійним дискримінантним аналізом (LDA) та багатоваріантною лінійною регресією (MLR). Виявиться, що правильна структура забезпечується регресією зменшеного рангу (RRR).
Ми покажемо, що LDA еквівалентний RRR побіленої матриці індикаторів класу на матриці даних.
Нехай - матриця n × d з точками даних x i в рядках і змінними в стовпцях. Кожна точка належить до одного з k класів, або груп. Точка x i належить до класу номер g ( i ) .
Нехай буде п × K членство в групі матриць кодування індикатора наступним чином : G я J = 1 , якщо х я належу до класу J і G я J = 0 в іншому випадку. У класі j є n j точок даних ; звичайно ∑ n j = n .
Ми припускаємо, що дані центрировані, і тому загальна середня дорівнює нулю, . Нехай - середнє значення класу .μ j j
Загальна матриця розсіювання може бути розкладена на суму матриць розсіювання між класом та всередині класу, визначених таким чином: Можна перевірити, що . LDA здійснює пошук дискримінантних осей, які мають максимальну дисперсію між групами та мінімальну дисперсію в групі проекції. Зокрема, перша дискримінантна вісь - це одиничний вектор максимізація , а перший дискримінант осі, складені разом у матрицюC bC=Cb+Cwww⊤Cbw/(
Якщо припустити, що є повним рангом, рішення LDA є матрицею власних векторів (упорядкованих власними значеннями у порядку зменшення).W L D A C
Це була звичайна історія. Тепер зробимо два важливих зауваження.
По-перше, матриця розсіювання всередині класу може бути замінена загальною матрицею розсіювання (зрештою, оскільки максимізація еквівалентна максимізації ), і дійсно, легко побачити, що має ті ж власні вектори.б / ( бC - 1 C b
По-друге, матриця розсіювання між класом може бути виражена через матрицю групового членства, визначену вище. Дійсно, - матриця групових сум. Щоб отримати матрицю групових засобів, її слід помножити на діагональну матрицю з по діагоналі; це дає . Отже, матриця засобів групи - ( sapienti помітить, що це формула регресії). Для отримання нам потрібно взяти його матрицю розсіювання, зважену тією ж діагональною матрицею, отримавши Якщо всі однакові і рівніn j G ⊤ G ( G ⊤ G ) - 1 G ⊤ X C b C b = X ⊤ G ( G ⊤ G )n j m
Ми можемо визначити нормалізовану матрицю індикаторів як де має . Тоді для обох, збалансованих і незбалансованих наборів даних, вираз просто . Зверніть увагу, що - до постійного коефіцієнта - побілена матриця індикаторів: . 1/√ G1Cb=X⊤ ˜ G ˜ G ⊤X ˜ ˜ G =G(
Для простоти ми почнемо з випадку збалансованого набору даних.
Розглянемо лінійну регресію на . Він знаходить мінімізацію . Регресія пониженого рангу робить те ж саме за умови обмеження, що повинно бути заданого рангу . Якщо це так, то можна записати в вигляді як з і , що має стовпчиків. Можна показати, що рішення рангу два можна отримати з рангового рішення, зберігаючи перший стовпець і додаючи додатковий стовпець тощо.X B ‖ G - X B ‖ 2
Щоб встановити зв’язок між LDA та лінійною регресією, доведемо, що збігається з .
Доказ простий. Для даного оптимальне можна знайти за допомогою регресії: . Включивши це у функцію втрат, отримаємо які можна записати як простежити, використовуючи ідентичність . Після легких маніпуляцій ми отримуємо, що регресія еквівалентна максимізації (!) Наступного страшного сліду: що насправді є не що інше, якF F ⊤ = ( D ⊤ X ⊤ X D ) - 1 D ⊤ X ⊤ G ‖ G - X D ( D ⊤ X ⊤ X D ) - 1 D ⊤ X ⊤ G
На цьому закінчується доказ. Для незбалансованих наборів даних нам потрібно замінити на .˜ G
Можна аналогічно показати, що додавання регуляризації хребта до регресії зменшеного рангу еквівалентно регульованій LDA.
У своїй відповіді @ttnphns зробив зв'язок із канонічним кореляційним аналізом (CCA). Дійсно, LDA може бути показано, що еквівалентно ССА між і . Крім того, ССА між будь-яким і може бути записана в вигляді RRR передбачення вибіленої з . Решта випливає з цього.G Y X Y X
Важко сказати, хто заслуговує на заслуги за те, що представлено вище.
Існує нещодавній документ конференції Cai et al. (2013) Про еквівалент регресій, що базуються на низьких рейтингах та лінійних дискримінантних регресіях, що є точно таким же доказом, як і вище, але створюється враження, що вони винайшли такий підхід. Це точно не так. Торре написав детальну обробку того, як більшість загальних лінійних багатоваріантних методів можна розглядати як регресію зменшеного рангу, див . Рамку з найменшими квадратиками для аналізу компонентів , 2009 р. Та пізніше в розділі книги Уніфікація методів аналізу компонентів , 2013 р .; він подає той же аргумент, але також не дає жодних посилань. Цей матеріал також висвітлюється в підручнику « Сучасні багатоваріантні статистичні методики» (2008) Ізенмана, який представив RRR ще в 1975 році.
Зв'язок між LDA та CCA, очевидно, сходить до Бартлетта, 1938 р. Подальші аспекти теорії множинної регресії - ось те, з чим я часто стикаюся (але не перевіряв). Взаємозв'язок між CCA та RRR описаний у Izenman, 1975, регресія з пониженим рангом для багатоваріантної лінійної моделі . Тож усі ці ідеї існували вже деякий час.
Лінійна регресія та лінійний дискримінантний аналіз сильно відрізняються. Лінійна регресія стосується залежної змінної до набору незалежних змінних прогнозів. Ідея полягає у пошуку лінійної функції в параметрах, яка найкраще відповідає даним. Він навіть не повинен бути лінійним у коваріатах. Лінійний дискримінантний аналіз, з іншого боку, є процедурою класифікації об'єктів на категорії. Для двокласової проблеми вона прагне знайти найкращий роздільний гіперплан для поділу груп на дві категорії. Тут найкраще означає, що вона мінімізує функцію втрат, яка є лінійною комбінацією частот помилок. Для трьох і більше груп він знаходить найкращий набір гіперпланів (k-1 для задачі k класу). При дискримінаційному аналізі гіпоерплани в змінних ознак лінійні.
Основна схожість між ними - термін лінійний у заголовках.