Стандартизація функцій при використанні LDA як етапу попередньої обробки


9

Якщо багатокласний лінійний дискримінантний аналіз (або я також іноді читаю множинний дискримінантний аналіз) використовується для зменшення розмірності (або перетворення після зменшення розмірності за допомогою PCA), я розумію, що в цілому "нормалізація Z-балів" (або стандартизація) функції не будуть потрібні, навіть якщо вони вимірюються на абсолютно різних масштабах, правда? Оскільки LDA містить термін, подібний до відстані махаланобіса, яка вже означає нормовані евклідові відстані?

Тож це було б не тільки не потрібно, але результати після LDA щодо стандартизованих та нестандартних функцій повинні бути абсолютно однаковими !?


1
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scalesНі, це твердження невірне. Питання стандартизації з LDA такий же, як у будь-якого багатоваріантного методу. Наприклад, PCA. Відстань махаланобіса не має нічого спільного з цією темою.
ttnphns

Дякую, було б чудово, якби ви могли, наприклад, прокоментувати цю "проблему стандартизації" в PCA. Якщо функції не стандартизовані для PCA, чи не деякі функції сприяють (зважуються) більше, якщо вони вимірюються в іншій шкалі і дають мені зовсім інші осі компонентів? А для LDA чому б це не було необхідним? Чи різний результат (лінійні дискримінанти), якщо ні, то чому?

2
Коли ви стандартизуєте (тобто центр, то масштаб), ви фактично будете аналізувати кореляції. Якщо ви не стандартизуєте лише центр, ви фактично будете аналізувати коваріації. Результати будуть відрізнятися, що нормально, адже це так, як ви маєте справу з різними даними. Цей факт не повинен вас хвилювати. Вам може сподобатися читання теми stats.stackexchange.com/q/62677/3277 .
ttnphns

2
@SebastianRaschka, амеба: я повинен переглянути свій коментар The issue of standardization with LDA is the same as in any multivariate method. Насправді, при LDA (на відміну, наприклад, від PCA) результати не повинні відрізнятися, чи лише ви зосереджені (LDA внутрішньо завжди центрирує змінні для вилучення дискримінантів) або z-стандартизовані дані.
ttnphns

2
(Проти.) Власні значення, стандартизовані коефіцієнти, структурна кореляція, дискримінантні бали - все буде те саме. Тільки власні вектори будуть відрізнятися. Причиною, по якій стандартизація не впливає на основні результати в LDA, полягає в тому, що LDA розкладає відношення коваріацій між рівнем і в межах, а не сама коваріація, яка має свою величину (як це робить PCA).
ttnphns

Відповіді:


13

Заслуга цієї відповіді належить @ttnphns, який пояснив усе у коментарях вище. Я все ж хотів би дати розширену відповідь.

На ваше запитання: Чи будуть результати LDA щодо стандартизованих та нестандартних функцій точно однаковими? --- відповідь - так . Я спочатку наведу неформальний аргумент, а потім продовжую деяку математику.

Уявіть двовимірний набір даних, показаний у вигляді діаграми розкидання на одній стороні повітряної кулі (оригінальна картина з повітряної кулі, зроблена звідси ): LDA на повітряній кулі

Тут червоні точки - один клас, зелені - інший клас, а чорні - межа класу LDA. Тепер масштаб осей або відповідає розтягуванню повітряної кулі по горизонталі або вертикалі. Інтуїтивно зрозуміло, що навіть незважаючи на те, що нахил чорної лінії зміниться після такого розтягування, класи будуть точно такими ж відокремленими, як і раніше, і відносне положення чорної лінії не зміниться. Кожне тестове спостереження буде віднесено до того ж класу, що і до розтягування. Тож можна сказати, що розтягнення не впливає на результати ЛДА.xy


Тепер математично LDA знаходить набір дискримінантних осей, обчислюючи власні вектори , де і знаходяться в межах і між класом розсіяти матриці. Рівнозначно, це узагальнені власні вектори узагальненої задачі про власне значення .W1BWBBv=λWv

Розглянемо централізовану матрицю даних зі змінними в стовпцях та точками даних у рядках, так що загальна матриця розсіювання задається . Стандартизація даних означає масштабування кожного стовпця на певне число, тобто його заміну на , де являє собою діагональну матрицю з коефіцієнтами масштабування (звороти стандартних відхилень кожного стовпця) на діагоналі. Після такого масштабування матриця розсіювання зміниться так: , і те саме перетворення відбудеться і зXT=XXXXnew=XΛΛTnew=ΛTΛWnew та .Bnew

Нехай є власним вектором вихідної проблеми, тобтоЯкщо ми помножимо це рівняння на зліва і вставимо з обох сторін перед , отримаємо тобто що означає, щоv

Bv=λWv.
ΛΛΛ1v
ΛBΛΛ1v=λΛWΛΛ1v,
BnewΛ1v=λWnewΛ1v,
Λ1vє власним вектором після масштабування з точно таким же власним значенням як раніше.λ

Так що дискримінантна вісь (задана власним вектором) зміниться, але її власне значення, яке показує, наскільки розділені класи, залишиться точно таким же. Більше того, проекція на цю вісь, спочатку задана , тепер буде задана , тобто залишиться точно таким же (можливо, до масштабуючого коефіцієнта).XvXΛ(Λ1v)=Xv


2
+1. "Мораль" всієї історії полягає в тому, що різниця між єдиними централізованими даними та стандартизованими даними цілком абсурдна у власних векторах. Отже, коли дані множуються на відповідні власні вектори для отримання дискримінантних балів, ефект від стандартизації скасовується. XXΛΛ
ttnphns
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.