Як лінійний дискримінантний аналіз зменшує розміри?


18

Є слова з "Елементи статистичного навчання" на сторінці 91:

K-центроїди в p-мірному вхідному просторі охоплюють не більше K-1 розмірного підпростору, і якщо p набагато більший за K, це буде значним зниженням розмірності.

У мене є два питання:

  1. Чому K-центроїди в p-мірному вхідному просторі охоплюють щонайбільше K-1 розмірне підпростір?
  2. Як розташовані К-центроїди?

У книзі немає пояснень, і я не знайшов відповіді у суміжних роботах.


3
В центроїди лежать в не більше мірного аффинного підпростору. Наприклад, дві точки лежать на прямій, мірному підпросторі. Це лише визначення афінного підпростору та деякої елементарної лінійної алгебри. К - 1КК-121
деніст

Дуже схоже запитання: stats.stackexchange.com/q/169436/3277 .
ttnphns

Відповіді:


16

Дискримінантами є осі та приховані змінні, які найбільш сильно диференціюють класи. Кількість можливих дискримінантів становить . Наприклад, при k = 3 класах у p = 2 розмірному просторі може існувати щонайбільше 2 дискримінанта, як на наведеному нижче графіку. (Зауважте, що дискримінанти не обов'язково є ортогональними, як осі, намальовані в оригінальному просторі, хоча вони, як змінні, є некорельованими.) Центроїди класів розташовані у дискримінантному підпросторі відповідно до їх перпендикулярних координат щодо дискримінантів.мiн(к-1,p)

введіть тут опис зображення

Алгебра ЛДА на етапі вилучення знаходиться тут .


Гарний графік, яке програмне забезпечення / пакет ви використовували для його створення?
Мішель

SPSS. Самостійно написаний макрос для SPSS.
ttnphns

Чи означає це, що ви не побачите гарного розділення класів у LDA з, скажімо, трьома класами з перекриттям, доки не зміните масштаб осі ?? Я маю на увазі, що я веду LDA, і мої класи роздільні ... але вони стоять на вершині будь-якого іншого в кожній осі, за винятком першої, крім першої ... і ця величезна.
donlan

14

Хоча «Елементи статистичного навчання» - це блискуча книга, для отримання максимуму від неї потрібен порівняно високий рівень знань. В Інтернеті є багато інших ресурсів, які допоможуть вам зрозуміти теми книги.

Давайте візьмемо дуже простий приклад лінійного дискримінантного аналізу, де потрібно згрупувати набір двох розмірних точок даних у K = 2 групи. Падіння розмірів буде лише K-1 = 2-1 = 1. Як пояснив @deinst, падіння розмірів можна пояснити елементарною геометрією.

Дві точки в будь-якому вимірі можна з'єднати лінією, а лінія - одновимірною. Це приклад розмірного підпростору K-1 = 2-1 = 1.

Тепер у цьому простому прикладі набір точок даних буде розсіяний у двовимірному просторі. Точки будуть представлені (x, y), тому, наприклад, у вас можуть бути точки даних, такі як (1,2), (2,1), (9,10), (13,13). Тепер, використовуючи лінійний дискримінантний аналіз для створення двох груп A і B, це призведе до того, що точки даних класифікуються як належать до групи A або до групи B таким чином, щоб певні властивості були задоволені. Лінійний дискримінантний аналіз намагається максимізувати дисперсію між групами порівняно з дисперсією всередині груп.

Іншими словами, групи A і B будуть далеко один від одного і містять точки даних, які знаходяться близько один до одного. У цьому простому прикладі зрозуміло, що точки будуть згруповані наступним чином. Група A = {(1,2), (2,1)} і група B = {(9,10), (13,13)}.

Тепер центроїди обчислюються як центроїди груп точок даних так

Centroid of group A = ((1+2)/2, (2+1)/2) = (1.5,1.5) 

Centroid of group B = ((9+13)/2, (10+13)/2) = (11,11.5)

Центроїди - це просто 2 точки, і вони охоплюють одновимірну лінію, яка з'єднує їх.

Фігура 1

Лінійний дискримінантний аналіз можна розглядати як проекцію точок даних на лінію, щоб дві групи точок даних були максимально "розділеними".

Якби у вас було три групи (і скажімо, тривимірні точки даних), ви отримали б три центроїди, просто три точки, а три точки в просторі 3D визначали двовимірну площину. Знову правило К-1 = 3-1 = 2 розміри.

Я пропоную вам пошукати в Інтернеті ресурси, які допоможуть пояснити та розширити просте введення, яке я дав; наприклад http://www.music.mcgill.ca/~ich/classes/mumt611_07/classifiers/lda_theory.pdf


1
Ласкаво просимо на наш сайт, Мартино!
качан

дякую @whuber, хороший графік, у мене таких інструментів не було під рукою :(
мартіно

Я не думав, що ти все-таки маєш репутацію розміщувати зображення, Мартино: саме тому я зробив для тебе. Але зараз - або незабаром - вам вистачить представника. Якщо нічого не зручно, ви можете використовувати вільно доступне програмне забезпечення з геометричними можливостями малювання, наприклад, R або Geogebra . (Ви побачите, що ілюстровані відповіді привертають більше уваги: ​​вони привабливіші і
зручніші

Чому потік? Якщо є проблема з відповіддю, було б корисно вказати на це - я не бачу такого
мартіно
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.