Як проектувати простір високого розміру в двовимірну площину?


11

У мене є набір точок даних у N-мірному просторі. Крім того, у мене також є центроїд в цьому ж N-мірному просторі. Чи є підходи, які можуть дозволити мені проектувати ці точки даних у двовимірний простір, зберігаючи їх відносну інформацію про відстань у вихідному просторі. PCA є правильним?


1
Якщо ви хочете спробувати зберегти відстані, першою моєю думкою було б багатовимірне масштабування самих відстаней (що пов'язано з PCA), але оскільки у вас є локації, а не лише відстані, на моє розуміння, PCA повинен працювати для цього .
Glen_b -Встановити Моніку

1
@Glen_b, Ключовим моментом є не те, що MDS призначений для введення відстаней, а PCA - для введення координат, а те, що ітеративний MDS відповідає декільком вимірам, в той час як PCA зберігає невеликі розміри. Таким чином, MDS зберігає відстані дещо краще, ніж це робить класичний PCA. Відповідь на питання: Так, PCA підходить, але MDS більше підходить.
ttnphns

1
Це значною мірою вивчається в області вбудовування метричного простору , тобто як можна зменшити розмірність даних при мінімізації спотворення відстаней.
Побіт

Відповіді:


6

Загальна основа, яка вирішує вашу проблему, називається зменшенням розмірності. Ви хочете спроектувати дані з N розмірів на 2 виміри, зберігаючи "важливу інформацію" у своїх даних. Найбільш підходящий метод залежить від розподілу ваших даних, тобто N-мірного колектора. PCA буде відповідати площині, використовуючи критерій найменших квадратів. Це, ймовірно, буде погано працювати на прикладі "швейцарського рулону": швейцарський рулон .

Більш сучасні методи включають Kernel PCA, LLE, дифузійні карти та розрізнені уявлення словника. Що стосується збереження відстані, то деякі методи дозволяють зберегти неевклідові відстані.


2
Важливо зазначити, що методи "зменшення розмірності" зазвичай не підтримують "відносну інформацію про відстань". Зроблять це чи ні, залежить частково від методу і частково від передбачуваної "відстані".
whuber

2

Як було сказано в попередній відповіді, існує ряд методів зменшення розмірності, і важливо враховувати те, що ви намагаєтесь представляти - вас цікавлять евклідові заходи відстані? Або показник подібності між зразками?

Для перших PCA може бути відповідним. Він зазвичай використовується при безперервних заходах, таких як вимірювання зразків (тварин, рослин тощо). Я хотів би також розглянути більш сучасні згадки в попередній відповіді.

Для останнього, де, можливо, ви намагаєтеся порівняти подібність за допомогою неевклідової метрики відстані, існує кілька хороших методів, такі як впорядкування принципових компонентів (PCoA) та неметрічне багатовимірне масштабування (NMDS). Приклад, коли ви можете їх використовувати, - це, коли ви порівнюєте екологічні спільноти між різними районами, і у вас знайдено кількість різних типів організмів. Отже, ваші дані - це "підрахунок" даних. Існує ряд показників подібності, таких як Жакард, Соренсен, Брей-Кертіс, які ефективно дозволяють оцінити, наскільки схожі ділянки за своїм складом організмів. PCoA та NMDS, в основному, дозволяють побудувати зразки (ділянки), щоб представити екологічну відстань (подібність), і у вас є оцінка для сайту на кожній осі.

Є багато хороших книг та інших ресурсів для багатоваріантного аналізу. Шукайте "Упорядкування" в Google. Крім того, є пакет R під назвою "веганський", який справді хороший для того, щоб виконати багато цієї роботи.


0

Ваша проблема звучить як програма з підручниками для багатовимірного масштабування . Гарний вступ можна знайти тут: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm

Звичайно, ви можете спробувати PCA. Але PCA не має наміру зберігати відносну інформацію про відстань у вихідному просторі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.