Відстань махаланобіса через PCA, коли


10

Я маю матрицю, де - кількість генів і - кількість пацієнтів. Той, хто працював з такими даними, знає, що завжди більше . Використовуючи вибір функцій, я отримав вниз до більш розумного числа, однак все ж більший за .н×ppнpнppн

Я хотів би обчислити подібність пацієнтів на основі їх генетичних профілів; Я міг би використовувати евклідову відстань, однак махаланобіс видається більш доцільним, оскільки пояснює кореляцію змінних. Проблема (як зазначалося в цій публікації ) полягає в тому, що відстань махаланобіса, зокрема матриця коваріації, не працює, коли . Коли я пробігаю відстань Mahalanobis в R, я отримую помилку:н<p

 Error in solve.default(cov, ...) :    system is computationally
 singular: reciprocal condition number = 2.81408e-21

Поки, щоб спробувати вирішити це, я використовував PCA і замість генів використовую компоненти, і це, здається, дозволяє мені обчислити відстань Mahalanobis; 5 компонентів представляють близько 80% дисперсії, тому тепер .н>p

Мої запитання: чи можу я використовувати ПЦА, щоб осмислити відстань махаланобіса між пацієнтами, чи це недоцільно? Чи є альтернативні показники відстані, які працюють, коли а також існує велика кореляція серед змінних?н<pн


Місця PCAможуть порушити змінні кореляції, якщо ви не використовуєте щось на зразок косого обертання. Я також не впевнений, як розподілення дисперсії PCAвпливатиме на відстань махаланобіса між подібними пацієнтами.
Мішель

Якщо PCA порушує змінну кореляцію, чи можу я використовувати якусь іншу метрику відстані (наприклад, відстань Пірсона) замість відстані Mahalanobis?
user4673

Я не знаю достатньо, щоб рекомендувати далі. Я сподівався, що хтось інший вскочить у розмову. :) З огляду на те, як застосовуються різні способи скорочення змін PCA, мені цікаво, чи можна використовувати будь-яку метрику відстані на вихідних даних.
Мішель

Я не експерт у цій галузі. Я просто хочу поділитися, що у вас є ваша усміхнена проблема, і я використав 'cov.shrink' з пакета corpcor .
Бруно Суса

Відповіді:


8

Якщо зберегти всі компоненти з PCA - тоді евклідові відстані між пацієнтами в новому просторі PCA будуть дорівнювати їх відстаням махаланобіса в просторі, що спостерігається. Якщо ви пропустите деякі компоненти, це трохи зміниться, але все одно. Тут я посилаюся на одинично-дисперсійні компоненти PCA, а не на вигляд, дисперсія якого дорівнює власній цінності (я не впевнений у вашій реалізації PCA).

Я просто маю на увазі, що якщо ви хочете оцінити відстань махаланобіса між пацієнтами, ви можете застосувати PCA та оцінити евклідову відстань. Оцінка відстані махаланобіса після застосування PCA мені здається чимось безглуздим.


Ось коротка стаття, що обговорює співвідношення: Бретон, Р.Г. Відстань Махаланобіса та його відношення до основних складових балів Журнал хіміометрії, Вілі-Блеквелл, 2015, 29, 143–145. dx.doi.org/10.1002/cem.2692 . Зауважимо, що PCA у хіміометрії за замовчуванням - це чисте обертання даних, отже, не одинична дисперсія версія, на яку Дмитро посилається.
cbeleites незадоволений SX

2

Погляньте на наступний документ:

Зубер, В., Сільва, APD, & Strimmer, K. (2012). Новий алгоритм одночасного відбору SNP у дослідженнях асоціацій у широких масштабах генома . Біоінформатика BMC , 13 (1), 284.

Це саме стосується вашої проблеми. Автори припускають використання нових вимірювань важливості змінної, крім того, що раніше вони запровадили пенізований метод оцінки для кореляційної матриці пояснювальних змінних, який відповідає вашій проблемі. Вони також використовують відстань махаланобіса для декорреляції!

Методи включені в пакет «догляд» за пакетом R, доступний на CRAN


0

Результати PCA (або результати PCA) використовуються в літературі для обчислення відстані махаланобіса між зразком і розподілом зразків. Для прикладу дивіться цю статтю . У розділі "Методи аналізу" автори констатують:

Набори даних спектрів флуоресценції (681) зводяться до нижнього виміру (11) шляхом оцінки основних компонентів (ПК) кореляційної матриці (681 × 681). Оцінки ПК оцінюються за допомогою проектування оригінальних даних на ПК. Класифікація серед наборів даних була здійснена за допомогою моделі відстані Mahalanobis шляхом обчислення відстаней махаланобіса для балів ПК.

Я бачив інші приклади дискримінантного аналізу, заснованого на PCA / Mahalanobis, в літературі та в довідковому меню хімічного програмного забезпечення GRAMS IQ. Ця комбінація має сенс, оскільки відстань махаланобіса не працює добре, коли кількість змінних перевищує кількість доступних зразків, а PCA зменшує кількість змінних.

Алгоритми машинного навчання класичного класифікації (наприклад, Isolation Forest, One-ClassSVM тощо) є можливою альтернативою дискримінантному аналізу на основі PCA / Mahalanobis. У нашій лабораторії ізоляційний ліс у поєднанні з попередньою обробкою даних дав хороші результати в класифікації ближнього інфрачервоного спектру.

Що стосується дещо пов'язаної ноти, виявлення зовнішньої чи новизни з відстані PCA / Mahalanobis для отримання високих розмірних даних часто вимагає розрахунку граничної відстані махаланобіса . Ця стаття дозволяє припустити, що обрізання можна обчислити як квадратний корінь критичного значення розподілу chi-квадрата , якщо вважати, що дані зазвичай розподіляються. Це критичне значення вимагає кількості ступенів свободи та значення ймовірності, пов'язаної з даними. У статті випливає, що кількість основних компонентів, що зберігаються, дорівнює кількості ступенів свободи, необхідних для обчислення критичного значення, оскільки автори використовували кількість функцій у наборі даних для свого обчислення.


Ласкаво просимо на наш сайт. Оскільки це не є явним у вашій відповіді, чи можете ви пояснити, як він звертається дон<pобставина, викладена у питанні?
whuber

Коли n <p, PCA використовується для зменшення p. Кількість компонентів, збережених в результаті аналізу PCA (nc), зазвичай набагато менше p, а також може бути меншим, ніж n залежно від розміру n. Таким чином, PCA змінює проблему "n by p" на проблему "n by nc". У нашій лабораторії, де ми аналізуємо спектри NIR, p представляє кількість довжин хвиль, яке, як правило, перевищує дві тисячі. n представляє кількість навчальних зразків (~ 20-150). nc, як правило, від 3 до 11. Коли n> nc, аналіз PCA / Mahalanobis дає хороші результати.
Шериф Діалло

1
Проблема полягає не в тому, що робить PCA. Це добре висвітлено в інших темах на цьому сайті. Проблема полягає в тому, що відстань махаланобіса зазвичай не може бути обчислена в цьому випадку через особливості матриці коваріації: це обставина, описана в питанні.
whuber

Дякую за добрі коментарі. Схоже, у нас є різні тлумачення того, що запитує користувач. У прийнятій відповіді зазначено, "якщо ви хочете оцінити відстань махаланобіса між пацієнтами, ви можете застосувати PCA та оцінити евклідову відстань. Оцінка відстані махаланобіса після застосування PCA здається чимось безглуздим ...". Я думаю, що останнє речення суперечить літературі, яку я бачив і цитував. Як ти гадаєш? З повагою.
Шериф Діалло

1
Зрозумів. Дякую :)!
Шериф Діалло
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.