Я маю матрицю, де - кількість генів і - кількість пацієнтів. Той, хто працював з такими даними, знає, що завжди більше . Використовуючи вибір функцій, я отримав вниз до більш розумного числа, однак все ж більший за .
Я хотів би обчислити подібність пацієнтів на основі їх генетичних профілів; Я міг би використовувати евклідову відстань, однак махаланобіс видається більш доцільним, оскільки пояснює кореляцію змінних. Проблема (як зазначалося в цій публікації ) полягає в тому, що відстань махаланобіса, зокрема матриця коваріації, не працює, коли . Коли я пробігаю відстань Mahalanobis в R, я отримую помилку:
Error in solve.default(cov, ...) : system is computationally
singular: reciprocal condition number = 2.81408e-21
Поки, щоб спробувати вирішити це, я використовував PCA і замість генів використовую компоненти, і це, здається, дозволяє мені обчислити відстань Mahalanobis; 5 компонентів представляють близько 80% дисперсії, тому тепер .
Мої запитання: чи можу я використовувати ПЦА, щоб осмислити відстань махаланобіса між пацієнтами, чи це недоцільно? Чи є альтернативні показники відстані, які працюють, коли а також існує велика кореляція серед змінних?
PCA
, мені цікаво, чи можна використовувати будь-яку метрику відстані на вихідних даних.
PCA
можуть порушити змінні кореляції, якщо ви не використовуєте щось на зразок косого обертання. Я також не впевнений, як розподілення дисперсіїPCA
впливатиме на відстань махаланобіса між подібними пацієнтами.