Чи є необхідна кількість дисперсії, зібрана PCA, щоб зробити пізніші аналізи?


15

У мене є набір даних з 11 змінними і PCA (ортогональний) було зроблено для зменшення даних. Визначивши кількість компонентів, які потрібно зберегти, для мене було видно з моїх знань про тему та графік обстеження (див. Нижче), що двох основних компонентів (ПК) було достатньо для пояснення даних, а інші компоненти були менш інформативними.

введіть тут опис зображення
Діаграма обрізу з паралельним аналізом: спостережувані власні значення (зелені) та модельовані власні значення на основі 100 моделювання (червоний). Графік екрана пропонує 3 ПК, тоді як паралельний тест пропонує лише перші два ПК.

введіть тут опис зображення

Як ви бачите, лише 48% дисперсії можуть бути захоплені першими двома ПК.

Графічні спостереження на першій площині, зроблені першими двома ПК, виявили три різні кластери з використанням ієрархічної агломераційної кластеризації (HAC) та кластеризації K-засобів. Ці 3 кластери виявились дуже актуальними для проблеми, що розглядається, і були також узгоджені з іншими висновками. Тому, за винятком того, що лише 48% дисперсії було захоплено, все інше було надзвичайно чудовим.

Один з моїх двох рецензентів сказав: не можна багато покладатися на ці висновки, оскільки лише 48% дисперсії можна пояснити, і це менше, ніж потрібно.

Питання
Чи є якесь необхідне значення, скільки дисперсії має бути зафіксовано PCA, щоб бути дійсним? Чи не залежить від знань про домен та використовуваної методології? Чи може хто-небудь судити про достоїнство всього аналізу лише на основі простого значення поясненої дисперсії?

Примітки

  • Дані - це 11 змінних генів, виміряних за дуже чутливою методологією в молекулярній біології під назвою кількісна полімеразна ланцюгова реакція в реальному часі (RT-qPCR).
  • Аналізи проводили за допомогою Р.
  • Відповіді аналітиків даних, що базуються на особистому досвіді, що працює над проблемами реального життя в галузі мікромасивного аналізу, хіміометрії, спектрометричного аналізу тощо.
  • Будь ласка, подумайте, якомога більше підтримуйте відповідь посиланнями.

Розподіл власних значень досить важливий для теорії випадкової матриці. Розподіл Марченко-Пастур іноді використовується для подібних застосувань.
Іван

Що показує зелена та що показують помаранчеві / коричневі лінії? Є лише в осі.
usεr11852 повідомляє Відновити Монік

@ usεr11852, перегляньте оновлений підпис.
докторантура

Відповіді:


8

Що стосується ваших конкретних питань:

Чи є якесь необхідне значення, скільки дисперсії має бути зафіксовано PCA, щоб бути дійсним?

Ні, немає (наскільки мені відомо). Я твердо вірю, що не існує єдиного значення, яке ви можете використовувати; відсутній магічний поріг відсотка відзнятої дисперсії. Стаття Кангелосі та Горіелі: Затримання компонентів в аналізі основних компонентів із застосуванням даних мікроматриці кДНК дає досить хороший огляд півдесятка стандартних правил, щоб визначити кількість компонентів у дослідженні. (Графік екрану, Пояснюється пропорція загальної дисперсії, Середнє правило власного значення, Діаграма власного значення та ін.) Як великі правила, я не буду сильно покладатися на жодне з них.

Чи не залежить від знань про домен та використовуваної методології?

В ідеалі це повинно бути залежним, але вам слід бути обережними, як ви це вимовляєте і що ви маєте на увазі.

Наприклад: в акустиці існує поняття просто помітної різниці ( JND ). Припустимо, що ви аналізуєте зразок акустики, і певний ПК має зміни фізичної шкали значно нижче цього порогу JND. Ніхто не може легко стверджувати, що для програми Acoustics ви повинні включити цей ПК. Ви б аналізували нечутний шум. Можливо, є деякі причини включення цього ПК, але ці причини потрібно подавати не навпаки. Чи схожі вони на поняття JND для аналізу RT-qPCR?

Так само, якщо компонент схожий на поліном Legendre 9-го порядку, і у вас є вагомі докази того, що ваш зразок складається з одинарних гаусових ударів, у вас є вагомі підстави вважати, що ви знову моделюєте нерелевантні зміни. Що показують ці ортогональні режими варіації? Що, наприклад, у вашому випадку не так з 3-м ПК?

Те, що ви говорите " Ці 3 кластери виявились дуже актуальними для проблеми, про яку йдеться ", насправді не є вагомим аргументом. Ви можете прості земснаряди (що погано ). Є й інші прийоми, наприклад. Ізомапи та локально-лінійне вбудовування , які теж круті, чому б не використати їх? Чому саме ви обрали PCA?

Узгодженість ваших висновків з іншими висновками важливіша, особливо якщо ці висновки вважаються налагодженими. Копайте глибше на цьому. Спробуйте перевірити, чи згодні ваші результати з результатами PCA, отриманими в інших дослідженнях.

Чи може хтось судити про достоїнство всього аналізу лише на основі простого значення поясненої дисперсії?

Взагалі цього робити не слід. Не думайте, що ваш рецензент - ублюдок чи щось подібне; 48% - це дійсно невеликий відсоток, який слід зберегти, не представляючи розумних обґрунтування.


Спасибі за вашу відповідь. У RT-qPCR немає нічого особливого, як у JND. Насправді RT-qPCR - це лише техніка, за допомогою якої ми вимірюємо самі генні змінні. Швидше за все, ви мали на увазі ПК, які є новими змінними, виготовленими з лінійної комбінації всіх 11. Враховуючи інші описові змінні, перші 2 ПК виявилися пов'язаними з клітинами імунної відповіді, тоді як 3-й ПК - ні. В іншому випадку немає нічого поганого 3-го ПК.
докторантура

Я ознайомлюсь із методами земснаряду та дізнаюся більше про них. Але чи знаєте ви випадково, чи це було реалізовано будь-яким пакетом R?
докторантура

1
@docto: Вся ідея полягає у тому, щоб уникнути драгування даних. Мені шкода, але я не знаю жодних пакетів, які явно перевіряли б це.
usεr11852 повідомляє Відновити Моніку

1
+1, але ваше речення щодо днопоглинання даних ("ви можете прості земснаряди") не дуже зрозуміле, і, можливо, саме тому @docto було плутаниною. Насправді я вважаю, що весь цей абзац не дуже зрозумілий: що стосуються Isomap та LLE при драгуванні даних? добре чи погано днопоглиблення? Стаття з wiki, з якою ви посилаєтесь, починається з опису її як щось хороше. Можливо, ви могли б відредагувати, щоб бути трохи чіткішим у цьому абзаці?
амеба каже, що повернеться до Моніки
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.