Використання аналізу основних компонентів та відповідності


9

Я аналізую набір даних, що стосуються міжміських спільнот. Дані є відсотковим покриттям (морські водорості, канали, мідії тощо) у квадратах. Я звик думати про аналіз листування (CA) з точки зору кількості видів , і принцип компонентного аналізу (РСА) , як - то більш корисне для лінійних навколишнього середовища (НЕ видів) тенденцій. Я не мав жодного шансу зрозуміти, чи PCA чи CA краще підходять для відсоткового покриття (не можу знайти жодних паперів), і я навіть не впевнений, як буде розподілено щось, що має обмеження до 100%. ?

Мені добре знайоме груба інструкція, що якщо довжина першої осі знеціненого аналізу кореспонденції (DCA) більша за 2, то можна сміливо припускати, що слід використовувати CA. Довжина осі 1 DCA становила 2,17, що не вважаю корисним.


3
І PCA, і CA пов'язані між собою, і обидва можуть базуватися на алгоритмі SVD. Фундаментальна формальна відмінність (не згадувана в інакшій глибокій відповіді @ Гавіна) полягає в тому, що PCA розкладає відносини лише між стовпцями (наприклад, розкладаючи їх матрицю коваріації), трактуючи рядки як "випадки"; в той час як CA одночасно розкладає стовпці та рядки, трактуючи їх симетрично, як «категорії» перехресного табуляції. Звідси біплот, залишений CA та квазі-біплот (навантаження + бали), які можна було побудувати після PCA, дають концептуально зовсім іншу інформацію.
ttnphns

Відповіді:


9

PCA працює на значеннях, де CA працює на відносних значеннях. Обидва є чудовими за відносних даних про чисельність згаданого вами сорту (з одним головним застереженням див. Пізніше). З% даних у вас вже є відносна міра, але все одно будуть розбіжності. Запитайте себе

  • чи хочете ви підкреслити закономірність у ряді видів / таксонів (тобто у тих, у кого велика% покриття), або
  • Ви хочете зосередитись на моделях відносного складу?

Якщо перший, використовуйте PCA. Якщо останні використовують CA. Що я маю на увазі під двома питаннями, чи хочете ви?

A = {50, 20, 10}
B = { 5,  2,  1}

вважати різними чи однаковими? AіB є двома зразками, а значення -% покриття трьох наведених таксонів. (Цей приклад виявився погано, припустимо, що це гола земля! ;-) PCA вважає, що це дуже відрізняється через евклідову відстань, що використовується, але CA вважає ці два зразки дуже схожими, оскільки мають однаковий відносний профіль.

Велике застереження тут - закрита композиційна природа даних. Якщо у вас є кілька груп (наприклад, пісок, мул, глина), які дорівнюють 1 (100%), жоден підхід не є правильним, і ви можете перейти до більш відповідного аналізу за допомогою PCA Aitchison-коефіцієнта журналу, який був розроблений для закритого композиційного дані. (IIRC для цього вам потрібно центрувати за рядками та стовпцями та журнал перетворювати дані.) Є й інші підходи. Якщо ви використовуєте R, то одна книга , яка буде корисна в аналізі Композиційний даних з R .


Як завжди, справді відмінна відповідь Гевіна. Дякую! Це багато що прояснює, і тоді я буду використовувати PCA. Зважаючи на те, що інтертидальна спільнота є тривимірною, відсотковий покрив насправді досягав 100% у деяких випадках, коли організми зростали один над одним. Це не те закрита композиційна форма, про яку ти говориш, правда?
HFBrowning

Ні, це не те, про що він говорить. Під закритим я вважаю, що він має на увазі систему, в якій з трьома видами A, B, C, ви маєте% C = 100% -% B -% A
Pertinax

а що з DCA?
ПК Дарвіна

DCA - це змішана версія CA, тому до неї діють ті самі загальні принципи. DCA проводить якісь дивні катування даних, і я не думаю, що нам потрібно зайнятися цим методом як у нашому інструментарі, але думки інших залежать від цього.
Гевін Сімпсон
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.