Що таке "ефект підкови" та / або "ефект дуги" в аналізі PCA / листування?


20

Існує багато методик екологічної статистики для розвідувального аналізу даних багатовимірних даних. Вони називаються методами «висвячення». Багато хто однаковий або тісно пов'язаний із поширеними методами в статистиці. Можливо, прототипним прикладом буде аналіз основних компонентів (PCA). Екологи можуть використовувати PCA та пов'язані з ними методи для дослідження «градієнтів» (мені не зовсім зрозуміло, що таке градієнт, але я трохи читав про це.)

На цій сторінці в останньому пункті Аналіз основних компонентів (PCA) написано:

  • PCA має серйозні проблеми щодо рослинних даних: ефект підкови. Це викликано криволінійністю розподілу видів по градієнтах. Оскільки криві відгуку видів зазвичай одномодальні (тобто дуже сильно криволінійні), ефекти підкови є загальними.

Далі на сторінці в розділі " Кореспондентський аналіз або взаємне усереднення (РА)" йдеться про "ефект арки":

  • У РА є проблема: ефект арки. Він також викликаний нелінійністю розподілів по градієнтам.
  • Арка не є настільки серйозною, як підкова ефект PCA, тому що кінці градієнта не зігнуті.

Хтось може це пояснити? Нещодавно я бачив це явище в сюжетах, які репрезентують дані у просторі нижчих розмірів (а саме, аналіз кореспонденції та факторний аналіз).

  1. Який би "градієнт" відповідав більш загально (тобто в неекологічному контексті)?
  2. Якщо це трапляється з вашими даними, це "проблема" ("серйозна проблема")? Для чого?
  3. Як слід інтерпретувати вихід, коли з’являється підкова / арка?
  4. Чи потрібно застосовувати засіб? Що? Чи допоможуть трансформації вихідних даних? Що робити, якщо дані є порядковими оцінками?

Відповіді можуть існувати і на інших сторінках цього веб-сайту (наприклад, для PCA , CA та DCA ). Я намагався працювати над цими. Але дискусії викладені у досить незнайомій екологічній термінології та прикладах, що важче зрозуміти проблему.


1
(+1) Я знайшов досить чітку відповідь на ordination.okstate.edu/PCA.htm . Пояснення "криволінійності" у вашій цитаті є абсолютно помилковим - саме це робить це таким заплутаним.
whuber

2
Див. Також Diaconis та ін. (2008), Підкови в багатовимірному масштабуванні та локальних методах ядра , Енн. Додаток Стат. , т. 2, ні. 3, 777-807.
кардинал

Я намагався відповісти на ваші запитання, але не впевнений, наскільки добре я домігся того, що бачу, як я є екологом і градієнтами, як я думаю про ці речі.
Відновіть Моніку - Г. Сімпсон

@whuber: Цитуване пояснення "криволінійності" може бути заплутаним і не дуже зрозумілим, але я не думаю, що це "абсолютно неправильно". Якщо б чисельність видів як функція положення вздовж справжнього "градієнта" (на прикладі з вашої посилання) були всі лінійні (можливо, пошкоджені деяким шумом), то хмара точок була б (приблизно) одновимірною та PCA знайшов би його. Хмара точок стає зігнутою / вигнутою, оскільки функції не є лінійними. Особливий випадок зміщених гауссів веде до підкови.
амеба каже, що поверніть Моніку

@Amoeba Тим не менш, ефект підкови не є результатом криволінійності градієнтів видів: він виникає внаслідок нелінійностей у співвідношеннях розподілу . Цитата, привласнюючи ефект самим формам градієнтів, неправильно визначає причину явища.
whuber

Відповіді:


19

Q1

Екологи весь час говорять про градієнти. Існує безліч видів градієнтів, але, можливо, найкраще розглядати їх як певну комбінацію будь-якої змінної, яку ви хочете, або важливої ​​для відповіді. Таким чином, градієнт може бути часом, або простором, або кислотністю ґрунту, або поживними речовинами, або чимось складнішим, таким як лінійна комбінація цілого ряду змінних, необхідних для певної реакції.

Ми говоримо про градієнти, тому що спостерігаємо види у просторі чи часі, і ціла кількість речей змінюється залежно від простору чи часу.

Q2

Я дійшов висновку, що в багатьох випадках підкова в PCA не є серйозною проблемою, якщо ви розумієте, як вона виникає, і не робіть дурних речей, як, наприклад, приймайте PC1, коли "градієнт" насправді представлений PC1 і PC2 (ну це також розділено на більш високі ПК, але, сподіваємось, 2-d представлення добре).

В Каліфорнії я думаю, що я думаю те саме (тепер змушений був трохи подумати про це). Рішення може утворювати арку, коли в даних немає сильного 2-го виміру, так що складений варіант першої осі, який задовольняє вимогу ортогональності осей СА, пояснює більше "інерційність", ніж інший напрямок у даних. Це може бути і більш серйозним, оскільки це складена структура, коли арка PCA - це лише спосіб представити численність видів на ділянках уздовж одного домінуючого градієнта.

Я ніколи не розумів, чому люди так сильно переживають неправильне впорядкування PC1 із сильною підковою. Я б заперечував проти того, що ви не повинні приймати просто PC1 у таких випадках, і тоді проблема відходить; пари координат на PC1 і PC2 позбавляються від реверсів на будь-якій з цих двох осей.

Q3

Якби я бачив підкову в біплоті PCA, я б інтерпретував дані як такі, що мають єдиний домінуючий градієнт або напрямок зміни.

Якби я бачив арку, я, певно, зробив би висновок про те саме, але я б дуже обережно намагався пояснити вісь 2 СА.

Я б не застосував DCA - він просто відкручує арку (за найкращих обставин) таким чином, що ви не бачите дивацтв на двовимірних сюжетах, але в багатьох випадках це створює інші хибні структури, такі як алмази або форми труби розташування зразків у просторі DCA. Наприклад:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

введіть тут опис зображення

Ми бачимо типове розвішування зразкових точок зліва від ділянки.

Q4

м

Це дозволило б знайти нелінійний напрямок у просторовому просторі даних. Одним із таких методів є основна крива Hastie & Stuezel, але доступні й інші нелінійні багатоманітні методи, яких може бути достатньо.

Наприклад, для деяких патологічних даних

введіть тут опис зображення

Ми бачимо сильну підкову. Основна крива намагається відновити цей базовий градієнт або розташування / упорядкування зразків за допомогою плавної кривої в m розмірах даних. На малюнку нижче показано, як ітераційний алгоритм конвергується на щось, що наближається до основного градієнта. (Я думаю, що він відхиляється від даних у верхній частині сюжету, щоб бути ближчими до даних у більш високих розмірах, а почасти через критерій самовідповідності кривій, що оголошується основною кривою.)

введіть тут опис зображення

У мене є більше деталей, зокрема код у моєму блозі, з якого я взяв ці зображення. Але головне в цьому полягає в тому, що основні криві легко відновлюють відоме впорядкування зразків, тоді як PC1 або PC2 самостійно не мають.

У випадку PCA прийнято застосовувати трансформації в екології. Популярні перетворення - це ті, які можна думати про повернення деякої неевклідової відстані, коли евклідова відстань обчислюється на перетворених даних. Наприклад, відстань Хеллінгера - це

DНеллiнгеr(х1,х2)=j=1p[у1jу1+-у2jу2+]2

уijjiуi+i

Підкова була давно відома і вивчена в екології; частина ранньої літератури (плюс сучасніший вигляд) є

Основні основні посилання кривої є

З першою це була дуже екологічна презентація.


Спасибі, Гевін. Розгляньте порядкові оцінки 1: 5 з набору даних із запитаннями на кшталт: "Мені подобається мій лікар" та "Я відчуваю, що мій лікар піклується про мене як про людину". Вони не є змістовно розподіленими ні по простору, ні по часу. Який би тут був «градієнт»?
gung - Відновіть Моніку

З / п 5х5 таблиця та високий N, один із способів візуалізації даних - це W / CA. Дані є порядковими, але CA це не визнає; тож ми можемо перевірити, чи сусідні рядки / стовпці розташовані ближче, ніж ті, що розташовані далі. Обидва набори точок падають по чіткій лінії у відповідному порядку, але лінія викривляється таким чином, що крайні місця ближче одна до одної, ніж середня точка у 2D просторі. Як це слід тлумачити?
gung - Відновіть Моніку

CA знаходить впорядкування як для рядків (зразків), так і для змінних (cols), що забезпечує максимальну дисперсність вибірки "балів". Він знаходить приховану змінну (лінійну комбінацію змінних), яка максимізує цю дисперсію. Ми називаємо цю приховану змінну градієнтом.
Відновіть Моніку - Г. Сімпсон

Що стосується стиснення, ви маєте на увазі ближче один до іншого на осі 1 СА або ближче один до одного за евклідовою відстані в масштабі біплота? Так чи інакше, це справді проблема в проектуванні даних на маломірний простір. DCA намагається скасувати цей ефект, розтягуючи зразки в кінці знешкодженої осі 1 DCA і стискаючи зразки біля початку. Так, так, це проблема, але це пов'язано з негнучкістю методу відповідного фіксації нижнього градієнта. Ми можемо жити з цим або використовувати більш гнучкий підхід (принаймні в екології).
Відновіть Моніку - Г. Сімпсон,

1
Якби ви подивилися на це в інших вимірах, проблема пішла б. Я думаю, що це лише межа методу; у багатьох випадках це добре, але в інших не вдається.
Відновіть Моніку - Г. Сімпсон,
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.