Дискретні дані та альтернативи PCA


9

У мене є набір даних дискретних (порядкових, меристичних та номінальних) змінних, що описують морфологічні символи крила на кількох близьких видах комах. Що я хочу зробити - це провести якийсь аналіз, який би дав мені наочне уявлення про подібність різних видів на основі морфологічних характеристик. Перше, що мені впало в голову, це PCA (це тип візуалізації, який я хочу створити), але після того, як я розглядаю його (зокрема інші питання, такі як: Чи можна застосувати аналіз основних компонентів до наборів даних, що містять суміш безперервного і категоричні змінні?), здається, PCA може бути невідповідним для дискретних даних (PCA використовується в цих видах досліджень в літературі, але завжди з постійними даними). Ігноруючи статистичну основу того, чому ці дані є невідповідними, PCA дає мені відносно досконалі результати щодо мого біологічного питання (гібридні групи інтересів потрапляють прямо в середину їх батьківських груп).

Я також спробував багаторазовий аналіз листування, щоб заспокоїти статистику (принаймні, наскільки я розумію), але я не можу отримати сюжет, аналогічний тому, який я отримав би з PCA, де мої спостереження (біологічні особи) розділені сказати за кольором, щоб показати різні групи (різні види, біологічно кажучи). Схоже, цей аналіз спрямований на опис того, як змінні (тут мої морфологічні характеристики) пов'язані між собою, а не окремими спостереженнями. І коли я будую спостереження, кольорові за групами, я отримую лише одне значення (можливо, середнє), яке описує всю сукупність людей. Я робив аналіз на R, тому, можливо, я також просто недостатньо розумний, щоб отримати уявлення про сюжет для роботи.

Чи я правильно намагаюся проаналізувати подібний аналіз зі своїми даними, чи я не відстоюю? Якщо ви не можете сказати, моя статистична експертиза є обмеженою, тому рівняння, що відбуваються під цими аналізами, всюди переймаються моєю головою. Я намагаюсь провести цей аналіз повністю описово (мені більше не потрібно робити більше хрускоту число вниз за течією), і я прочитав, що якщо це так, PCA буде достатньо, але хочу переконатися, що я не порушуючи занадто багато статистичних припущень.


1
Ви повинні мати можливість отримати тип сюжету, який ви хочете за допомогою багаторазового аналізу кореспонденції. Якщо ви можете надати нам посилання на ваші дані, ми можемо ознайомитись. Багатовимірне масштабування - ще одна можливість, але MCA можна розглядати як різновид багатовимірного масштабування
kjetil b halvorsen

Латентне кластеризація класів - ще один методологічний варіант. В основному, LCA створює "модель" неоднорідності в залишку, з якого використовується для кластеризації. Історично в літературі існували 2 широких дослідницьких течії, обидва - соціологічні. Оригінал LCA датується Лазарсфельдом у Колумбії в 50-х роках, був без нагляду та використовував категоричні дані - приклад цього є poLCA R. Нещодавно були розроблені контрольовані моделі кінцевих сумішей для LCA. Мені невідомі модулі R, але є недороге комерційне програмне забезпечення, яке це робить ( Latent Gold ). На веб-сайті LG є хороші документи про LCA
Майк Хантер

Відповіді:


1

Це трохи залежить від вашої мети, але якщо ви користуєтеся інструментом візуалізації, є хитрість із застосуванням багатовимірного масштабування для виведення випадкової близькості до лісу, яка може створювати гарні зображення та працюватиме для суміші категоричних та безперервних даних. Тут ви б класифікували види за вашими прогнозами. Але - і це великий застереження - я не знаю, чи дійсно хтось знає, що означає вихід до цих візуалізацій.

Іншою альтернативою може бути застосування багатовимірного масштабування на щось подібне до Gower подібності.

Вище питання - яке ваше кінцеве призначення? На яке запитання ви хочете відповісти? Мені подобаються ці методи як дослідницькі інструменти, які, можливо, приводять вас до того, щоб задавати більше та кращі запитання, але я не впевнений, що вони пояснюють або розповідають вам самі.

Можливо, я занадто багато читаю у вашому запитанні, але якщо ви хочете вивчити, у яких змінних провісника є значення для гібридів, що сидять між двома чистими видами, вам може бути краще побудувати модель для оцінки значень змінних прогнозів, які призводять безпосередньо до виду та гібридів. Якщо ви хочете виміряти, як змінні пов'язані між собою, можливо, побудуйте кореляційну матрицю - і для цього існує багато акуратних візуалізацій.


Дякую за вклад Зрештою, все, що я хочу від цього аналізу, - це мати кількісну міру подібності одних видів порівняно з іншими (у мене є два види, які лише за зовнішнім виглядом гештальта виглядають як інші тісно споріднені види, але генетично виглядають схожими на інші види, що передбачає античну гібридизацію). Основним моментом цього дослідницького питання є дослідження генетики групи, і цей морфологічний аналіз просто доповнить всю біологічну історію. Чи призведе це багатовимірне масштабування до візуалізації, подібної до PCA?
JD

Ви отримуєте подібні візуалізації. Ідея / інтуїція MDS полягає в тому, щоб побудувати відображення від простору високого розміру (для вас простір морфологічних характеристик) до деякого низькорозмірного простору (як 2D плоска площина), таким чином, що відстань у просторі високого розміру є "значно більшою те саме », що і низькомірний простір. Потім ви можете побудувати 2D плоску площину. Але це залежить від отримання метрики відстані для простору високого розміру звідкись.
Патрік Калдон
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.