Чи можу я зробити ПКС щодо повторних заходів щодо зменшення даних?


13

У мене 3 випробування на 87 тваринах у кожному з 2 контекстів (деякі дані відсутні; відсутні дані = 64 тварини). У контексті, у мене є багато конкретних заходів в (час , щоб увійти, число раз повертаюся в притулок, і т.д.), тому я хочу , щоб розробити 2 до 3 композитної оцінки поведінки , які описують поведінку в цьому контексті (назвуть їх C1, C2, C3). Я хочу, щоб це C1означало те ж саме для всіх 3 випробувань та 87 тварин, щоб я міг зробити регресію, щоб дослідити вплив віку, статі, родоводу та окремих тварин на поведінку. Тоді я хочу вивчити, наскільки це C1стосується оцінок поведінки в іншому контексті, в межах конкретного віку. (У віці 1 року чи активність у контексті 1 сильно прогнозує активність у контексті 2?)

Якщо це не було повторних заходів, PCA спрацював би добре - зробіть PCA на декількох заходах контексту, тоді використовуйте PC1, PC2 тощо, щоб вивчити взаємозв'язки (кореляції Spearman) між PC1 в одному контексті та PC1 (або 2 або 3) в іншому контексті. Проблема полягає в повторних заходах, що впадає в псевдорепликацію. У мене був рецензент, який категорично відмовився, але я не можу знайти чітких посилань на те, чи є це проблематичним при зменшенні даних.

Мої міркування виглядають так: повторні заходи не є проблемою, тому що те, що я роблю в УПС, є суто описовим щодо оригінальних заходів. Якби я оголосив фіат, що використовую час для виходу на арену як міру "сміливості" в контексті 1, я мав би міру сміливості у контексті 1, яка була порівнянна для всіх людей у ​​будь-якому віці, і ніхто не зводив би з очей. Якщо я оголошу fiat, що буду використовувати час для введення + 0,5 час до кінця, те ж саме. Тож якщо я використовую PCA виключно для редуктивних цілей, чому це не може бути PC1 (це може бути 0,28 ввести + 0,63 закінчити + 0,02 0.5+ 0.50,28+ 0,63+ 0,02 загальний час ...), що, принаймні, повідомляється моїми численними заходами замість того, щоб я здогадувався, що час для введення є загалом інформативним та репрезентативним ознакою?

(Зауважте, мене не цікавить основна структура заходів ... мої запитання стосуються того, як ми інтерпретуємо поведінку, що залежить від контексту. "Якщо я використовував контекст 1 і дійшов висновку, що Гаррі активний порівняно з іншими тваринами, чи я бачу Гаррі активний у контексті 2? Якщо він дорослішає, чи змінює те, що ми трактуємо як діяльність у контексті 1, коли він дорослішає, чи він також змінює свою діяльність у контексті 2?)

Я подивився на PARAFAC, і я подивився на SEM, і не переконаний, що жоден із цих підходів є кращим або більш підходящим для мого розміру вибірки. Хтось може зважити? Спасибі.


Чи я зрозумів, що ви правильно, що у вас є два фактори, що є предметом: 1) контекст, який відрізняється деяким експериментальним умовою (наприклад, експеримент в приміщенні проти відкритого експерименту), 2) випробування, яке є просто повторенням, спробою експерименту. І ви хочете зробити PCA в кожній з умов, але це зупиняє вас, що ви зробили не одне, а кілька випробувань експерименту.
ttnphns

Два контексти є двома окремими тестами, і заходи, вжиті в кожному, різні. Це сказало, так, ви розумієте мою ситуацію.
Leann

А як щодо усунення проблеми та використання PCA на засобах у всіх трьох випробуваннях?
Гала

Відповіді:


7

Ви можете розглянути багатофакторний аналіз . Це може бути реалізовано в R за допомогою FactoMineR.

ОНОВЛЕННЯ:

Для того, щоб уточнити, Лінн пропонував (проте давно) провести PCA для набору даних із повторними заходами. Якщо я правильно розумію структуру її набору даних, для даного "контексту" у неї була xспецифічна міра тварини (час введення, кількість разів повернення в притулок тощо). Кожну із 64 тварин (тих, хто не пропав безвісти) тричі стежили. Скажімо , у неї була 10 «заходів конкретних», так що вона буде тоді мати три 64 × 10 матриць на поведінку тварин (ми можемо назвати матриці X1, X2, X3). Щоб запустити PCA на трьох матрицях одночасно, їй доведеться "зв’язати" рядки трьох матриць (наприклад,PCA(rbind(X1,X2,X3))). Але це ігнорує той факт, що перше і 64-е спостереження ведуться на одній тварині. Щоб обійти цю проблему, вона може «стовпчиком» прив’язати три матриці та запустити їх за допомогою багатофакторного аналізу. MFA - корисний спосіб аналізу декількох наборів змінних, виміряних на одних і тих же особах або об'єктах у різні моменти часу. Вона зможе витягти основні компоненти з МЗС так само, як у PCA, але матиме одну координату для кожної тварини. Тепер тваринні об'єкти будуть розміщені у багатовимірному просторі компромісу, обмеженого її трьома спостереженнями.

Вона змогла б виконати аналіз за допомогою пакету FactoMineR в R. Код прикладу виглядатиме приблизно так:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

Крім того, замість вилучення перших трьох компонентів з МЗС та виведення їх через багаторазову регресію, вона може подумати про проецію своїх пояснювальних змінних безпосередньо на МЗС як "додаткові таблиці" (див. ?FactoMineR). Іншим підходом було б обчислити евклідову матрицю відстані об'єктних координат від МЗС (наприклад dist1=vegdist(mfa1$ind$coord, "euc")) та поставити її через RDA з dist1функцією специфічних змінних тварин (наприклад, rda(dist1~age+sex+pedigree)використовуючи веганський пакет).


2
Привіт, Кайл, дякую за вашу відповідь. Однак відповіді, які по суті складаються з трохи більше, ніж посилання, або мають довжину лише щодо речення, як правило, не вважаються відповідями, а коментарями. Зокрема, відповіді, що мають лише посилання, страждають від гниття посилань, тому відповіді повинні мати достатньо інформації, щоб бути корисною, навіть якщо посилання більше не працює. Чи можете ви, будь ласка, розширити свою відповідь трохи більше, можливо, даючи дуже короткий виклад того, що це / як це стосується аналізу факторів загалом?
Glen_b -Встановити Моніку

(+1) Я розумію, що це стара публікація, але ця відповідь дуже корисна! Можливо, посилання має бути додане повністю, якщо посилання помирає: Абді Герве, Вільямс Лінне Дж., Валентин Домініке. Багатофакторний аналіз: аналіз основних компонентів для наборів даних з багатьма і багатоблоковими даними. WIREs Comp Stat 2013, 5: 149-179. doi: 10.1002 / wics.1246
Frans Rodenburg

4

Загальноприйнято використовувати PCA при аналізі повторних заходів (наприклад, він використовується для аналізу даних про продажі, ціни на акції та обмінних курсів). ).

Одне видання досить хорошого статистичного персоналу: Bradlow, ET (2002). " Дослідження наборів даних про повторні заходи для основних особливостей за допомогою аналізу основних компонентів ". Журнал досліджень маркетингу 19: 167-179.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.