Мінімальний розмір вибірки для PCA або FA, коли основною метою є оцінка лише кількох компонентів?


27

Якщо у мене є набір даних із спостереженнями та p змінними (розмірами), і зазвичай n невеликий ( n = 12 - 16 ), і p може варіюватися від малого ( p = 4 - 10 ) до, можливо, значно більшого ( p = 30 - 50 ).npnn=1216pp=410p=3050

Я пам’ятаю, дізнавшись, що має бути набагато більшим, ніж р , щоб запустити аналіз основних компонентів (PCA) або факторний аналіз (FA), але, схоже, це не так у моїх даних. Зауважте, що для моїх цілей мене рідко цікавлять будь-які основні компоненти минулого PC2.np

Запитання:

  1. Які правила встановлення мінімального розміру вибірки, коли PCA в порядку, а коли немає?
  2. Чи коли-небудь добре використовувати перші кілька ПК, навіть якщо або n < p ?n=pn<p
  3. Чи є посилання на це?
  4. Чи не має значення, якщо ваша основна мета полягає в тому, щоб використовувати PC1 і, можливо, PC2 або:

    • просто графічно, або
    • як синтетична змінна потім використовується в регресії?

Я пам’ятаю, як читав про подібні вказівки щодо аналізу факторів. Вас також цікавить це чи тільки PCA? Також відповідь може залежати від типу даних, з якими ви маєте справу, чи маєте ви на увазі певну сферу застосування?
Гала

1
Дякую Гаель за коментарі та посилання нижче. Тепер мені залишається знати, чим відрізняються FA та PCA. :)
Патрік

3
Це питання детально розглядаються на цьому сайті, дивись , наприклад , stats.stackexchange.com/questions/1576 / ... і stats.stackexchange.com/questions/612 / ...
Gala

Відповіді:


21

Насправді можна виміряти, чи є розмір вибірки "достатньо великим". Одним із симптомів занадто малого розміру вибірки є нестабільність.

Завантажити або перехресно підтвердити ваш PCA: ці методи порушують ваш набір даних, видаляючи / обмінюючи невелику частину вашого зразка, а потім будуючи "сурогатні моделі" для кожного з порушених наборів даних. Якщо сурогатні моделі досить схожі (= стабільні), у вас все добре. Можливо, вам доведеться врахувати, що рішення PCA не є унікальним: ПК можуть перевертати (помножувати як рахунок, так і відповідний головний компонент на ). Ви також можете скористатися обертанням Procrustes, щоб отримати максимально подібні моделі ПК.1


Спасибі кбелеїти. Як ви думаєте, завантажувальна програма буде надмірно інформативною, якщо n так низько, як, скажімо, 16? Щоб зрозуміти, я просто шукав би відносну стабільність, використовуючи багато PCA, залишаючи по одному сайту кожен пробіг.
Патрік

У цьому випадку, безумовно, можливо переглянути всі 16 моделей, які порушуються шляхом видалення одного зразка (або навіть взагалі 120 моделей, які залишили 2 зразка). Я думаю, що з малим я, мабуть, пішов би на такий систематичний підхід, схожий на відео. n
cbeleites підтримує Моніку

23

Для факторного аналізу (не головного компонентного аналізу) є досить література, яка ставить під сумнів деякі старі правила щодо кількості спостережень. Традиційні рекомендації - принаймні в рамках психометрії - мали б мати принаймні спостережень на змінну (з x зазвичай десь від 5 до 20 ), так що в будь-якому випадку n p .xx520np

Досить ретельний огляд з багатьма посиланнями можна знайти на веб- сайті http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis

Однак, головним повідомленням про вилучення з останніх симуляційних досліджень, ймовірно, було б те, що якість результатів настільки сильно відрізняється (залежно від спільності, кількості факторів або співвідношення факторів до змінних тощо), що враховуючи співвідношення змінних до спостережень - це не гарний спосіб визначити необхідну кількість спостережень. Якщо умови сприятливі, ви, можливо, зможете піти з набагато меншими спостереженнями, ніж це дозволило б запропонувати старі вказівки, але навіть найбільш консервативні настанови в деяких випадках занадто оптимістичні. Наприклад, Preacher & MacCallum (2002) отримали хороші результати при надзвичайно малих розмірах вибірки та але Mundfrom, Shaw & Ke (2005) виявили деякі випадки, коли розмір вибірки n > 100 pp>nn>100pбуло необхідно. Вони також встановили, що якщо кількість основних факторів залишатиметься однаковим, більше змінних (а не менше, як випливає з настанов, заснованих на співвідношенні спостережень до змінних) може призвести до кращих результатів при невеликих вибірках спостережень.

Відповідні посилання:

  • Mundfrom, DJ, Shaw, DG, & Ke, TL (2005). Рекомендації щодо мінімального розміру вибірки для проведення факторного аналізу. Міжнародний журнал тестування, 5 (2), 159-168.
  • Проповідник, KJ, і MacCallum, RC (2002). Дослідницький факторний аналіз в генетиці поведінки поведінки: відновлення факторів з невеликими розмірами вибірки. Генетика поведінки, 32 (2), 153-161.
  • de Winter, JCF, Dodou, D., & Wieringa, PA (2009). Дослідницький факторний аналіз з невеликими розмірами вибірки. Багатовимірне поведінкове дослідження, 44 (2), 147-181.

5
(+1) Ось ще одна стаття, що використовує моделювання та реальні набори даних, що говорить про те, що правило N / p великого пальця на практиці не дуже добре, і це забезпечує розміри вибірки, необхідні для отримання стабільного та точного рішення в EFA- -контроль за різними критеріями якості - як залежність від кількості факторів та кількості предметів (і, можливо, від половини ширини альфа 95% ІК Кронбаха, виходячи з формули Фельдта) в психіатричній шкалі: Вимоги до розміру вибірки для внутрішня валідація психіатричних шкал Int J Методи Psychiatr Res. 2011 р .; 20 (4): 235-49.
chl

1

pp12np

Еквівалентність можна побачити так: кожен крок PCA є проблемою оптимізації. Ми намагаємось знайти напрямок, який виражає найбільшу дисперсію. тобто:

max(aiTΣai)

σ

під обмеження:

aiTai=1

аiТаj=0
(для j<i, ортогональність попередніх компонентів)

Рішення цих проблем явно є власними векторами Росії Σпов'язані з їх власними значеннями. Я мушу визнати, що не пам’ятаю точної рецептури, але власні вектори залежать від коефіцієнтівσ. Модульна нормалізація змінних, коваріаційна матриця та кореляційна матриця - це одне і те ж.

Беручи n = p, більш-менш рівнозначно вгадувати значення лише з двома даними ... це не є надійним.

Немає правил великих пальців, майте на увазі, що PCA - це майже те саме, що відгадувати значення з 2нp значення.


Не могли б ви бути більш конкретними щодо сенсу, в якому PCA є "еквівалентним" оцінці кореляційної матриці? Припустимо, я припиняю свій PCA післякосновні компоненти. Це вимагає оцінкик власні значення та (p-1)+(p-2)++(p-к) незалежні коефіцієнти власного вектора, всі сукупні менше pк параметрів, які могли бути зовсім трохи менше p(p-1)/2.
whuber

Справа в тому, що ви обчислюєте (pk) коефіцієнти власних векторів з p (p-1) / 2 коефіцієнтів матриці. Для випадкової матриці я не думаю, що існує спосіб "пропустити" деякі коефіцієнти, що обчислюють власні вектори / власні значення.
lcrmorin

Зрозуміло, що є: звичайні алгоритми знаходять власні значення та власні вектори один за одним, від найбільшого власного значення вниз. Крім того, це не обчислювальне питання, а одне підрахунок кількості оцінених значень - якщо я не перечитав вашу відповідь?
whuber

1

Сподіваюся, це може бути корисним:

як для FA, так і для PCA

'' Методи, описані в цій главі, вимагають великих зразків для отримання стабільних розчинів. Що є адекватним розміром вибірки, є дещо складним. До недавнього часу аналітики застосовували правила, як-от "факторний аналіз вимагає в 5–10 разів більше предметів, ніж змінних". Останні дослідження показують, що необхідний розмір вибірки залежить від кількості факторів, кількості змінних, пов'язаних з кожним фактором, і того, як також множина факторів пояснює дисперсію змінних (Bandalos and Boehm-Kaufman, 2009). Я вийду на кінцівку і скажу, що якщо у вас є кілька сотень спостережень, ви, ймовірно, в безпеці ''.

Довідка:

Бандалос, штат Каліфорнія, і М. Р. Бум-Кауфман. 2009. «Чотири поширені помилки в аналітичному факторному аналізі». У статистичних та методологічних міфах та міських легендах під редакцією CE Lance та RJ Vandenberg, 61–87. Нью-Йорк: Routledge.

з "R in Action" Роберта I. Кабакоффа, дуже інформативної книги з хорошими порадами, що охоплюють майже всі статистичні тести.


2
Здається, ви просто підключаєте книгу і переглядаєте деякі пункти, зроблені раніше, спираючись на вторинне або третинне джерело. Це не здається дуже корисним. Чи можете ви хоча б надати повну інформацію про Bandalos та Boehm-Kaufman, 2009?
Гала-
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.