Які припущення факторного аналізу?


11

Я хочу перевірити, чи дійсно я зрозумів [класичний, лінійний] аналіз факторів (FA), особливо припущення , які зроблені до (а можливо, після) ФА.

Деякі дані слід спочатку співвіднести і між ними можливе лінійне співвідношення. Після факторного аналізу дані зазвичай розподіляються (двовимірний розподіл для кожної пари) і немає кореляції між факторами (загальними та специфічними), а також кореляції між змінними від одного фактора та змінними від інших факторів.

Це правильно?

Відповіді:


12

Припущення про вхідні дані лінійної ФА (я не говорю тут про внутрішні припущення / властивості моделі ФА або про перевірку відповідності якості результатів ).

  1. Шкала (інтервал або відношення) вхідних змінних . Це означає, що позиції є або безперервними заходами, або їх розуміють як безперервні, а вимірюють у дискретних кількісних масштабах. Немає порядкових даних у лінійному ФА ( зчитування ). Бінарних даних також слід уникати (див. Це , це ). Лінійний ФА передбачає, що приховані загальні та унікальні фактори є безперервними . Тому спостерігаються змінні, які вони завантажують, також повинні бути безперервними.
  2. Кореляції лінійні . Лінійна ФА може бути виконана на основі будь -якої матриці асоціації типу SSCP : кореляція Пірсона, коваріація, косинус тощо (хоча деякі методи / реалізації можуть обмежуватися лише кореляціями Пірсона). Зауважте, що це все лінійно-алгебричні вироби. Незважаючи на те, що величина коефіцієнта коваріації відображає більше, ніж просто лінійність по відношенню, моделювання лінійного ФА має лінійний характер, навіть коли використовуються коваріації: змінні - це лінійні комбінації факторіві, отже, лінійність мається на увазі в отриманих асоціаціях. Якщо ви бачите / думаєте, що нелінійні асоціації переважають - не робіть лінійних ФА або не намагайтеся спочатку їх лінеаризувати деякими перетвореннями даних. І не базуйте лінійну ФА на кореляціях Спірмена чи Кендала (Pt. 4 там ).
  3. Немає інших людей - це як у будь-якого нерухливого методу. Пірсонова кореляція та подібні асоціації типу SSCP є чутливими до людей, що втрачають силу, тому будьте уважні.
  4. Присутні високі кореляції . FA - це аналіз кореляційності, - в чому його використання, коли всі або майже всі кореляції слабкі? - ніякої користі. Однак те, що є "досить високою кореляцією", залежить від галузі дослідження. Існує також цікаве та різноманітне питання, чи слід приймати дуже високі кореляції (вплив їх на PCA, наприклад, обговорюється тут ). Для статистичної перевірки, якщо дані не є непов'язаними, можна використовувати тест сферичності Бартлетта .
  5. Часткові кореляції слабкі, і фактор може бути достатньо визначений . FA припускає, що фактори більш загальні, ніж просто завантаження пар співвідносних елементів. Насправді, навіть є порада не вилучати факторів, що завантажують пристойно менше 3 предметів у дослідницькій ФА; а в підтверджуючої ФА лише 3+ гарантована ідентифікована структура. Технічна проблема видобутку під назвою "Служба Хейвуда" є однією з причин ситуації із надто малою кількістю факторів. Кайзер-Мейєр-Олкін ( KMO ) "міра адекватності вибірки" оцінює для вас, наскільки слабкі часткові кореляції в даних щодо повних кореляцій; його можна обчислити для кожного елемента та для всієї матриці кореляції.
  6. p1n observations > p variablesn>>p
  7. Поширення . Взагалі, лінійна ФА не вимагає нормальності вхідних даних. Допустимі помірно перекошені розподіли. Бімодальність не є протипоказанням. Нормальність дійсно передбачається для унікальних факторів моделі (вони служать помилками регресії), але не для загальних факторів та вхідних даних ( див. Також). Тим не менш, багатоваріантна нормальність даних може вимагатись як додаткове припущення деякими методами вилучення (а саме, максимальна ймовірність) та проведення деяких асимптотичних тестувань.

1


, чи могли ви прочитати цю публікацію , вона здавалася трохи інакшою.
WhiteGirl

Якщо Binary data should also be avoided, для чого ще можна зробити метод аналізу факторів binary data?
kittygirl

дорогі ttnphns; Я зауважую, що ви не згадуєте, що дані вважаються нормальними, а інші в Інтернеті вказують на те, що нормальність не потрібна. Мій запит полягає в тому, якщо приховані змінні вважаються нормальними, а спостереження моделюються як зважена сума факторів, чи це тоді не означає нормального розподілу на спостереження? (Вибачте, я впевнений, що це німе запитання)
user2957945

@ user2957945, пункт 7 говорить про нормальність. Припущення про нормальність необхідне для деяких методів вилучення факторів та для виконання деяких статистичних тестів, що мають факультативний супровід факторного аналізу. На ваше запитання: Так, якщо фактори розподіляються нормально і помилки зазвичай теж означають, що змінні маніфесту також є нормальними.
ttnphns

ах, спасибі @ttnphns; Вибачте, що вас турбує - я не знаю, як мені це вдалося пропустити. Вдячний за вашу допомогу.
користувач2957945

9

Значну частину часу факторний аналіз проводиться без будь-яких статистичних тестів. Він набагато більш суб'єктивний та інтерпретаційний, ніж такі методи, як регресія, моделювання структурних рівнянь тощо. І, як правило, це інфекційні тести, які мають припущення: для того, щоб значення p та довірчі інтервали були правильними, ці припущення повинні бути виконані.

Тепер, якщо метод вибору кількості факторів встановлений як метод максимальної ймовірності, то існує припущення, яке випливає з цього: що вхідні змінні в аналіз факторів матимуть нормальні розподіли.

Те, що вхідні змінні матимуть ненульові кореляції, є своєрідним припущенням, оскільки без істинності результати факторного аналізу будуть (ймовірно) марними: жоден фактор не з’явиться як латентна змінна за деяким набором вхідних змінних.

Наскільки не існує "кореляції між факторами (загальними та специфічними) та відсутністю кореляції між змінними одного фактора та змінними від інших факторів", це не є загальноприйнятими припущеннями, які роблять аналітики факторів, хоча часом і умовою (або наближенням) з неї) може бути бажаним. Останнє, коли він тримається, воно відоме як "проста структура".

Існує ще одна умова, яка іноді трактується як "припущення": щоб кореляції нульового порядку (ванільні) серед вхідних змінних не перекривались великими частковими кореляціями. Це означає, що стосунки мають бути міцними для одних пар і слабкими для інших; інакше результати будуть "каламутними". Це пов'язано з бажаністю простої структури, і її насправді можна оцінити (хоча формально не "перевірено") за допомогою статистики Кайзера-Мейєра-Олкіна або KMO. Значення KMO поблизу .8 або .9 зазвичай вважаються дуже перспективними для результатів аналізу інформаційного фактора, тоді як KMO поблизу .5 або .6 набагато менш перспективні, а ті, що знаходяться нижче .5, можуть запропонувати аналітику переглянути свою стратегію.


Як я читав, цей факторний аналіз починається з деякої кореляції зі змінними, і ми намагаємося зробити цю кореляцію все більш зрозумілою
Sihem

1
Після застосування Факторного аналізу, якщо ми застосували ортогональне обертання, ми будемо впевнені, що між факторами немає кореляції
Сихем

2

Припущення, що лежать в основі дослідницького факторного аналізу, є:
• Інтервал або рівень вимірювання співвідношення
• Випадкова вибірка
• Зв'язок між спостережуваними змінними лінійний
• Нормальний розподіл (кожна спостерігається змінна)
• Біваріантний нормальний розподіл (кожна пара спостережуваних змінних)
• Багатоваріантна нормальність
вище від файл SAS

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.