Які небезпеки обчислення Пірсонових кореляцій (замість тетрахорних) для бінарних змінних у факторному аналізі?


10

Я займаюся дослідженнями навчальних ігор, і деякі мої поточні проекти передбачають використання даних BoardGameGeek (BGG) та VideoGameGeek (VGG) для вивчення взаємозв'язків між елементами дизайну ігор (тобто, "встановлених у Другій світовій війні", "включає кочення" ) та рейтинги гравців у цих іграх (тобто бали з 10). Кожен з цих елементів дизайну відповідає тегу в системі BGG або VGG, тому кожен елемент по суті є дихотомічною змінною. У грі є 1 для кожного тегу, який є в базі даних, і 0 для кожного тегу, який немає.

Таких міток є десятки, тому я хочу використовувати дослідницький факторний аналіз (EFA), щоб придумати керовану кількість "жанрів", які фіксують зразки в дизайні ігор. Консультуючись з декількома джерелами, я розумію, що, оскільки я працюю з дихотомічними змінними, мені слід використовувати поліхорні кореляції ( тетрахоричні , особливо тут) замість Пірсона , коли я придумую свої фактори (є й інші варіанти - наприклад, прихований аналіз ознак - там, але це я зараз досліджую).

З цікавості я придумав два набори факторів, один використовував кореляції Пірсона, а другий використовував поліхоричні кореляції (щоразу однакова кількість факторів). Моя проблема полягає в тому, що фактори, обчислені за допомогою кореляцій Пірсона, мають набагато більше сенсу і їх легше інтерпретувати, ніж фактори, обчислені за допомогою поліхоричних кореляцій. Іншими словами, "жанри" з першого набору факторів мають інтуїтивний сенс і відповідають моєму розумінню того, як типово розроблені ігри; це не стосується другого набору факторів.

З одного боку, я хочу переконатися, що я виконую припущення тестів, які використовую, навіть якщо це робить мої результати менш красивими. З іншого боку, я відчуваю, що частина мети факторного аналізу та (ширше) побудови моделі - придумати щось корисне, і більше корисної інформації з’являється, коли я «порушую правила». Чи достатньо потреби в корисній моделі, щоб переважати порушення припущень цього тесту? Які саме наслідки використання кореляцій Пірсона замість поліхорних?


1
Припущення, що лежать в основі багатоваріантної нормальності, настільки сильні з даними більш ніж трьох або більше розмірів, що поліхоричні кореляції перестають мати такий великий сенс. Ступінь хибної специфікації моделі з поліхоричними кореляціями, швидше за все, робить ваш аналіз досить марним. Я не впевнений, навіщо вам потрібні такі співвідношення: якщо у вас є чітка змінна результат (рейтинг) та купа пояснювальних змінних (конструктивні особливості), вам потрібен регресійний аналіз, а не факторний аналіз.
Стаск

@StasK регресійний аналіз - моя кінцева мета, але я маю понад 100 пояснювальних змінних і хотів би зменшити це до більш керованого числа.
Спенсер Грінхал

Крім того, класифікація таких проблем сама по собі є ціллю.
Пер

Відповіді:


7

Аналіз лінійного фактора - теоретично , логічно лише для суцільних змінних . Якщо змінні не є суцільними, але є, наприклад, дихотомічними, одним із способів є визнати основні безперервні змінні позаду та заявити, що спостережувані змінні є двосхилими основними або справжніми. Ви не можете кількісно визначити дихотомічну змінну в масштабі без стороннього "репетитора", але ви все одно можете зробити висновки про кореляції, які були б, якби ваші змінні ще не були бінновані та були "оригінальними" безперервно нормально розподіленими. А це тетрахорійкореляції (або поліхорні, якщо замість двійкових ви маєте порядкові змінні). Отже, використання тетрахоричних кореляцій (виведених Пірсонових кореляцій) замість кореляцій Фі (помічені кореляції Пірсона з дихотомічними даними) є логічним актом.

r=1rr, але в дихотомічних змінних цей ефект є найбільш різким, тому що занадто мало значень для прийняття.) Отже, фіреляції в їхній матриці можуть розглядатися як нерівномірно спущені через контрастні граничні розподіли у дихотомічних змінних; ви не знаєте, чи одна кореляція більша, ніж інша "справді", або через різні точки відсіку в цих двох парах змінних. Кількість факторів для вилучення (такі критерії, як "власне значення> 1" Кайзера) буде завищена: деякі вилучені "фактори" є наслідком нерівномірності, різноманітності точок зрізу, - не є істотними прихованими факторами. Це практична причина, чому б не використати філяційні кореляції (принаймні у сирому - нерецензованому) вигляді.

У дослідженнях симуляції / бінінгу було підтверджено, що факторний аналіз на основі тетрахорних кореляцій погіршується, якщо в матриці є багато сильних (> 0,7) кореляцій. Тетрахорична кореляція не є ідеальною: якщо точки відсіку співвідносних базових змінних знаходяться в протилежностях (і тому граничні розподіли в дихотомічних протилежно перекошених), тоді як основна асоціація сильна, тетрахорний коефіцієнт її ще більше завищує. Зауважимо також, що тетрахорна кореляційна матриця не обов'язково є позитивним напівдефінітом у не великих зразках, і, таким чином, може знадобитися корекція ("згладжування"). Тим не менш, це вважається багатьма кращим способом, ніж проведення факторного аналізу за простими коефіцієнтами Пірсона (фі).

Але навіщо взагалі робити факторний аналіз бінарних даних? Є й інші варіанти, включаючи приховану ознаку / IRT (форма «логістичного» аналізу факторів) та аналіз множинної кореспонденції (якщо ви бачите свої бінарні змінні як номінальні категорії).

Дивись також:


Перевірте також stats.stackexchange.com/a/219814/3277
ttnphns
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.