Ускладнення наявності дуже невеликої вибірки в моделі структурного рівняння


13

Я використовую модель структурних рівнянь (SEM) в Амосі 18. Я шукав 100 учасників свого експерименту (використовувався вільно), що, напевно, було недостатньо для проведення успішної SEM. Мені неодноразово говорили, що SEM (поряд з EFA, CFA) є "великою вибірковою" статистичною процедурою. Коротше кажучи, я не домігся до 100 учасників (який сюрприз!), І лише 42, якщо виключити два проблемних моменти даних. З інтересу я все-таки спробував модель, і на мій подив, здавалося, вона дуже добре підходить! CFI> .95, RMSEA <.09, SRMR <.08.

Модель не проста, насправді, я б сказав, вона досить складна. У мене є дві латентні змінні, одна з двома спостережуваними, а друга з 5 спостерігаються змінними. У мене також є чотири додаткові спостережувані змінні в моделі. Існують численні зв'язки між змінними, непрямими і прямими, причому деякі змінні є ендогенними для чотирьох інших, як приклад.

Я дещо новачок у SEM; однак двоє людей, яких я знаю, досить добре знайомі з SEM, кажуть, що доки показники придатності хороші, ефекти можна інтерпретувати (якщо вони значні), і з моделлю нічого суттєво «не так». Я знаю, що деякі показники придатності є упередженими для або проти невеликих зразків, що стосується того, що вони пропонують добре відповідати, але три, про які я згадував раніше, здаються нормальними, і я вважаю, що вони не є аналогічними упередженими. Для перевірки на непрямі ефекти я використовую завантажувальний запуск (2000 зразків або близько того), 90-відсоткове зміщення виправлене впевненість, Монте Карло. Додатковим зауваженням є те, що я використовую три різні SEM для трьох різних умов.

У мене є два питання, які я хотів би, щоб деякі з вас розглядали, і прошу відповісти, якщо у вас є щось, щоб внести свій внесок:

  1. Чи є якісь слабкі мої мої моделі, які не демонструються відповідними показниками? Невеликий зразок буде виділятися як слабкість дослідження, але мені залишається цікаво, чи є якась величезна статистична проблема, про яку я повністю не звертаю уваги. Я планую отримати в майбутньому ще 10-20 учасників, але це все одно залишить у мене порівняно невелику вибірку для таких аналізів.

  2. Чи є якісь проблеми з моїм використанням завантажувального інструменту з огляду на мій невеликий зразок чи контекст, в якому я його використовую?

Я сподіваюся, що ці питання не надто "основні" для цього форуму. Я прочитав низку глав про SEM та пов'язані з цим питання, але вважаю, що люди дуже розходяться з точки зору думок у цій галузі!

Ура


1
@Behacad - добре пояснена проблема. Ви оцінюєте безліч параметрів, використовуючи дуже рідкі дані. Тож висновок буде жахливо хитким. Але я хотів би відступити і запитати - чи використовуєте ви ці 42 для підрахунку стосунків серед більшої кількості населення? Якщо так, то 42 є випадковою вибіркою чи, принаймні, демонстративно репрезентативною?
rolando2

Дякую за Ваш коментар rolando2! Вибірка включає 42 студентів університету, і я переглядаю взаємозв'язок між низкою факторів і тривогою. Взаємовідносини, які я хотів би зробити, були б серед загальної сукупності. Мої висновки обмежені, оскільки всі учасники відносно молоді студенти, але я не шукаю конкретної популяції (наприклад, осіб, які страждають на тривожний розлад). Мене цікавить широко заявити, наприклад, що X є опосередковано пов'язаним з Y у зразку, що не має клініки. Це відповідає на ваші запитання?
Бехакад

1
@Behacad - якщо припустити, що ви можете захистити своїх потенційних критиків репрезентативність вашої вибірки, я б сказав однозначно, що намагаючись оцінити зв’язки між 12 змінними, ви вимагаєте занадто багато ваших 42 випадків. Подивіться, чи можете ви спростити свою модель, щоб включити лише три найцікавіші прогнози. Хоча я розумію, що болісно розлучатися з даними, які ви, можливо, наполегливо збирали!
rolando2

Дякую за відповідь У мене є «відчуття», що оцінювати зв’язки між усіма цими змінними важко з 42 точками даних, і я бачу, звідки ви беретеся. Зважаючи на це, що може стати статистичною причиною (бажано, щоб це було зазначено) для цієї проблеми? Чим це відрізняється від виконання ряду регресій / кореляцій на різних залежних змінних? Підхід хороший (і я фактично використовую три різні моделі для різних експериментальних завдань), а результати узгоджуються між моделями та відповідають теорії. Вибачте, якщо я виходжу як захисний!
Behacad

(Не захисні - не хвилюйтесь!) Наявність 42 випадків піддає вам помилку вибірки, як мінімум, навіть при оцінці одновимірної статистики. Тепер у SEM кожна змінна використовується багато разів, тому що ви оцінюєте зв’язок від A до B, контролюючи C, D тощо. Отже, наслідки помилки вибірки будуть поширюватися, що, наскільки я розумію, саме тому зазвичай потрібно великих зразків. У вашому випадку у вас є потенційно більше видів помилок, ніж помилка вибірки, оскільки у вас немає випадкової вибірки. Тож вам потрібно намалювати дуже великий надійний інтервал навколо будь-якого результату, який ви отримаєте.
rolando2

Відповіді:


4

Один момент: немає такого поняття, як "основне питання", ви знаєте лише те, що знаєте, а не те, чого не знаєте. задати питання часто є єдиним способом дізнатися.

Щоразу, коли ви бачите невеликі зразки, ви дізнаєтесь, хто насправді «вірить» у їхні моделі, а хто ні. Я говорю це тому, що невеликі зразки - це, як правило, найбільший вплив мають моделі.

Будучи захопленим (психо?) Моделлю, я кажу, що йди! Ви, здається, використовуєте обережний підхід, і ви визнали потенційну упередженість тощо завдяки невеликій вибірці. Одне, що потрібно пам’ятати при пристосуванні моделей до невеликих даних, - це те, що у вас є 12 змінних. Тепер слід подумати - наскільки добре могла будь-яка модель з 12 змінними визначатись за 42 спостереженнями? Якщо у вас було 42 змінні, то будь-яка модель могла б ідеально підходити до цих 42 спостережень (слабко кажучи), тому ваш випадок не надто далеко від занадто гнучкої. Що відбувається, коли ваша модель занадто гнучка? Він, як правило, підходить до шуму - тобто відносин, які визначаються речами, відмінними від тих, про які ви гіпотезуєте.

Ви також маєте можливість помістити своє его там, де ваша модель, передбачивши, які ці майбутні 10-20 зразків будуть з вашої моделі. Цікаво, як ваші критики будуть реагувати на так звану "хитру" модель, яка дає правильні прогнози. Зауважте, що ви отримаєте подібне "я вам так сказав", якщо ваша модель не буде добре прогнозувати дані.

Ще один спосіб ви можете переконати себе у тому, що ваші результати надійні - це спробувати їх порушити. Зберігаючи свої первісні дані недоторканими, створіть новий набір даних і подивіться, що вам потрібно зробити з цим новим набором даних, щоб ваші результати SEM здавалися смішними. Потім подивіться, що вам довелося зробити, і подумайте: чи це розумний сценарій? Чи нагадують мої "смішні" дані справжню можливість? Якщо вам доведеться перевезти ваші дані на смішні території, щоб отримати смішні результати, це дає певну впевненість (евристичну, а не формальну), що ваш метод є надійним.


1

Основна проблема, яку я бачу з цим, - це недостатня потужність. Підтверджуючий фактор і тестування SEM намагаються прийняти нуль - ви хочете побачити незначне p-значення - тому нестача енергії може бути проблемою. Потужність тесту залежить від розміру вибірки (42) та ступенів свободи. AMOS дає вам ступінь свободи. Ви цього не процитували, але в цьому випадку він не буде великим. З 12 змінних, ви починаєте з 66 DF, і віднімаєте 1 для кожного параметра, який ви оцінюєте. Я не знаю, скільки це було б, але ви кажете, що у вас є кілька факторів і кореляцій між різними конструкціями.

Я не повністю згоден з Rolando2. У SEM ви отримуєте велику кількість змінних, припускаючи, що вони є надійними індикаторами базових конструкцій. Тому не зменшуйте кількість змінних. З цієї ж причини я не повністю згоден з @probabilityislogic. У SEM ви не намагаєтесь моделювати 12 змінних з 42 спостереженнями. Ви намагаєтеся моделювати конструкції за допомогою 12 показників, підсилених 42 тиражами. Дуже просту факторну модель - 1 коефіцієнт з 12 показниками - можливо, можна було б протестувати разом із 42 людьми.

RMSEA та інші переваги відповідних заходів, як правило, покращуватимуться, коли ви будете поруч із насиченістю моделі, тож, знову ж таки, ви ризикуєте ввести в оману результату.

Попри це, я бачив, як невеликі набори даних відкидають факторну модель. Це, мабуть, означає щось, що здається гарним.

Примітка. Ви також можете перевірити залишки моделі SEM. Ці відмінності між матрицею коваріації оцінки та матрицею коваріації моделі. AMOS передасть їх вам, якщо ви запитаєте їх. Експертиза залишків може вказати, якщо вони розподілені рівномірно або якщо певні коваріації дуже погано пристосовані.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.