Порівняння важливості різних наборів предикторів


13

Я радив студенту-досліднику з певною проблемою, і я хотів отримати інформацію про інших на цьому сайті.

Контекст:

У дослідника було три типи змінних предиктора. Кожен тип містив різну кількість змінних предиктора. Кожен предиктор був суцільною змінною:

  • Соціальні: S1, S2, S3, S4 (тобто чотири прогнози)
  • Пізнавальний: C1, C2 (тобто два предиктори)
  • Поведінкові: B1, B2, B3 (тобто три предиктори)

Змінна результатів також була безперервною. Вибірка включала близько 60 учасників.

Дослідник хотів прокоментувати, який тип прогнозів важливіший для пояснення змінної результатів. Це було пов'язано з ширшими теоретичними занепокоєннями щодо відносної важливості цих типів прогнозів.

Запитання

  • Який хороший спосіб оцінити відносну важливість одного набору предикторів відносно іншого?
  • Яка хороша стратегія боротьби з тим, що в кожному наборі є різна кількість предикторів?
  • Які застереження в інтерпретації ви можете запропонувати?

Будь-які посилання на приклади чи обговорення методів також були б дуже бажаними.

Відповіді:


8

Пропозиції

  • Ви можете виконувати окремі множинні регресії для кожного типу предиктора і порівнювати по декількох регресіях, скоригованому r-квадраті, узагальненому r-квадраті або іншому поясненому міри дисперсії, скоригованому парсимою.
  • Ви також можете вивчити загальну літературу зі змінною важливістю ( див. Тут для обговорення за посиланнями ). Це сприяло б зосередженню уваги на важливості окремих прогнозів.
  • У деяких ситуаціях ієрархічна регресія може забезпечити корисну основу. Ви б ввели один тип змінної в один блок (наприклад, когнітивні змінні), а в другий блок - інший тип (наприклад, соціальні змінні). Це допоможе відповісти на питання про те, чи передбачає один тип змінної над та над іншим типом.
  • У якості побічної експертизи ви можете запустити факторний аналіз змінних предиктора, щоб перевірити, чи співвідносяться між перемінними прогнозами і присвоєння змінних типам.

Коваджі

  • Типи змінних, такі як когнітивні, соціальні та поведінкові - це широкі класи змінних. Дане дослідження завжди буде включати лише підмножину можливих змінних, і зазвичай така підмножина є невеликою відносно можливих змінних. Крім того, вимірювані змінні можуть бути не найбільш надійним або достовірним засобом вимірювання призначеної конструкції. Таким чином, вам слід бути обережними, коли виводите більш широке висновок про відносну важливість даного типу змінної за межами того, що було фактично виміряно.
  • Вам також потрібно розглянути будь-яке зміщення у спосіб вимірювання залежної змінної. Зокрема, в психологічних дослідженнях спостерігається тенденція до того, щоб заходи самозвітності добре співвідносилися з самодоповіддю, здатністю до здібностей, іншими доповідями з іншим звітом тощо. Проблема полягає в тому, що режим вимірювання надає великий ефект над фактичною конструкцією, що цікавить. Таким чином, якщо залежна змінна вимірюється певним чином (наприклад, самозвіт), не слід інтерпретувати більші кореляції з одним типом предиктора, якщо цей тип також використовує самозвіт.

Мені подобалося читати цю чітку корисну відповідь і збираюся поділитися нею з колегою.
rolando2

7

Важливість

Перше, що потрібно зробити, це операціоналізувати "важливість прогнозів". Я вважаю, що це означає щось на кшталт "чутливості середнього результату до змін значень прогнозника". Оскільки ваші прогнози згруповані, то чутливість середнього результату до груп предикторів є цікавішою, ніж змінна за допомогою змінного аналізу. Я залишаю відкритим, чи чутливість розуміється причинно. Це питання буде вирішено пізніше.

Три варіанти важливості

Багато варіацій пояснили : я здогадуюсь, що перший порт викликів психологів - це, мабуть, декомпозиція дисперсії, що призводить до вимірювання того, наскільки дисперсія результатів пояснюється структурою дисперсії-коефіцієнта в кожній групі прогнозів. Я, будучи експерименталістом, тут не можу багато чого запропонувати, за винятком зауваження, що вся концепція «пояснюється дисперсією» трохи не обґрунтована на мій смак, навіть без того, «яка сума яких квадратів». Інші можуть не погодитися і розвинути це далі.

Великі стандартизовані коефіцієнти : SPSS пропонує (неправильно названу) бета-версію для вимірювання впливу способом, порівнянним для змінної. Існує кілька причин не використовувати це, про що йдеться в регресному підручнику Фокса, тут та в інших місцях. Усі звертайтесь сюди. Він також ігнорує групову структуру.

З іншого боку, я думаю, що можна було б стандартизувати прогнози в групах і використовувати інформацію про коваріацію, щоб оцінити ефект руху одного стандартного відхилення у всіх них. Особисто девіз: "якщо речі, які не варто робити, не варто робити добре", пригнічує мій інтерес до цього.

Великі граничні ефекти : Інший підхід полягає в тому, щоб залишатися на шкалі вимірювань і обчислювати граничні ефекти між ретельно вибраними точками вибірки. Оскільки вас цікавлять групи, корисно вибирати точки для зміни груп змінних, а не одиничних, наприклад, маніпулювання обома когнітивними змінними одночасно. (Тут багато можливостей для класних сюжетів). Основний папір тут . effectsПакет в R буде робити це красиво.

Тут є два застереження:

  1. Якщо ви зробите це, то вам хочеться спостерігати, що ви не обираєте двох когнітивних змінних, які, хоча й індивідуально правдоподібні, наприклад, медіани, спільно далекі від будь-якого предмета спостереження.

  2. Деякі змінні навіть теоретично не піддаються маніпулюванню, тому інтерпретація граничних ефектів як причинних є більш делікатною, хоча все ж корисною.

Різна кількість предикторів

Проблеми виникають через згруповану структуру коваріації змінних, про яку ми зазвичай намагаємося не хвилюватися, але для цього слід.

Зокрема, при обчисленні граничних ефектів (або стандартизованих коефіцієнтів для цього питання) на групи, а не на одиничні змінні, прокляття розмірності буде для більш великих груп полегшувати порівняння пробитися до регіонів, де немає випадків. Більше передбачувачів у групі призводить до більш малонаселеного простору, тому будь-який показник важливості залежатиме більше від припущень моделі та менше від спостережень (але не скажемо, що ...) Але це ті самі проблеми, що і на етапі підгонки моделі дійсно. Безумовно, ті самі, що були б у модельній оцінці причинного впливу.


7

χ2L1,L2,L3χ2L1-а,L2-б,L3-cχ2


Для підтвердження, ваш підхід полягає в обчисленні L1 як зменшення відхилення (-2 *) в результаті включення чотирьох соціальних змінних, скоригованих на df цих чотирьох змінних? І так само в свою чергу для L2 і L3?
B_Miner

χ2

Ви також дозволите, що існує ризик при розробці суто статистичного рішення пропустити можливу загальну проблему, згідно з якою всі 3 групи предикторів можуть вимірювати характеристики / поведінку, що виникають одночасно. Без попередньої причини-пізнішого підґрунтя для причинно-наслідкового ланцюга, чи може бути неможливим остаточно роз'єднати причинно-наслідкові зв’язки в цій ситуації - якими б не були наші розрахунки? (Я намагаюся думати так, як робить Джеймс Девіс у "
Логіці

Точно. Причинно-наслідковий ланцюг повинен бути зрозумілий до того, як моделювання навіть починається.
Френк Харрелл

@FrankHarrell Чи застосовуються ці результати і до пенітралізованої ймовірності? Чи має пеніалізована ймовірність якісь властивості, що відрізняють її від ймовірності стосовно цього міри, що має значення змінної? Чи можете ви запропонувати будь-які документи, які детальніше описують це? Спасибі.
julieth

2

Один з методів полягає в об'єднанні наборів змінних в пучки змінних. Цей метод широко застосовується в соціології та суміжних областях.

Відгуки:

Вітт, Х'ю П. 1986. "Коефіцієнт снопа: спрощений і розширений підхід". Соціологічні дослідження 15: 174-189.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.