Спільна модель з умовами взаємодії порівняно з окремими регресіями для групового порівняння


13

Зібравши цінні відгуки з попередніх питань та обговорень, я підійшов до наступного питання: Припустимо, що метою є виявити відмінності ефектів у двох групах, наприклад, чоловіки та жінки. Є два способи зробити це:

  1. запустити дві окремі регресії для двох груп та застосувати тест Уолда, щоб відхилити (або ні) нульову гіпотезу : , де - коефіцієнт однієї IV у чоловічої регресії, а - коефіцієнт тієї ж IV в жіночій регресії.b 1 - b 2 = 0 b 1 b 2H0b1b2=0b1b2

  2. об'єднати дві групи разом і запустити спільну модель, включивши гендерну манекен та термін взаємодії (IV * genderdummy). Тоді виявлення групового ефекту базуватиметься на знаку взаємодії та t-тесту на значимість.

Що робити, якщо Хо відхилено у випадку (1), тобто різниця в групі є істотною, але коефіцієнт терміну взаємодії у випадку (2) є статистично незначним, тобто різниця в групах незначна. Або навпаки, Хо не відхиляється у випадку (1), а термін взаємодії є важливим у випадку (2). Мене кілька разів закінчував цей результат, і мені було цікаво, який результат буде більш надійним і в чому причина цього протиріччя.

Дуже дякую!


1
відмінність між процедурами полягає в тому, що одна припускає однакову дисперсію для обох груп. Окремий аналіз передбачає різні відхилення.
ймовірністьлогічний

Велике спасибі! Чи вам відомі будь-які довідки, які обговорювали проблему дисперсій при порівнянні різних моделей?
Bill718

Відповіді:


7

Перша модель повністю взаємодіє з гендерною ознакою з усіма іншими коваріатами в моделі. По суті, ефект кожного коваріату (b2, b3 ... bn). У другій моделі ефект статі взаємодіє лише з вашим IV. Отже, якщо припустити, що у вас є більше коваріатів, ніж просто IV та стать, це може призвести до дещо інших результатів.

Якщо у вас просто є два коваріати, є задокументовані випадки, коли різниця в максимізації між тестом Уолда та тестом коефіцієнта ймовірності призводить до різних відповідей (докладніше див. У Вікіпедії ).

На власному досвіді я намагаюся керуватися теорією. Якщо є домінуюча теорія, яка передбачає, що гендер може взаємодіяти лише з IV, але не з іншими коваріатами, я б пішов на часткову взаємодію.


Дякую! Так, насправді є різні коваріати, не один IV, я просто згадав один IV у питанні для простоти. Річ у тім, що не існує сильної теорії, яка могла б підтримувати взаємодію між статтю та певними коваріатами, це дослідницький аналіз, тому мені потрібно експериментувати з багатьма взаємодіями та наборами моделей; початкова модель містить 30
прогнозів

@ Bill718 Також окремі моделі матимуть різний перехоплення, тоді як окрема модель не буде, якщо ви не вкажете лише гендер як додатковий IV (не лише як взаємодія).
Роберт Кубрик

5

Кожен раз, коли для перевірки певної гіпотези використовуються дві різні процедури, існують різні р-значення. Сказати, що одне є важливим, а інше - не можна просто прийняти чорно-білі рішення на рівні 0,05. Якщо один тест дає р-значення 0,03, а інший - 0,07, я б не назвав результати суперечливими. Якщо ви будете настільки суворими в думці про важливість, то легко скластись ситуація (i) або (ii), коли важливість цієї лінії є такою.

Як я вже згадував у відповіді на попереднє запитання, я віддаю перевагу пошуку взаємодії - це зробити один комбінований регрес.


Так, це правда, що комбінована регресія, здається, працює краще, принаймні в моєму випадку, і це дуже гнучкий метод, оскільки хтось міг спробувати різні взаємодії та відповідність моделі. Мені просто хотілося, з "статистичної" цікавості скажімо , щоб з’ясувати, що є причиною чомусь різних результатів. Щодо p-значень, я чув, як деякі люди сприймають значення лише на рівні = 0,5% або менше. Я більш гнучка, використовую рівень = 1%, але великий головний біль виникає, коли значення p абсолютно інші.
Bill718

Я бачив, наприклад, дослідження, де один IV дуже важливий, коли використовується впорядкований модем logit, тоді як той самий IV стає незначним при застосуванні OLS. Тож у такому випадку пояснення результатів може бути трохи хитромудрим. Дякую за ваші коментарі та відгуки!
Bill718

0,070,03

2

У другому випадку стандартне програмне забезпечення запропонує вам статистика з значеннями t-студента, тоді як для першого випадку тести Wald можуть мати два варіанти. Згідно з припущенням про нормальність помилок, статистики Вальда слідкують за точною статистикою Фішера (що еквівалентно t-stat, оскільки передбачає нормальність помилки). Тоді як за асимптотичною нормальністю статистики Вальда слід розподіл Chi2 (що аналогічно t-stat після нормального розподілу асимптотично) Який розподіл ви припускаєте? Залежно від цього ваші р-значення ризикують отримати різні результати.

У Підручниках ви побачите, що для двосторонніх одиночних тестів (один параметр) і t-student, і статистика Фішера рівнозначні.

Якщо ваш зразок не великий, порівняння порівнянь значень chi2 та t-stat дасть певні результати напевно. У цьому випадку припущення про асимптотичний розподіл не було б розумним. Якщо ваш зразок досить малий, то, якщо припустити, що нормальність здається більш розумною, це передбачає значення t-stat та Fisher для випадків 2 та 1 відповідно.


Дійсно, у мене є дві вибірки неоднакового розміру, перша має 3000 спостережень, але друга порівняно невелика, 500 спостережень. І програмне забезпечення повідомляє чі-квадрат під час обчислення статистики Wald. Отже, здається, що це причина розбіжностей. Обидва зразки зазвичай розподіляються, особливо у випадку великої вибірки. Дуже дякую!
Bill718

1
Вибачте, що вас обдурили, але неоднакові розміри підпроб не є проблемою. Більше того, ваш виглядає як великий зразок для мене. тому обидві процедури повинні дати однакові результати. Я помітив, що @probabilityislogic зробив хороший момент. Використання одного об'єднаного зразка передбачає рівні залишкові відхилення, так що це може бути джерелом неоднорідності. Не знаєте, як ви впроваджуєте окрему процедуру регресії, але помилитися легко, якщо ви самі розраховуєте статистику. Це робить об'єднану регресію безпечним прямим підходом.
JDav

1
Щоб вирішити питання нерівномірних дисперсій у групах (гетеросклестичність), спробуйте оцінювач дисперсії White (він же Newey-west, Sandwich або Robust, якщо ви використовуєте stata). Такий підхід виправляє невідомі типи гетероскопіки.
JDav

О, гаразд, я бачу, насправді спостереження у вибірці надходять з різних регіонів країни, тому дуже можливо, я здогадуюсь, що існують проблеми гетерогенності!
Bill718
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.