Який правильний спосіб перевірити на значні відмінності між коефіцієнтами?


18

Я сподіваюся, що хтось може допомогти виправити для мене точку плутанини. Скажіть, я хочу перевірити, чи значно відрізняються два набори коефіцієнтів регресії один від одного, встановивши наступне:

  • yi=α+βxi+ϵi , з 5 незалежними змінними.
  • 2 групи з приблизно однаковими розмірами n1,n2 (хоча це може змінюватися)
  • Тисячі подібних регресій будуть здійснені одночасно, тому потрібно зробити якусь корекцію множинних гіпотез.

Один із підходів, який мені запропонували, - використовувати Z-тест:

Z=b1b2(SEb12+SEb22)

Ще одне, що я бачив, запропонувавши на цій дошці, - це ввести фіктивну змінну для групування та переписати модель як:

yi=α+βxi+δ(xigi)+ϵi , деg - змінна групування, кодована як 0, 1.

Моє запитання полягає в тому, чим відрізняються ці два підходи (наприклад, різні припущення, гнучкість)? Чи є один більш відповідний, ніж інший? Я підозрюю, що це досить просто, але будь-яке уточнення буде дуже вдячно.


Я вважаю, що відповіді та коментарі до подібного питання можуть дати деякі уточнення, які ви шукаєте.
whuber

Дякую тобі Мені була знайома відповідь. Із обговорення нижче прийнятої відповіді (і ваших коментарів там) у мене залишилося враження, що порівнювати коефіцієнти двох окремих підходів не було доцільно. Чи застосовується z-тест до коефіцієнтів з окремих підходів, неправильно чи це кодування фіктивних змінних просто простіше і дає рівнозначну відповідь?
cashoes

1
Будь ласка, дивіться останній абзац моєї відповіді ("Основне обмеження ..."). Тест Z є дійсним, якщо є великими (в іншому випадку використовують при тесті), і розрахункові стандартні відхилення S E b i не надто відрізняються один від одного. Жоден підхід не найкращий, коли стандартні відхилення сильно відрізняються (приблизно, більше ніж співвідношення 3: 1). niSEbi
whuber

Відповіді:


13

Два підходи дійсно відрізняються.

Нехай розрахункові стандартні похибки двох регресій становлять та s 2 . Тоді, оскільки комбінована регресія (з усіма взаємодіями коефіцієнта-манекена) відповідає однаковим коефіцієнтам, вона має ті самі залишки, звідки може бути обчислена її стандартна помилка якs1s2

s=(n1p)s12+(n2p)s22)n1+n22p.

Кількість параметрів дорівнює 6 у прикладі: п’ять схилів і перехоплення в кожній регресії.p6

Дозволяти оцінює параметр в одній регресії, b 2 оцінює той самий параметр в іншій регресії, а b оцінює їхрізницюв комбінованій регресії. Тоді їхні стандартні помилки пов'язані між собоюb1b2b

SE(b)=s(SE(b1)/s1)2+(SE(b2)/s2)2.

Якщо ви ще не зробили комбіновану регресію, але маєте лише статистику для окремих регресій, підключіть до попереднього рівняння для . Це буде знаменником t-тесту. Очевидно, це не те саме, що знаменник, представлений у запитанні.s

Припущення комбінованої регресії полягає в тому, що дисперсії залишків по суті однакові в обох окремих регресіях. Якщо це не так, проте z-тест також не буде хорошим (якщо тільки розміри вибірки не є великими): ви хочете використовувати тест CABF або t-тест Welch- Satterthwaite .


9

Найбільш прямий спосіб перевірити різницю коефіцієнта між двома групами - це включити термін взаємодії у свою регресію, що є майже тим, що ви описуєте у своєму запитанні. Модель, яку ви запускаєте, така:

yi=α+βxi+γgi+δ(xi×gi)+εi

tH0:δ=0gi=0

yi=α+βxi+εi

gi=1

yi=(α+γ)+(β+δ)xi+εi

δ


Дякую за виправлення моделі (я вважаю, що моя версія вище просто зобов’язує, щоб перехоплення було однаковим для обох груп ...). Більше того, чи буде це тоді еквівалентно z-тесту, який я розмістив вище?
cashoes

yi=α+βxi+γgi+εiyi=α+βxi+γgi+δ(xi×gi)+εi

@ matt-blackwell це концептуально те саме, що розшарування моделі на кожне значення g? (тобто. b був би коефіцієнт x, коли g = 0, а бета + дельта, коли g = 1). Хоча я ціную, що стратифікація не дозволяє порівняти статистику.
bobmcpop
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.