Чи слід проводити окремі регресії для кожної спільноти, чи спільнота може бути просто керуючою змінною в агрегованій моделі?


11

Я використовую модель OLS з постійною змінною індексу активів як DV. Мої дані агрегуються з трьох подібних спільнот у тісній географічній близькості. Незважаючи на це, я вважав важливим використовувати спільноту як контрольну змінну. Як виявляється, спільнота є значною на рівні 1% (t-бал -4,52). Спільнота - це номінальна / категоріальна змінна, кодована як 1,2,3 для 1 з 3 різних спільнот.

Моє запитання: якщо цей високий ступінь значущості означає, що я повинен робити регреси по громадах окремо, а не як сукупність. Інакше, чи використовує спільноту як керуючу змінну, по суті, це робить?


Чи має сенс використовувати ієрархічну модель із спільнотою як випадковий ефект? Громади не є вашою основною проблемою, чи не так? Використовуючи ієрархічну модель, ви поділяєте сили.
Вейн

Відповіді:


14

Питання пропонує порівняння трьох споріднених моделей. Щоб зробити порівняння зрозумілим, нехай є залежною змінною, нехай X { 1 , 2 , 3 } є поточним кодом спільноти, а X 1 і X 2 - показниками спільнот 1 і 2 відповідно. (Це означає, що X 1 = 1 для спільноти 1 і X 1 = 0 для спільнот 2 і 3; X 2 = 1 для спільнот 2 і XYX{1,2,3}X1X2X1=1X1=0X2=1X2=0 для спільнот 1 і 3.)

Поточний аналіз може бути одним із наступних: будь-який

Y=α+βX+ε(first model)

або

Y=α+β1X1+β2X2+ε(second model).

В обох випадках являє собою набір однаково розподілених незалежних випадкових величин з нульовим очікуванням. Друга модель, ймовірно, призначена, але перша модель - це та, яка буде відповідати кодуванню, описаному в питанні.ε

Вихід регресії OLS - це набір пристосованих параметрів (позначених "капелюшками" на їх символах) разом з оцінкою загальної дисперсії помилок. У першій моделі є один Т-тест для порівняння β до 0 . У другій моделі є два t-тести: один для порівняння ^ β 1 до 0 і інший для порівняння ^ β 2 до 0 . Оскільки питання містить лише один t-тест, почнемо з вивчення першої моделі.β^0β1^0β2^0

Завершивши , що β істотно відрізняється від 0 , ми можемо зробити оцінку Y = E [ α + β X + ε ] = α + β Хβ^0YE[α+βX+ε]α+βX для будь-якої спільноти:

для спільноти 1, а оцінка дорівнює α + βX=1α+β ;

для спільноти 2, а оцінка дорівнює α + 2 βX=2α+2β ; і

для спільноти 3, а оцінка дорівнює α + 3 β . X=3α+3β

Зокрема, перша модель змушує ефекти спільноти бути в арифметичній прогресії. Якщо кодування спільноти призначене лише як довільний спосіб розмежування між спільнотами, це вбудоване обмеження є однаково довільним і, ймовірно, помилковим.

Доцільно провести такий же детальний аналіз прогнозів другої моделі:

Для спільноти 1, де і X 2 = 0 , передбачуване значення Y дорівнює α + β 1 . Зокрема,X1=1X2=0Yα+β1

Y(community 1)=α+β1+ε.

Для спільноти 2, де і X 2 = 1 , передбачуване значення Y дорівнює α + β 2 . Зокрема,X1=0X2=1Yα+β2

Y(community 2)=α+β2+ε.

Для спільноти 3, де , передбачуване значення Y дорівнює α . Зокрема,X1=X2=0Yα

Y(community 3)=α+ε.

Три параметри ефективно дають другій моделі повну свободу оцінювати три очікувані значення окремо. Y Т-тести оцінюють, чи (1) ; тобто чи є різниця між громадами 1 і 3; і (2) β 2 = 0 ; тобто чи є різниця між спільнотами 2 та 3. Крім того, можна перевірити "контрастність" β 2 - β 1 за допомогою t-тесту, щоб побачити, чи відрізняються спільноти 2 та 1: це працює, оскільки їхня різниця ( α + β 2 ) - ( α +β1=0β2=0β2β1 = β 2 - β 1 .(α+β2)(α+β1)β2β1

Тепер ми можемо оцінити ефект трьох окремих регресій. Вони були б

Y(community 1)=α1+ε1,

Y(community 2)=α2+ε2,

Y(community 3)=α3+ε3.

Порівнюючи це з другою моделлю, ми бачимо, що повинен узгоджуватися з α + β 1 , α 2 повинен узгоджуватися з α + β 2 , а α 3 повинен погоджуватися з α . Отже, з точки зору гнучкості параметрів підгонки обидві моделі однаково хороші. Однак припущення в цій моделі щодо термінів помилки слабкіші. Усі ε 1 повинні бути незалежними та однаково розподіленими (iid); всі ε 2 повинні бути iid, і всі ε 3 повинні бути iid,α1α+β1α2α+β2α3αε1ε2ε3але нічого не передбачається про статистичні відносини між окремими регресіями. Окремі регресії, таким чином, забезпечують додаткову гнучкість:

  • Найголовніше, що розподіл може відрізнятися від розподілу ε 2, який може відрізнятися від розподілу ε 3 .ε1ε2ε3

  • У деяких ситуаціях може бути співвіднесено з ε j . Жодна з цих моделей прямо не справляється з цим, але третя модель (окремі регресії), принаймні, на неї не буде негативно впливати.εiεj

Ця додаткова гнучкість означає, що результати t-тесту для параметрів, ймовірно, будуть відрізнятися між другою та третьою моделями. (Однак це не повинно призводити до різних оцінок параметрів.)

Щоб побачити, чи потрібні окремі регресії , виконайте наступне:

Підходить друга модель. Накресліть залишки проти спільноти, наприклад, як набір бічних боків або тріо гістограми або навіть як три графіки ймовірності. Шукайте докази різної форми розподілу та особливо помітних відмінностей. Якщо цих доказів немає, друга модель повинна бути нормальною. Якщо він присутній, окремі регресії є гарантованими.

Коли моделі багатоваріантні - тобто включають інші фактори - можливий аналогічний аналіз із подібними (але більш складними) висновками. Взагалі виконання окремих регресій рівносильно включати всі можливі двосторонні взаємодії зі змінною спільноти (кодованою як у другій моделі, а не першій) та допускаючи різні розподіли помилок для кожної спільноти.


-3
  • вибір моделі (IMHO) введіть тут опис зображенняможе бути рекомендований. Оскільки складні моделі (Окремий нахил) матимуть більш строгий штраф, таким чином більш стислі та легкі для інтерпретації моделі будуть "кращими".

1
Не зовсім зрозуміло, що ви тут рекомендуєте, або як ця таблиця стосується цього.
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.