Питання пропонує порівняння трьох споріднених моделей. Щоб зробити порівняння зрозумілим, нехай є залежною змінною, нехай X ∈ { 1 , 2 , 3 } є поточним кодом спільноти, а X 1 і X 2 - показниками спільнот 1 і 2 відповідно. (Це означає, що X 1 = 1 для спільноти 1 і X 1 = 0 для спільнот 2 і 3; X 2 = 1 для спільнот 2 і XYХ∈ { 1 , 2 , 3 }Х1Х2Х1= 1Х1= 0Х2= 1Х2= 0 для спільнот 1 і 3.)
Поточний аналіз може бути одним із наступних: будь-який
Y= α + βХ+ ε(перша модель)
або
Y= α + β1Х1+ β2Х2+ ε(друга модель) .
В обох випадках являє собою набір однаково розподілених незалежних випадкових величин з нульовим очікуванням. Друга модель, ймовірно, призначена, але перша модель - це та, яка буде відповідати кодуванню, описаному в питанні.ε
Вихід регресії OLS - це набір пристосованих параметрів (позначених "капелюшками" на їх символах) разом з оцінкою загальної дисперсії помилок. У першій моделі є один Т-тест для порівняння β до 0 . У другій моделі є два t-тести: один для порівняння ^ β 1 до 0 і інший для порівняння ^ β 2 до 0 . Оскільки питання містить лише один t-тест, почнемо з вивчення першої моделі.β^0β1^0β2^0
Завершивши , що β істотно відрізняється від 0 , ми можемо зробити оцінку Y = E [ α + β X + ε ] = α + β Хβ^0YE [α+βХ+ ε ]α + βХ для будь-якої спільноти:
для спільноти 1, а оцінка дорівнює α + βХ= 1α + β ;
для спільноти 2, а оцінка дорівнює α + 2 βХ= 2α + 2 β ; і
для спільноти 3, а оцінка дорівнює α + 3 β . Х= 3α + 3 β
Зокрема, перша модель змушує ефекти спільноти бути в арифметичній прогресії. Якщо кодування спільноти призначене лише як довільний спосіб розмежування між спільнотами, це вбудоване обмеження є однаково довільним і, ймовірно, помилковим.
Доцільно провести такий же детальний аналіз прогнозів другої моделі:
Для спільноти 1, де і X 2 = 0 , передбачуване значення Y дорівнює α + β 1 . Зокрема,Х1= 1Х2= 0Yα + β1
Y( спільнота 1 ) = α + β1+ ε .
Для спільноти 2, де і X 2 = 1 , передбачуване значення Y дорівнює α + β 2 . Зокрема,Х1= 0Х2= 1Yα + β2
Y( спільнота 2 ) = α + β2+ ε .
Для спільноти 3, де , передбачуване значення Y дорівнює α . Зокрема,Х1= X2= 0Yα
Y(community 3)=α+ε.
Три параметри ефективно дають другій моделі повну свободу оцінювати три очікувані значення окремо. Y Т-тести оцінюють, чи (1) ; тобто чи є різниця між громадами 1 і 3; і (2) β 2 = 0 ; тобто чи є різниця між спільнотами 2 та 3. Крім того, можна перевірити "контрастність" β 2 - β 1 за допомогою t-тесту, щоб побачити, чи відрізняються спільноти 2 та 1: це працює, оскільки їхня різниця ( α + β 2 ) - ( α +β1=0β2=0β2−β1 = β 2 - β 1 .(α+β2)−(α+β1)β2−β1
Тепер ми можемо оцінити ефект трьох окремих регресій. Вони були б
Y(community 1)=α1+ε1,
Y(community 2)=α2+ε2,
Y(community 3)=α3+ε3.
Порівнюючи це з другою моделлю, ми бачимо, що повинен узгоджуватися з α + β 1 , α 2 повинен узгоджуватися з α + β 2 , а α 3 повинен погоджуватися з α . Отже, з точки зору гнучкості параметрів підгонки обидві моделі однаково хороші. Однак припущення в цій моделі щодо термінів помилки слабкіші. Усі ε 1 повинні бути незалежними та однаково розподіленими (iid); всі ε 2 повинні бути iid, і всі ε 3 повинні бути iid,α1α+β1α2α+β2α3αε1ε2ε3але нічого не передбачається про статистичні відносини між окремими регресіями. Окремі регресії, таким чином, забезпечують додаткову гнучкість:
Найголовніше, що розподіл може відрізнятися від розподілу ε 2, який може відрізнятися від розподілу ε 3 .ε1ε2ε3
У деяких ситуаціях може бути співвіднесено з ε j . Жодна з цих моделей прямо не справляється з цим, але третя модель (окремі регресії), принаймні, на неї не буде негативно впливати.εiεj
Ця додаткова гнучкість означає, що результати t-тесту для параметрів, ймовірно, будуть відрізнятися між другою та третьою моделями. (Однак це не повинно призводити до різних оцінок параметрів.)
Щоб побачити, чи потрібні окремі регресії , виконайте наступне:
Підходить друга модель. Накресліть залишки проти спільноти, наприклад, як набір бічних боків або тріо гістограми або навіть як три графіки ймовірності. Шукайте докази різної форми розподілу та особливо помітних відмінностей. Якщо цих доказів немає, друга модель повинна бути нормальною. Якщо він присутній, окремі регресії є гарантованими.
Коли моделі багатоваріантні - тобто включають інші фактори - можливий аналогічний аналіз із подібними (але більш складними) висновками. Взагалі виконання окремих регресій рівносильно включати всі можливі двосторонні взаємодії зі змінною спільноти (кодованою як у другій моделі, а не першій) та допускаючи різні розподіли помилок для кожної спільноти.