Множинна лінійна регресія для тестування гіпотез

15

Мені знайоме використання декількох лінійних регресій для створення моделей різних змінних. Однак мені було цікаво, якщо регресійні тести колись використовуються для того, щоб робити якісь основні перевірки гіпотез. Якщо так, як би виглядали ці сценарії / гіпотези?

regression hypothesis-testing multiple-regression

— cryptic_star
джерело

1

Чи можете ви далі пояснити, що ви маєте на увазі? Дуже часто перевіряється, чи параметр нахилу змінної відрізняється від нуля. Я б назвав це "тестуванням гіпотез". Ви цього не знаєте, чи маєте на увазі щось інше? Що являє собою сценарій для ваших цілей?

— gung - Відновіть Моніку

Я цього не знаю. Я також був не впевнений, чи використовується аналіз на основі регресії для будь-якого іншого тестування гіпотез (можливо, про значення однієї змінної над іншою тощо).

— cryptic_star

26

Ось простий приклад. Я не знаю, чи ви знайомі з R, але, сподіваємось, код достатньо зрозумілий.

set.seed(9)        # this makes the example reproducible
N = 36
    # the following generates 3 variables:
x1 =     rep(seq(from=11, to=13),           each=12)
x2 = rep(rep(seq(from=90, to=150, by=20),   each=3 ), times=3)
x3 =     rep(seq(from=6,  to=18,  by=6 ),  times=12)
cbind(x1, x2, x3)[1:7,]    # 1st 7 cases, just to see the pattern
      x1  x2 x3
 [1,] 11  90  6
 [2,] 11  90 12
 [3,] 11  90 18
 [4,] 11 110  6
 [5,] 11 110 12
 [6,] 11 110 18
 [7,] 11 130  6 
    # the following is the true data generating process, note that y is a function of
    #   x1 & x2, but not x3, note also that x1 is designed above w/ a restricted range,
    #   & that x2 tends to have less influence on the response variable than x1:
y  = 15 + 2*x1 + .2*x2 + rnorm(N, mean=0, sd=10)

reg.Model = lm(y~x1+x2+x3)    # fits a regression model to these data

Тепер давайте подивимося, як це виглядає:

. . . 
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -1.76232   27.18170  -0.065  0.94871   
x1           3.11683    2.09795   1.486  0.14716   
x2           0.21214    0.07661   2.769  0.00927 **
x3           0.17748    0.34966   0.508  0.61524   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
. . . 
F-statistic: 3.378 on 3 and 32 DF,  p-value: 0.03016

Ми можемо зосередити увагу на розділі "Коефіцієнти". Кожен параметр, оцінений моделлю, отримує власний рядок. Сама фактична оцінка вказана в першій колонці. У другому стовпці перераховані Стандартні помилки оцінок, тобто оцінка того, скільки оцінок буде «відскакувати» від вибірки до вибірки, якби ми повторювали цей процес знову і знову. Більш конкретно, це оцінка стандартного відхилення розподілу вибірки оцінки. Якщо розділити кожну оцінку параметра на її SE, отримаємо t-бал , який вказаний у третьому стовпчику; це використовується для тестування гіпотез, зокрема для перевірки, чи оцінка параметра «суттєво» відрізняється від 0. Останній стовпець - цеp-значення, пов'язане з цим t-балом. Ймовірність знайти оцінене значення далеко чи далі від 0, якщо нульова гіпотеза була правдивою. Зауважте, що якщо нульова гіпотеза не відповідає дійсності, то не ясно, що ця цінність взагалі говорить нам про щось значиме.

Якщо ми подивимось назад і назад між таблицею Коефіцієнтів і справжнім процесом генерування даних вище, ми можемо побачити кілька цікавих речей. Перехоплення оцінюється як -1,8, а його SE - 27, тоді як справжнє значення - 15. Оскільки пов'язане значення p є .95, воно не вважатиметься "суттєво відмінним" від 0 ( помилка II типу ), але тим не менш, це в межах одного SE від істинного значення. Таким чином, немає нічого страшного екстремального в цій оцінці з точки зору справжньої цінності та кількості, яку вона повинна коливатися; ми просто не маємо достатньої сили для того, щоб відрізнити його від 0. Ця ж історія, більш-менш, справедлива дляx1x2 $.21214\approx.2$ , а р-значення є "високо значимим", правильне рішення. x3також не можна було диференціювати від 0, p = .62, інше правильне рішення (x3 не відображається в справжньому процесі генерування даних вище). Цікаво, що значення p більше x1, ніж для перехоплення, але менше, ніж для перехоплення, обидві з яких є помилками типу II. Нарешті, якщо ми подивимось нижче таблиці Коефіцієнтів, то побачимо значення F для моделі, що є одночасним тестом. Цей тест перевіряє, чи є модель в цілому слід вважати, що всі оцінки не можуть бути диференційовані від 0. Результати цього тесту дозволяють припустити, що принаймні деякі оцінки параметрів не дорівнюють 0, якщо це правильне рішення. Оскільки є 4 випробування вище, ми не мали б захисту від проблеми кількох порівнянь без цього. (Майте на увазі, що оскільки р-значення є випадковими змінними - чи є щось значне, варіюватиметься від експерименту до експерименту, якби експеримент був повторно виконаний - можливо, вони будуть невідповідними один одному. Це обговорюється на CV тут: Значущість коефіцієнтів у множинній регресії: значний t-тест порівняно з несуттєвою F-статистикою всі 5 тестів, обговорених у цьому пункті, є тестами гіпотези.

З вашого коментаря, я збираюся, ви також можете задатися питанням, як визначити, чи є одна пояснювальна змінна важливішою за іншу. Це дуже поширене питання, але досить складне. Уявіть, що хочете передбачити потенціал для успіху в спорті на основі зросту та ваги спортсмена, і цікавитесь, що важливіше. Загальна стратегія полягає у пошуку, який оцінений коефіцієнт більший. Однак ці оцінки є специфічними для використовуваних одиниць: наприклад, коефіцієнт ваги змінюватиметься залежно від того, використовуються кілограми чи кілограми. Крім того, не зовсім зрозуміло, як зрівняти / порівняти кілограми та дюйми, або кілограми та сантиметри. Одна із стратегій, яку люди використовують, - це стандартизація $R^2$ $r=\sqrt{r^2}$

— gung - Відновити Моніку
джерело

2

Найважливішим тестом у регресійних моделях є тест Full-Reduced. Тут ви порівнюєте 2 регресійні моделі, модель Full має всі терміни, а тест Reduced має підмножину цих термінів (зменшена модель повинна вкладатись у повну модель). Потім тест перевіряє нульову гіпотезу про те, що зменшена модель підходить так само добре, як і повна модель, і будь-яка різниця обумовлена випадковістю.

Поширені роздруківки із статистичного програмного забезпечення включають загальний тест на F, це лише тест Full-Reduced, де зменшений тест є лише моделлю перехоплення. Вони також часто друкують значення p для кожного окремого прогноктора, це лише серія тестів з повною скороченою моделлю, в кожному з яких зменшена модель не включає конкретний термін. Існує багато способів використання цих тестів для відповіді на питання, що цікавлять. Насправді майже кожен тест, викладений у вступному курсі статистики, може бути обчислений за допомогою регресійних моделей та тесту з повним скороченням, і результати будуть у багатьох випадках однаковими та дуже близькими для інших.

— Грег Сніг
джерело