Ось простий приклад. Я не знаю, чи ви знайомі з R, але, сподіваємось, код достатньо зрозумілий.
set.seed(9) # this makes the example reproducible
N = 36
# the following generates 3 variables:
x1 = rep(seq(from=11, to=13), each=12)
x2 = rep(rep(seq(from=90, to=150, by=20), each=3 ), times=3)
x3 = rep(seq(from=6, to=18, by=6 ), times=12)
cbind(x1, x2, x3)[1:7,] # 1st 7 cases, just to see the pattern
x1 x2 x3
[1,] 11 90 6
[2,] 11 90 12
[3,] 11 90 18
[4,] 11 110 6
[5,] 11 110 12
[6,] 11 110 18
[7,] 11 130 6
# the following is the true data generating process, note that y is a function of
# x1 & x2, but not x3, note also that x1 is designed above w/ a restricted range,
# & that x2 tends to have less influence on the response variable than x1:
y = 15 + 2*x1 + .2*x2 + rnorm(N, mean=0, sd=10)
reg.Model = lm(y~x1+x2+x3) # fits a regression model to these data
Тепер давайте подивимося, як це виглядає:
. . .
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.76232 27.18170 -0.065 0.94871
x1 3.11683 2.09795 1.486 0.14716
x2 0.21214 0.07661 2.769 0.00927 **
x3 0.17748 0.34966 0.508 0.61524
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
. . .
F-statistic: 3.378 on 3 and 32 DF, p-value: 0.03016
Ми можемо зосередити увагу на розділі "Коефіцієнти". Кожен параметр, оцінений моделлю, отримує власний рядок. Сама фактична оцінка вказана в першій колонці. У другому стовпці перераховані Стандартні помилки оцінок, тобто оцінка того, скільки оцінок буде «відскакувати» від вибірки до вибірки, якби ми повторювали цей процес знову і знову. Більш конкретно, це оцінка стандартного відхилення розподілу вибірки оцінки. Якщо розділити кожну оцінку параметра на її SE, отримаємо t-бал , який вказаний у третьому стовпчику; це використовується для тестування гіпотез, зокрема для перевірки, чи оцінка параметра «суттєво» відрізняється від 0. Останній стовпець - цеp-значення, пов'язане з цим t-балом. Ймовірність знайти оцінене значення далеко чи далі від 0, якщо нульова гіпотеза була правдивою. Зауважте, що якщо нульова гіпотеза не відповідає дійсності, то не ясно, що ця цінність взагалі говорить нам про щось значиме.
Якщо ми подивимось назад і назад між таблицею Коефіцієнтів і справжнім процесом генерування даних вище, ми можемо побачити кілька цікавих речей. Перехоплення оцінюється як -1,8, а його SE - 27, тоді як справжнє значення - 15. Оскільки пов'язане значення p є .95, воно не вважатиметься "суттєво відмінним" від 0 ( помилка II типу ), але тим не менш, це в межах одного SE від істинного значення. Таким чином, немає нічого страшного екстремального в цій оцінці з точки зору справжньої цінності та кількості, яку вона повинна коливатися; ми просто не маємо достатньої сили для того, щоб відрізнити його від 0. Ця ж історія, більш-менш, справедлива дляx1
x2
.21214≈.2 , а р-значення є "високо значимим", правильне рішення. x3
також не можна було диференціювати від 0, p = .62, інше правильне рішення (x3 не відображається в справжньому процесі генерування даних вище). Цікаво, що значення p більше x1
, ніж для перехоплення, але менше, ніж для перехоплення, обидві з яких є помилками типу II. Нарешті, якщо ми подивимось нижче таблиці Коефіцієнтів, то побачимо значення F для моделі, що є одночасним тестом. Цей тест перевіряє, чи є модель в цілому слід вважати, що всі оцінки не можуть бути диференційовані від 0. Результати цього тесту дозволяють припустити, що принаймні деякі оцінки параметрів не дорівнюють 0, якщо це правильне рішення. Оскільки є 4 випробування вище, ми не мали б захисту від проблеми кількох порівнянь без цього. (Майте на увазі, що оскільки р-значення є випадковими змінними - чи є щось значне, варіюватиметься від експерименту до експерименту, якби експеримент був повторно виконаний - можливо, вони будуть невідповідними один одному. Це обговорюється на CV тут: Значущість коефіцієнтів у множинній регресії: значний t-тест порівняно з несуттєвою F-статистикою всі 5 тестів, обговорених у цьому пункті, є тестами гіпотези.
З вашого коментаря, я збираюся, ви також можете задатися питанням, як визначити, чи є одна пояснювальна змінна важливішою за іншу. Це дуже поширене питання, але досить складне. Уявіть, що хочете передбачити потенціал для успіху в спорті на основі зросту та ваги спортсмена, і цікавитесь, що важливіше. Загальна стратегія полягає у пошуку, який оцінений коефіцієнт більший. Однак ці оцінки є специфічними для використовуваних одиниць: наприклад, коефіцієнт ваги змінюватиметься залежно від того, використовуються кілограми чи кілограми. Крім того, не зовсім зрозуміло, як зрівняти / порівняти кілограми та дюйми, або кілограми та сантиметри. Одна із стратегій, яку люди використовують, - це стандартизаціяR2r=r2−−√