Я вважаю, що прості вправи з аналізу даних часто можуть допомогти проілюструвати та уточнити статистичні поняття. Які вправи для аналізу даних ви використовуєте для навчання статистичних понять?
Я вважаю, що прості вправи з аналізу даних часто можуть допомогти проілюструвати та уточнити статистичні поняття. Які вправи для аналізу даних ви використовуєте для навчання статистичних понять?
Відповіді:
Оскільки мені доводиться пояснювати різні методи відбору досить часто, не в контексті викладання, але для нестатистів, які просять допомоги у своїх дослідженнях, я люблю цей надзвичайно простий приклад, який ілюструє, чому вибір однієї змінної не обов'язково є гарною ідеєю.
Якщо у вас є цей набір даних:
y X1 x2
1 1 1
1 0 0
0 1 0
0 0 1
Не займе багато часу, щоб усвідомити, що і X1, і X2 окремо абсолютно неінформативні для y (коли вони однакові, y напевно "1", я ігнорую питання щодо розміру вибірки тут, просто припустімо ці чотири спостереження до бути всім Всесвітом). Однак поєднання двох змінних є цілком інформативним. Таким чином, людям легше зрозуміти, чому не годиться (наприклад) перевіряти значення р лише для моделей із кожною окремою змінною як регресора.
На мій досвід, це дійсно отримує повідомлення.
Коефіцієнти множинної регресії та очікувана помилка знаку
Однією з моїх улюблених ілюстрацій статистичної концепції за допомогою аналізу даних є деконструкція множинної регресії на множинні двовимірні регресії.
Цілі
Концепція
Коефіцієнти регресії в моделі множинної регресії представляють залежність між а) частиною даної змінної прогностики (x1), яка не пов'язана з усіма іншими змінними провісника (x2 ... xN) в моделі; та 2) частину змінної відповіді (Y), яка не пов'язана з усіма іншими змінними провізора (x2 ... xN) в моделі. Коли між предикторами існує кореляція, знаки, пов'язані з коефіцієнтами предиктора, представляють відносини між цими залишками.
Вправа
Коефіцієнт для етапу 4 для r2 буде коефіцієнтом x1 для моделі множинної регресії з x1 та x2. Ви можете зробити те ж саме для x2, розділивши x1 для y і x2.
Ось декілька код R для цієї вправи.
set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2) # Multiple regression Model
ry1 <- residuals( lm( y ~ x2) ) # The part of y not related to x2
rx1 <- residuals( lm(x1 ~ x2) ) # The part of x1 not related to x2
lm( ry1 ~ rx1)
ry2 <- residuals( lm( y ~ x1) ) # The part of y not related to x1
rx2 <- residuals( lm(x2 ~ x1) ) # The part of x2 not related to x1
lm( ry2 ~ rx2)
Ось відповідні результати та результати.
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept) ***x1*** ***x2***
-0.02410 ***1.89527*** ***5.07549***
Call:
lm(formula = ry1 ~ rx1)
Coefficients:
(Intercept) ***rx1***
-2.854e-17 ***1.895e+00***
Call:
lm(formula = ry2 ~ rx2)
Coefficients:
(Intercept) ***rx2***
3.406e-17 ***5.075e+00***