Вивчення статистичних понять за допомогою вправ щодо аналізу даних

18

Я вважаю, що прості вправи з аналізу даних часто можуть допомогти проілюструвати та уточнити статистичні поняття. Які вправи для аналізу даних ви використовуєте для навчання статистичних понять?

teaching

— Brett Magill
джерело

9

Оскільки мені доводиться пояснювати різні методи відбору досить часто, не в контексті викладання, але для нестатистів, які просять допомоги у своїх дослідженнях, я люблю цей надзвичайно простий приклад, який ілюструє, чому вибір однієї змінної не обов'язково є гарною ідеєю.

Якщо у вас є цей набір даних:

y      X1     x2
1       1      1
1       0      0
0       1      0
0       0      1

Не займе багато часу, щоб усвідомити, що і X1, і X2 окремо абсолютно неінформативні для y (коли вони однакові, y напевно "1", я ігнорую питання щодо розміру вибірки тут, просто припустімо ці чотири спостереження до бути всім Всесвітом). Однак поєднання двох змінних є цілком інформативним. Таким чином, людям легше зрозуміти, чому не годиться (наприклад) перевіряти значення р лише для моделей із кожною окремою змінною як регресора.

На мій досвід, це дійсно отримує повідомлення.

— Нік Саббе
джерело

5

Коефіцієнти множинної регресії та очікувана помилка знаку

Однією з моїх улюблених ілюстрацій статистичної концепції за допомогою аналізу даних є деконструкція множинної регресії на множинні двовимірні регресії.

Цілі

Для уточнення значення коефіцієнтів регресії за наявності декількох предикторів.
Щоб проілюструвати, чому неправильно «очікувати» множинного коефіцієнта регресії, щоб він мав певний знак, виходячи з його двовимірного зв’язку з Y, коли предиктори співвідносяться.

Концепція

Коефіцієнти регресії в моделі множинної регресії представляють залежність між а) частиною даної змінної прогностики (x1), яка не пов'язана з усіма іншими змінними провісника (x2 ... xN) в моделі; та 2) частину змінної відповіді (Y), яка не пов'язана з усіма іншими змінними провізора (x2 ... xN) в моделі. Коли між предикторами існує кореляція, знаки, пов'язані з коефіцієнтами предиктора, представляють відносини між цими залишками.

Вправа

Створіть кілька випадкових даних для двох предикторів (x1, x2) та відповіді (y).
Регресуйте y на x2 і збережіть залишки.
Регресуйте x1 на x2 і зберігайте залишки.
Регресують залишки кроку 2 (r1) на залишках етапу 3 (r2).

Коефіцієнт для етапу 4 для r2 буде коефіцієнтом x1 для моделі множинної регресії з x1 та x2. Ви можете зробити те ж саме для x2, розділивши x1 для y і x2.

Ось декілька код R для цієї вправи.

set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2)  # Multiple regression Model
ry1 <- residuals(  lm( y ~ x2)  )  # The part of y not related to x2
rx1 <- residuals(  lm(x1 ~ x2)  ) # The part of x1 not related to x2
lm( ry1  ~ rx1) 
ry2 <- residuals(  lm( y ~ x1)  ) # The part of y not related to x1
rx2 <- residuals(  lm(x2 ~ x1)  ) # The part of x2 not related to x1
lm( ry2 ~ rx2)

Ось відповідні результати та результати.

Call:
lm(formula = y ~ x1 + x2)

Coefficients:

(Intercept)           ***x1***           ***x2***  
   -0.02410      ***1.89527***      ***5.07549*** 

Call:
lm(formula = ry1 ~ rx1)

Coefficients:

(Intercept)          ***rx1***  
 -2.854e-17    ***1.895e+00*** 

Call:
lm(formula = ry2 ~ rx2)

Coefficients:

(Intercept)          ***rx2***  
  3.406e-17    ***5.075e+00***

— Brett Magill
джерело