Вивчення статистичних понять за допомогою вправ щодо аналізу даних


18

Я вважаю, що прості вправи з аналізу даних часто можуть допомогти проілюструвати та уточнити статистичні поняття. Які вправи для аналізу даних ви використовуєте для навчання статистичних понять?

Відповіді:


9

Оскільки мені доводиться пояснювати різні методи відбору досить часто, не в контексті викладання, але для нестатистів, які просять допомоги у своїх дослідженнях, я люблю цей надзвичайно простий приклад, який ілюструє, чому вибір однієї змінної не обов'язково є гарною ідеєю.

Якщо у вас є цей набір даних:

y      X1     x2
1       1      1
1       0      0
0       1      0
0       0      1

Не займе багато часу, щоб усвідомити, що і X1, і X2 окремо абсолютно неінформативні для y (коли вони однакові, y напевно "1", я ігнорую питання щодо розміру вибірки тут, просто припустімо ці чотири спостереження до бути всім Всесвітом). Однак поєднання двох змінних є цілком інформативним. Таким чином, людям легше зрозуміти, чому не годиться (наприклад) перевіряти значення р лише для моделей із кожною окремою змінною як регресора.

На мій досвід, це дійсно отримує повідомлення.


5

Коефіцієнти множинної регресії та очікувана помилка знаку

Однією з моїх улюблених ілюстрацій статистичної концепції за допомогою аналізу даних є деконструкція множинної регресії на множинні двовимірні регресії.

Цілі

  • Для уточнення значення коефіцієнтів регресії за наявності декількох предикторів.
  • Щоб проілюструвати, чому неправильно «очікувати» множинного коефіцієнта регресії, щоб він мав певний знак, виходячи з його двовимірного зв’язку з Y, коли предиктори співвідносяться.

Концепція

Коефіцієнти регресії в моделі множинної регресії представляють залежність між а) частиною даної змінної прогностики (x1), яка не пов'язана з усіма іншими змінними провісника (x2 ... xN) в моделі; та 2) частину змінної відповіді (Y), яка не пов'язана з усіма іншими змінними провізора (x2 ... xN) в моделі. Коли між предикторами існує кореляція, знаки, пов'язані з коефіцієнтами предиктора, представляють відносини між цими залишками.

Вправа

  1. Створіть кілька випадкових даних для двох предикторів (x1, x2) та відповіді (y).
  2. Регресуйте y на x2 і збережіть залишки.
  3. Регресуйте x1 на x2 і зберігайте залишки.
  4. Регресують залишки кроку 2 (r1) на залишках етапу 3 (r2).

Коефіцієнт для етапу 4 для r2 буде коефіцієнтом x1 для моделі множинної регресії з x1 та x2. Ви можете зробити те ж саме для x2, розділивши x1 для y і x2.

Ось декілька код R для цієї вправи.

set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2)  # Multiple regression Model
ry1 <- residuals(  lm( y ~ x2)  )  # The part of y not related to x2
rx1 <- residuals(  lm(x1 ~ x2)  ) # The part of x1 not related to x2
lm( ry1  ~ rx1) 
ry2 <- residuals(  lm( y ~ x1)  ) # The part of y not related to x1
rx2 <- residuals(  lm(x2 ~ x1)  ) # The part of x2 not related to x1
lm( ry2 ~ rx2)

Ось відповідні результати та результати.

Call:
lm(formula = y ~ x1 + x2)

Coefficients:

(Intercept)           ***x1***           ***x2***  
   -0.02410      ***1.89527***      ***5.07549*** 

Call:
lm(formula = ry1 ~ rx1)

Coefficients:

(Intercept)          ***rx1***  
 -2.854e-17    ***1.895e+00*** 

Call:
lm(formula = ry2 ~ rx2)

Coefficients:

(Intercept)          ***rx2***  
  3.406e-17    ***5.075e+00*** 
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.