Оцінювач Джеймса-Штейна: Як Ефрон та Морріс обчислили в коефіцієнті усадки для їх прикладу бейсболу?


18

У мене виникає питання щодо обчислення коефіцієнта усадки Джеймса-Штейна в науковому американському документі Бредлі Ефрона та Карла Морріса 1977 року, "Парадокс Штейна в статистиці" .

Я зібрав дані для бейсболістів, і вони наведені нижче:

Name, avg45, avgSeason    
Clemente, 0.400, 0.346    
Robinson, 0.378, 0.298    
Howard, 0.356, 0.276    
Johnstone, 0.333, 0.222    
Berry, 0.311, 0.273    
Spencer, 0.311, 0.270    
Kessinger, 0.289, 0.263    
Alvarado, 0.267, 0.210    
Santo, 0.244, 0.269    
Swoboda, 0.244, 0.230    
Unser, 0.222, 0.264    
Williams, 0.222, 0.256    
Scott, 0.222, 0.303    
Petrocelli, 0.222, 0.264    
Rodriguez, 0.222, 0.226    
Campaneris, 0.200, 0.285    
Munson, 0.178, 0.316    
Alvis, 0.156, 0.200

avg45є середнім значенням після у кажанів і позначається як у статті. - це кінець сезону в середньому.років45yavgSeason

Оцінювач Джеймса-Штейна для середнього ( ) задається а коефіцієнт усадки задається (стор. 5 статті «Науковий американський 1977» ) z = ˉ y + c ( y - ˉ y ) c c = 1 - ( k - 3 ) σ 2z

z=y¯+c(yy¯)
c
c=1(k3)σ2(yy¯)2,

де - кількість невідомих засобів. Тут є 18 гравців, тому . Я можу обчислити використовуючи значення. Але я не знаю, як обчислити . Автори кажуть, що для даного набору даних.k = 18 ( y - ˉ y ) 2 σ 2 c = 0,212kk=18(yy¯)2avg45σ2c=0.212

Я спробував використовувати обидва та для але вони не дають правильної відповіді σ 2 y σ 2 c = 0,212σx2σy2σ2c=0.212

Чи може хтось бути добрим, щоб дозволити мені знати, як обчислити для цього набору даних?σ2


1
Я знаю, що MAD ( en.wikipedia.org/wiki/Median_absolute_deviation ) багато використовується для скорочення вейвлетів.
Робін Жирард

Відповіді:


19

Параметр - це (невідома) загальна дисперсія компонентів вектора, кожна з яких, як ми вважаємо, зазвичай розподілена. Для бейсбольних даних ми маємо , тому нормальне наближення до біноміального розподілу дає (прийняття ) 45 Y ib i n o m ( 45 , p i ) ^ p i = Y iσ245Yibinom(45,pi)pi^=Yi

p^inorm(mean=pi,var=pi(1pi)/45).

Очевидно, що в цьому випадку відхилення не рівні, але якби вони дорівнювали загальному значенню, то ми могли б оцінити це за допомогою об'єднаного оцінювача де - велика середня Схоже, це зробили Ефрон та Морріс (у статті 1977 р.).

σ^2=p^(1p^)45,
p^
p^=11845i=11845Yi=Y¯.

Ви можете перевірити це за допомогою наступного коду R. Ось дані:

y <- c(0.4, 0.378, 0.356, 0.333, 0.311, 0.311, 0.289, 0.267, 0.244, 0.244, 0.222, 0.222, 0.222, 0.222, 0.222, 0.2, 0.178, 0.156)

і ось оцінка для :σ2

s2 <- mean(y)*(1 - mean(y))/45

що є . Тоді коефіцієнт усадки в паперіσ^20.004332392

1 - 15*s2/(17*var(y))

що дає . Зауважте, що у другій статті вони здійснили перетворення, щоб уникнути проблеми дисперсії (як сказав @Wolfgang). Також відзначте, що в документі 1975 року вони використовували тоді як у 1977 році вони використовували .c0.2123905k2k3


Відмінне пояснення, я люблю нормальне наближення двочлена.
Чемберлен Фонша

14

Я не зовсім впевнений у відношенні , але наступна стаття надає набагато більш детальний опис цих даних:c=0.212

Efron, B., & Morris, C. (1975). Аналіз даних за допомогою оцінки Штейна та його узагальнення. Журнал Американської статистичної асоціації, 70 (350), 311-319 (посилання на pdf)

або більш детально

Efron, B., & Morris, C. (1974). Аналіз даних за допомогою оцінки Штейна та його узагальнення. R-1394-OEO, Корпорація RAND, березень 1974 р. (Посилання на pdf) .

На сторінці 312 ви побачите, що Ефрон і Морріс використовують дугові перетворення цих даних, так що дисперсія середніх ватин становить приблизно одиницю:

> dat <- read.table("data.txt", header=T, sep=",")
> yi  <- dat$avg45
> k   <- length(yi)
> yi  <- sqrt(45) * asin(2*yi-1)
> c   <- 1 - (k-3)*1 / sum((yi - mean(yi))^2)
> c
[1] 0.2091971

Тоді вони використовують c = .209 для обчислення значень , які ми можемо легко перетворити:z

> zi  <- mean(yi) + c * (yi - mean(yi))
> round((sin(zi/sqrt(45)) + 1)/2,3) ### back-transformation
[1] 0.290 0.286 0.282 0.277 0.273 0.273 0.268 0.264 0.259
[10] 0.259 0.254 0.254 0.254 0.254 0.254 0.249 0.244 0.239

Отже, це значення оцінки Штейна. Для Клементе ми отримуємо .290, що досить близько до .294 зі статті 1977 року.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.