Чи є рандомізація надійною з невеликими зразками?


11

Джером Корнфілд написав:

Одним з найкращих плодів рибальської революції була ідея рандомізації, і статистики, які погоджуються на кілька інших речей, принаймні погодились на це. Але, незважаючи на цю угоду і незважаючи на широке використання рандомізованих процедур розподілу в клінічній та інших формах експериментів, її логічний статус, тобто точна функція, яку він виконує, все ще залишається незрозумілою.

Cornfield, Jerome (1976). "Останні методичні внески в клінічні випробування" . Американський журнал епідеміології 104 (4): 408–421.

На всьому веб-сайті та в різноманітній літературі я послідовно бачу впевнені твердження про сили рандомізації. Поширені термінології, такі як "це усуває проблему заплутаних змінних", є загальними. Дивіться тут , наприклад. Однак багато разів проводяться експерименти з невеликими зразками (3-10 зразків на групу) з практичних / етичних причин. Це дуже часто зустрічається в доклінічних дослідженнях з використанням тварин та клітинних культур, і дослідники зазвичай повідомляють про значення p в підтримку своїх висновків.

Це змусило мене замислитися, наскільки хороша рандомізація при балансуванні меж. Для цього сюжету я моделював ситуацію, порівнюючи групи лікування та контрольної групи з однією плутаниною, яка може приймати два значення з шансом 50/50 (наприклад, тип1 / тип2, чоловік / жінка). Він показує розподіл "% неврівноваженого" (Різниця в # типу1 між обробкою та контрольними зразками, розділеною на розмір вибірки) для досліджень різних малих розмірів вибірки. Червоні лінії та права бічна вісь показують ecdf.

Ймовірність різного ступеня врівноваженості при рандомізації для малих розмірів вибірки: введіть тут опис зображення

З цього сюжету зрозуміло дві речі (якщо я десь не заплутався).

1) Імовірність отримання точно збалансованих зразків зменшується зі збільшенням розміру вибірки.

2) Імовірність отримання дуже незбалансованої вибірки зменшується зі збільшенням розміру вибірки.

3) У випадку n = 3 для обох груп є 3% шанс отримати повністю незбалансований набір груп (весь тип1 в контролі, весь тип2 в лікуванні). N = 3 є загальним для експериментів з молекулярною біологією (наприклад, вимірюють мРНК за допомогою ПЛР або білки з вестерн-блот)

Під час подальшого вивчення n = 3 випадку я спостерігав дивну поведінку значень p у цих умовах. Ліва сторона показує загальний розподіл значень обчислення за допомогою t-тестів в умовах різних засобів для підгрупи типу2. Середнє значення для типу1 становило 0, а sd = 1 для обох груп. На правих панелях відображаються відповідні помилкові позитивні значення для номінальних "обмежень значущості" від .05 до.0001.

Розподіл p-значень для n = 3 з двома підгрупами та різними засобами другої підгрупи при порівнянні за допомогою тесту t (10000 монто-карло) введіть тут опис зображення

Ось результати для n = 4 для обох груп: введіть тут опис зображення

Для n = 5 для обох груп: введіть тут опис зображення

Для n = 10 для обох груп: введіть тут опис зображення

Як видно з діаграм вище, виявляється взаємодія між розміром вибірки та різницею між підгрупами, що призводить до різноманітних розподілів p-значень під нульовою гіпотезою, що не є однорідною.

Тож чи можна зробити висновок, що значення p не є надійними для правильно рандомізованих та контрольованих експериментів з невеликим розміром вибірки?

R код першого сюжету

require(gtools)

#pdf("sim.pdf")
par(mfrow=c(4,2))
for(n in c(3,4,5,6,7,8,9,10)){
  #n<-3
  p<-permutations(2, n, repeats.allowed=T)

  #a<-p[-which(duplicated(rowSums(p))==T),]
  #b<-p[-which(duplicated(rowSums(p))==T),]

  a<-p
  b<-p

  cnts=matrix(nrow=nrow(a))
  for(i in 1:nrow(a)){
    cnts[i]<-length(which(a[i,]==1))
  }


  d=matrix(nrow=nrow(cnts)^2)
  c<-1
  for(j in 1:nrow(cnts)){
    for(i in 1:nrow(cnts)){
      d[c]<-cnts[j]-cnts[i]
      c<-c+1
    }
  }
  d<-100*abs(d)/n

  perc<-round(100*length(which(d<=50))/length(d),2)

  hist(d, freq=F, col="Grey", breaks=seq(0,100,by=1), xlab="% Unbalanced",
       ylim=c(0,.4), main=c(paste("n=",n))
  )
  axis(side=4, at=seq(0,.4,by=.4*.25),labels=seq(0,1,,by=.25), pos=101)
  segments(0,seq(0,.4,by=.1),100,seq(0,.4,by=.1))
  lines(seq(1,100,by=1),.4*cumsum(hist(d, plot=F, breaks=seq(0,100,by=1))$density),
        col="Red", lwd=2)

}

R код для ділянок 2-5

for(samp.size in c(6,8,10,20)){
  dev.new()
  par(mfrow=c(4,2))
  for(mean2 in c(2,3,10,100)){
    p.out=matrix(nrow=10000)

    for(i in 1:10000){

      d=NULL
      #samp.size<-20
      for(n in 1:samp.size){
        s<-rbinom(1,1,.5)
        if(s==1){
          d<-rbind(d,rnorm(1,0,1))
        }else{
          d<-rbind(d,rnorm(1,mean2,1))
        }
      }

      p<-t.test(d[1:(samp.size/2)],d[(1+ samp.size/2):samp.size], var.equal=T)$p.value

      p.out[i]<-p
    }


    hist(p.out, main=c(paste("Sample Size=",samp.size/2),
                       paste( "% <0.05 =", round(100*length(which(p.out<0.05))/length(p.out),2)),
                       paste("Mean2=",mean2)
    ), breaks=seq(0,1,by=.05), col="Grey", freq=F
    )

    out=NULL
    alpha<-.05
    while(alpha >.0001){

      out<-rbind(out,cbind(alpha,length(which(p.out<alpha))/length(p.out)))
      alpha<-alpha-.0001
    }

    par(mar=c(5.1,4.1,1.1,2.1))
    plot(out, ylim=c(0,max(.05,out[,2])),
         xlab="Nominal alpha", ylab="False Postive Rate"
    )
    par(mar=c(5.1,4.1,4.1,2.1))
  }

}
#dev.off()

Я знайшов ваш опис умов та проблеми спочатку трохи важко зрозуміти. Тип I та II - це технічні терміни, які відрізняються від використання типу підгрупи типу 1 та підгрупи типу 2. Наскільки я можу вам сказати, ви застосовуєте t-тест до даних із розподілу із сумішшю засобів. Це так?
Майкл Лев

Так, суміш двох нормальних розподілів. "type1" відноситься до N (0,1), type2 - N (середнє2,1). Де середнє2 = (2,3,10 або 100). Вибачте, що я міг би змінити його на typeA, typeB, якщо ви вважаєте, що це допоможе?
колба

Відповіді:


4

Ви правильно вказали на обмеження рандомізації в роботі з невідомими змішуючими змінними для дуже малих вибірок. Однак проблема полягає не в тому, що значення P не є надійними, а в тому, що їх значення змінюється залежно від розміру вибірки та взаємозв'язку між припущеннями методу та фактичними властивостями популяцій.

Я вважаю, що значення P було виконано досить добре, поки різниця в підгрупі не була настільки великою, що будь-який розумний експериментатор дізнався, що виникає проблема перед проведенням експерименту.

Помилковою є думка про те, що експеримент можна зробити та проаналізувати без посилання на належне розуміння природи даних. Перш ніж проаналізувати невеликий набір даних, ви повинні достатньо знати про дані, щоб можна було впевнено захищати припущення, що містяться в аналізі. Такі знання зазвичай походять з попередніх досліджень з використанням тієї самої або подібної системи, досліджень, які можуть бути офіційно опублікованими роботами або неофіційними "попередніми" експериментами.


Я згоден з усім, що ви сказали, проте тести-тести часто проводяться "ритуалістично", як сказав би Герд Гігеренцер. На практиці люди, які виконують ці тести, не мають часу / схильності розуміти нюанси того, що вони роблять. З цієї причини я думаю, що "ненадійний" прикметник може бути сприятливим. Я знаю дослідників, які, коли ви запитували про розподіл (чи був один високий, чи що спричинило цю велику смугу помилок?), Ніколи не дивилися на це.
колба

1
Ну, те, що P-значення насправді "означають", сильно відрізняється від того, що припускає більшість людей. Навіть багато паперів, які критикують значення P як "непримиренні з доказами" тощо, помиляються. Я вчора завантажив документ на arXiv, який досліджує властивості P-значень і показує, як вони співвідносяться з типом доказів, які експериментатори можуть використовувати. Його назва - "До Р чи ні до Р: про доказовий характер P-значень та їх місце в науковому висновку", а номер аркшівської подачі - 826269. Він повинен бути доступний з понеділка.
Майкл Лев

Не могли б ви поглянути на це питання, яке не з любої причини не закохалося? . Я погоджуюсь, що значення p - це щось, і ваш документ може допомогти з'ясувати це, але я, як дослідник, маю зрозуміти, що чоботи на землі POV це те, що вони нас провалили. Чи через неправильне використання чи вроджену невідповідність, це незрозуміло. Я тут задавав низку питань, намагаючись переконатися в цьому з точки зору статистиків.
колба

2

В екологічних дослідженнях не випадкове призначення методів лікування експериментальним підрозділам (предметам) є стандартною практикою, коли розміри вибірки невеликі і є дані про одну або більше заплутаних змінних. Це невипадкове призначення "перемежовує" суб'єктів у всьому спектрі можливих заплутаних змінних, саме це і повинно робити випадкове призначення. Але при невеликих розмірах вибірки рандомізація, швидше за все, буде поганою (як показано вище), і тому на неї можна покластися погано.

Оскільки рандомизація пропагується настільки сильно в більшості областей (і це справедливо), легко забути, що кінцевою метою є зменшення упередженості, а не дотримання суворої рандомізації. Однак, дослідник (і) зобов'язаний ефективно охарактеризувати набір заплутаних змінних та виконати невипадкове призначення, що може бути захищеним, що сліпе до експериментальних результатів та використовує всю наявну інформацію та контекст.

Для підсумків див. С. 192-198 у Hurlbert, Stuart H. 1984. Псевдорепликація та проектування польових експериментів. Екологічні монографії 54 (2) с.187-211.


Мені подобалось читати це, але я стурбований тим, що ви можете використовувати "упередженість" в передостанньому абзаці неправильно, оскільки цей термін має специфічне статистичне значення, яке може зробити вашу заяву неправильною. Хіба ви не намагаєтесь сказати, що рандомізація призначена для запобігання плутанини (форма "упередженості" у розмовному значенні), а не зменшення упередженості (як міри неточності оцінювача)?
whuber

Я маю на увазі зміщення в статистичному сенсі. У статистиці "зміщення" - це різниця між статистикою та параметром, який він оцінює. Як ви вже згадували, зміщення оцінювача - це різниця між очікуваним значенням оцінки та справжнім значенням параметра, який він оцінює. У своєму дописі під «упередженням» я мав на увазі різницю між статистикою, обчисленою на основі даних, та параметрами, які вони оцінюють, наприклад, між середньою вибіркою (x бар) та справжньою середньою (mu).
Даррен Джеймс

Наскільки мені відомо, рандомізований вибірковий аналіз не використовується для зменшення зміщення, а також за багатьох обставин не можна стверджувати, що він зменшує упередженість.
whuber

Ви помиляєтесь. Основна мета рандомізації - імітувати ефект незалежності. Це робиться, усуваючи упередження, що виникають при систематичному призначенні лікування суб'єктам. Ці ухили дають неточні оцінки - головне, упереджені оцінки дисперсії - та втрату контролю над помилками типу I та II. Навіть заплутані змінні (які насправді означають відсутність незалежності) - це просто випадок упущених змінних зміщень. Але для цього вам не потрібно приймати моє слово ... Якщо ви не переконані в документі Хюрльбурта вище, ось вам ще кілька ресурсів для консультацій:
Даррен Джеймс

Cochran, WG та GM Cox. 1957. Експериментальні конструкції. Нью-Йорк: Вілі. Federer, WT 1955. Експериментальний дизайн. Нью-Йорк: Макміллан. Гінкельман, К., Кемпторн, О. 1994. Проектування та аналіз експериментів. Вілі: Нью-Йорк. Kuehl, RO 2000. Дизайн експериментів: статистичні принципи проектування та аналізу досліджень. Белмонт, Каліфорнія: Брукс / Коул.
Даррен Джеймс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.