Потенційна плутанина в дизайні експерименту


12

Огляд питання

Попередження: Це питання потребує багато налаштування. Будь ласка, нехай мене.

Я та моя колега працюємо над розробкою експерименту. Дизайн повинен обходити велику кількість обмежень, які я перелічу нижче. Я розробив дизайн, який задовольняє обмеженням і дає нам неупереджені оцінки наших ефектів, що цікавлять. Однак мій колега вважає, що в дизайні є непорозуміння. Ми аргументували цю точку рекламного музею, не приймаючи рішення, тож я хотів би отримати деякі зовнішні думки.

Я опишу ціль дослідження, наші обмеження, потенційну плутанину, і чому я вважаю, що це "збентеження" не є проблемою нижче. Читаючи кожен розділ, пам’ятайте про моє загальне запитання:

Чи є плутанина в дизайні, який я описую?

[Деталі цього експерименту були змінені, але суттєві елементи, необхідні для мого запитання, залишаються незмінними]

Цілі експерименту

Ми хотіли б визначити, чи оцінюються нариси, написані білими чоловіками, більш сприятливими, ніж нариси, написані білою жінкою, самцями чорними або чорними ( мінливість авторства есе ). Ми також хотіли б визначити, чи є будь-які упередження, які ми виявляємо, у грантах високої чи низької якості ( змінна якість ). Нарешті, ми хочемо включити нариси, написані про 12 різних тем ( змінна тема ). Однак суттєвий інтерес представляють лише перші дві змінні; хоча тема повинна змінюватись в різних рефератах, ми не є істотно зацікавленими в тому, як оцінки варіюються в різних темах.

Обмеження

  1. Існують обмеження як кількості учасників, так і кількості есе, які ми можемо зібрати. Результатом є те, що авторство не може повністю маніпулювати між учасниками, а також не може повністю маніпулювати між есе (тобто кожен окремий твір повинен бути віднесений до кількох умов).
  2. Хоча кожен твір може мати версії Білий чоловічий, Білий жіночий, Чорний чоловічий та Чорний жіночі, кожен твір може бути лише високою та низькою якістю та може стосуватися лише однієї теми. Або, якщо по-іншому поставити це обмеження, ні якість, ні тема не можуть маніпулювати в рамках есе, оскільки вони притаманні характеристиці даного реферату.
  3. Через втому існує обмеження кількості есе, які може оцінити даний учасник.
  4. Усі нариси, які читає дана людина, повинні містити одну тему. Іншими словами, нариси не можна призначити учасникам цілком випадково, оскільки нам потрібно переконатися, що кожен учасник читає лише есети подібної теми.
  5. Кожен учасник може переглядати лише один твір, начебто автор якого не є автором білого чоловіка, оскільки ми не хочемо, щоб учасники підозріло ставились до мети експерименту, оскільки занадто багато їхніх нарисів написано чорними або жіночими авторами.

Пропонована конструкція

Моя запропонована конструкція спочатку маніпулює кожним есе у 4 різних авторських версіях (Білий самець, Біла жінка та ін.). Потім для визначення "набору" використовуються чотири нариси з подібної теми, кожен з яких складається з двох високоефективних і двох низькоякісних есе. Кожен учасник отримує три есе з заданого набору, як показано на малюнку, наведеному нижче. Потім кожен учасник надає єдину оцінку кожному з трьох есе, які йому присвоюють.

Дизайн експерименту

Потенційна плутанина

Мій колега вважає, що наведена конструкція містить плутанину. Проблема, за його словами, полягає в тому, що коли есе високої якості призначено автором небілого письменника-чоловіка, воно завжди поєднується з одним високоякісним нарисом та одним нарисом низької якості (про Есе 1 див. Учасники 1-3 на малюнку). З іншого боку, коли цей самий нарис призначений автором білих письменників-чоловіків, він поєднується з одним есе високої якості та одним нарисом низької якості три рази (для «Нарис 1», «Учасники 4–6») та двома нарисами низької якості три разів (для Есе 1, учасників 7-9).

Аналогічна проблема існує для есе низької якості. Коли есе низької якості має автор, який не є чоловіком Білого, його завжди бачать із есе низької якості та високоякісним есе (про Есе 3 див. Учасники 7-9). Однак, коли цей самий нарис є автором Білого чоловіка, він бачиться з одним високоякісним нарисом та одним есе низької якості три рази (для Есе 3, Учасники 10-12) та двома високоякісними нарисами три рази (для Есе 3, Учасники 1-3).

Причина, за якою вищевказані зразки можуть бути проблематичними, полягає в тому, що якщо припустити існування "ефектів контрасту". Зокрема, якщо високоякісні есе в середньому оцінюються більш сприятливо, коли вони поєднуються з двома есе низької якості, ніж коли вони поєднуються з одним есе низької якості та одним високоякісним есе (розумне припущення), білі есеї чоловічої статі можуть отримувати більш високі оцінки, ніж Білі жіночі, чорні чоловічі та чорні жіночі нариси з іншої причини, ніж авторство.

Ефект контрасту для есе високої якості може бути, а може і не врівноважуватися ефектом контрасту для есе низької якості; тобто це може бути, а може і не бути тим, що нариси низької якості в парі з двома високоякісними есе оцінюються особливо несприятливо. Незалежно від того, як стверджує мій колега, потенціал контрастних ефектів будь-якого виду робить цю конструкцію проблематичною для того, щоб визначити, чи нариси, написані самими білими чоловіками, оцінюються більш сприятливо, ніж нариси інших авторів.

Чому я вважаю, що потенційна плутанина не є проблемою

Для мене важливо, чи ми здатні оцінити ступінь, в якому нариси Білого чоловіка оцінюються інакше, ніж інші нариси (тобто, чи можемо ми оцінити наші ефекти, що цікавлять), навіть за наявності контрастних ефектів. Тому я провів моделювання, де я імітував 50 наборів даних, які містили контрастні ефекти та підходили до моделі, яка перевіряє наші інтереси.

Конкретна модель - це модель змішаних ефектів із випадковими перехопленнями есе (кожен твір оцінюється декількома учасниками) та учасником (кожен учасник оцінює декілька есе). Рівень реферату також містить випадкові нахили для раси, статі та їх взаємодії (обидві змінні маніпулюються в рамках есе), а рівень учасника містить випадковий нахил якості (якість маніпулюється у учасників). Ефекти, що цікавлять, - це вплив раси, статі, взаємодії між расою та статтю та взаємодії вищого порядку між кожною з цих змінних та якістю. Метою цього моделювання було визначити, чи буде введення контрастних ефектів у дані створювати помилкові ефекти раси, статі, взаємодії між расою та статтю, та взаємодії вищого порядку між цими змінними та якістю. Дивіться фрагмент коду нижче для отримання більш детальної інформації.

Згідно з моделюванням, наявність контрастних ефектів не зміщує оцінок будь-якого із наших цікавих ефектів. Крім того, розмір ефекту контрасту може бути оцінений за тією ж статистичною моделлю, що й інші ефекти в дизайні; для мене це вже говорить про те, що "контрастні ефекти", визначені моїм колегою, не є плутаниною. Однак мій колега залишається скептичним.

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

Знову ж таки, моє загальне запитання: чи є плутанина в описаному нами дизайні? Якщо плутанини немає, я був би зацікавлений в описі того, чому потенційні "контрастні ефекти" не бентежать, щоб я міг пояснити це своєму колезі.


2
Просто коментар: як оцінюватимуть есе? Я запитую, бо якщо будуть зайняті кілька рейтингів, то ви повинні пам’ятати, що рейтинги різних рейтингів не дуже послідовні, тому ви також повинні пам’ятати про мінливість між рейтингами.
Тім

Кожен учасник надає по одній оцінці кожному з трьох рефератів, які йому присвоюють.
Патрік С. Форшер

Я доклав детальну інформацію про процедуру оцінювання до корпусу питання.
Патрік С. Форшер

Для тих, хто нам не знайомий з lmer (), ви можете коротко пояснити аналіз та "ефекти інтересів"?
Ентоні

Без проблем, @Anthony. Я додав ці деталі до питання.
Патрік С. Форшер

Відповіді:


1

Мене турбує пов'язане збентеження - "Кожен учасник може переглянути лише один твір, який нібито є автором білого чоловіка-чоловіка, оскільки ми не хочемо, щоб учасники підозріло ставились до мети експерименту, оскільки занадто багато їхніх нарисів написані авторами Чорного чи Жінки. '

Це означає, що незалежно від результату, ви не зможете визначити, чи це через різницю між авторством білого чоловіка та іншим авторством, чи просто між «авторством більшості» та «авторством меншості».

Якщо дизайн, як показано, також відображає порядок презентації (я припускаю, що це не так, але краще перевірити), то, здається, це вже інше питання.


Цифра не відображає порядок презентації.
Патрік С. Форшер

1
Я припускаю, що авторство "більшості" та "меншості" маєте на увазі пропорцію есеїв, що представляють собою комбінацію раси / статі (тобто 2/3 білого чоловіка, 1/3 інших)? Це правда, що для кожного учасника есеї Білого чоловіка складають більшу частку наявних нарисів, ніж інші. Однак білі самці складають більшу частку популяції письменників есе, яку ми хочемо вивчити. Ми вирішили, що ця «плутанина» (яка насправді може бути частиною проблеми) є менш проблематичною, ніж створення штучної ситуації, в якій є рівно половина есеїв, написаних білими чоловіками та меншинами.
Патрік С. Форшер

1

Чи не буде дизайн спрощеним, якби кожен учасник оцінив лише два есе (один Білий самець і один)? Так, попросіть учасників оцінити два есе, але вони вважають, що в купі містяться переважно чоловічі нариси. Вони випадково потрапили ці двоє випадково. Картографісти називають це "примушуванням". Якщо для цього знадобиться занадто багато учасників, протестуйте менше 12 тем. Дванадцять - це багато.


1

Як можна зробити висновок із цим розміром вибірки? Якщо ви повторили цей експеримент багато разів, то чотири маркери, які отримують як білого, так і чорного самця, всі б отримали кращих оцінок білого самця в одному випробуванні з 16.


Це дуже мала версія цього дослідження. У повному дослідженні 432 особи оцінюють есе.
Патрік С. Форшер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.