Чи апріорний аналіз потужності по суті марний?


23

Минулого тижня я відвідав засідання Товариства особистісної та соціальної психології, де побачив розмову Урі Сімонсона з припущенням, що використання апріорного аналізу потужності для визначення розміру вибірки по суті марно, оскільки її результати настільки чутливі до припущень.

Звичайно, це твердження суперечить тому, що мене навчали на уроці моїх методів, і проти рекомендацій багатьох видатних методистів (особливо Коен, 1992 ), тому Урі представив деякі докази, що стосуються його твердження. Я намагався відтворити деякі з цих доказів нижче.

Для простоти давайте уявимо ситуацію, коли у вас є дві групи спостережень і здогадаєтесь, що розмір ефекту (вимірюється стандартизованою середньою різницею) становить . Стандартний розрахунок потужності (виконаний з використанням пакету нижче) скаже, що вам потрібно спостережень, щоб отримати 80% потужності за допомогою цієї конструкції.128.5Rpwr128

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
           sig.level = .05, 
           power = .80, 
           type = "two.sample", 
           alternative = "two.sided")

Однак, як правило, наші здогадки про передбачуваний розмір ефекту є (принаймні, в соціальних науках, які є моєю сферою дослідження), саме це - дуже грубі здогадки. Що ж станеться, якщо наші здогадки про розмір ефекту трохи відключені? Швидкий підрахунок потужності говорить про те, що якщо розмір ефекту дорівнює замість , вам потрібно спостережень - у рази більше, ніж потрібно, щоб мати достатню потужність для розміру ефекту . Так само, якщо розмір ефекту становить , вам потрібно лише спостережень, 70% від того, що вам потрібно мати достатню потужність для виявлення розміру ефекту.5 200 1.56 .5 .6 90 .50.4.52001.56.5.690.50. Практично кажучи, діапазон в оцінених спостереженнях досить великий - від до .20090200

Однією з відповідей на цю проблему є те, що замість того, щоб чітко здогадуватися про те, яким може бути розмір ефекту, ви збираєте докази щодо розміру ефекту, або за допомогою минулої літератури, або за допомогою пілотного тестування. Звичайно, якщо ви робите пілотне тестування, ви хочете, щоб ваш пілотний тест був достатньо малим, щоб ви не просто запустили версію свого дослідження, аби лише визначити розмір вибірки, необхідний для запуску дослідження (тобто, ви б хочете, щоб розмір вибірки, використаний у дослідному тесті, був меншим за розмір вибірки вашого дослідження).

Урі Сімонсон стверджував, що експериментальне тестування з метою визначення розміру ефекту, що використовується у вашому аналізі потужності, марне. Розглянемо наступне моделювання, в яке я біг R. Це моделювання передбачає, що розмір ефекту населення складає . Потім він проводить «пілотних випробувань» розміром 40 і підраховує рекомендований від кожного з 10000 пілотних тестів.1000 Н.51000N

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
  x <- rep(c(-.5, .5), pilot_n_per_group)
  y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
  # Calculate the standardized mean difference
  size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
          sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

  n <- 2 * pwr.t.test(d = size,
                      sig.level = .05, 
                      power = .80,
                      type = "two.sample", 
                      alternative = "two.sided")$n

  ns[i] <- n
}

Нижче представлений графік щільності на основі цього моделювання. Я опустив експериментальних тестів, які рекомендували ряд спостережень вище щоб зробити зображення більш зрозумілим. Навіть орієнтуючись на менш екстремальні результати моделювання, існує велика різниця в рекомендованих пілотними тестами.500 N s204500Ns1000

введіть тут опис зображення

Звичайно, я впевнений, що проблема з чутливістю до припущень тільки погіршується, оскільки дизайн людини ускладнюється. Наприклад, у дизайні, що вимагає специфікації структури випадкових ефектів, природа структури випадкових ефектів матиме різкі наслідки для потужності конструкції.

Отже, що ви всі думаєте про цей аргумент? Чи апріорний аналіз потужності по суті марний? Якщо це так, то як слід дослідникам планувати розмір своїх досліджень?


10
Це звучить як засудження бездумного аналізу влади, а не самого аналізу влади. Питання більш важливе - чи це напад на солом’яну людину, чи дійсно є багато людей, які проводять свої владні аналізи (або будь-які інші аналізи), не враховуючи їх чутливості до припущень. Якщо остання правда, то добре просвітлити їх, але я сподіваюся, що вони не стануть такими, що відмовляються, щоб відмовитися від усіх зусиль для планування своїх експериментів!
whuber

2
Нагадує мені досить багато stats.stackexchange.com/q/2492/32036 , і не лише через синтаксичну схожість у формулюванні заголовного питання. Здається, питання про те, як зрозуміти припущення. Основним моментом в обох є розуміння чутливості цих аналізів до упередженості, а не прийняття широких, майже нічого, судження про те, що їхні припущення є (а) абсолютно вирішальними або (б) зовсім незначними. Це є ключовим для корисного і нешкідливого умовиводу взагалі. Боюся, це не солом’яна людина; люди занадто часто думають про абсолюти, коли вони цього не знають чи не вміють.
Нік Стаунер

5
Я не хотів цього додавати у запитання, тому що мене зацікавили рекомендації, які давали інші, але рекомендація Урі Сімонсона наприкінці розмови полягала в тому, щоб запропонувати вашому дослідженню виявити найменший ефект, який вас хвилює.
Патрік С. Форшер

9
@ PatrickS.Forscher: Отже, після всього сказаного і зробленого, він все-таки вірить в апріорний аналіз потужності. Він просто вважає, що розмір ефекту слід вибирати з розумом: не здогадуючись про те, що це може бути, а скоріше мінімальне значення, яке б вам було важливо. Дуже схоже на опис підручника, що описує потужність: переконайтеся, що у вас є достатньо даних, що те, що ви вважаєте практично важливою різницею, виявиться як статистично значуща різниця.
Уейн

2
Те, як Урі обрамляє розмову, я вважаю, що він вважає, що апріорний аналіз влади є марним, як це зазвичай робиться в соціальних науках, але, можливо, не так, як це вчать в інших місцях. Дійсно, мене навчали базувати свій аналіз потужності на розумній здогадці про розмір ефекту, який я шукаю, а не на тому, який ефект я би переймався на практиці.
Патрік С. Форшер

Відповіді:


20

Основне питання тут правдиве і досить добре відоме в статистиці. Однак його тлумачення / претензія є крайнім. Є кілька питань, які мають бути обговорені:

По- перше, влада не змінюється дуже швидко зі змінами . ( В зокрема, вона змінюється в залежності від , тому вдвічі скоротити стандартне відхилення вашого розподілу вибірки, необхідно вчетверо ваш і т.д.) Однак, влада дуже чутлива до розміру ефекту. Крім того, якщо ваша орієнтовна потужність не дорівнює , зміна потужності зі зміною розміру ефекту не є симетричним. Якщо ви намагаєтеся на потужності, потужність зменшиться швидше зі зменшенням Коена, ніж зросте при еквівалентному збільшенні Коена . Наприклад, починаючи з зN N50%80%ddd=.5N=1287,9%5,5%.116,9%.112,6%NN50%80%ddd=.5N=128, якщо у вас було на 20 менше спостережень, потужність знизилася б на , але якби у вас було ще 20 спостережень, потужність зростала б на . З іншого боку, якби справжній розмір ефекту був на меншим, тоді потужність була б на нижчою, але якби вона була вище, вона була б лише на . Цю асиметрію та різну чутливість можна побачити на малюнках нижче. 7.9%5.5%.116.9%.112.6%

введіть тут опис зображення

Якщо ви працюєте з ефектами, оціненими за попередніми дослідженнями, скажімо метааналізом або пілотним дослідженням, рішенням цього є включення вашої невизначеності щодо справжнього розміру ефекту у свій розрахунок потужності. В ідеалі це передбачає інтеграцію по всьому розподілу можливих розмірів ефекту. Це, мабуть, занадто далеко місткість для більшості застосунків, але швидка і брудна стратегія полягає в обчисленні потужності за кількома можливими розмірами ефекту, вашим розрахунковим значенням Коена плюс або мінус 1 і 2 стандартних відхилень, а потім отримати середньозважене значення, використовуючи ймовірність щільність цих квантилів як ваг. г

80%

По-друге, щодо більш широкого твердження про те, що аналізи влади (апріорі або іншим чином) спираються на припущення, не ясно, що робити з цим аргументом. Звичайно, вони так і роблять. Так само робить і все інше. Якщо не виконати аналіз потужності, а просто зібрати кількість даних на основі числа, яке ви вибрали з шапки, а потім проаналізувати свої дані, ситуація не покращиться. Більше того, отримані вами аналізи все ще будуть покладатися на припущення, як завжди роблять усі аналізи (силові чи інші). Якщо замість цього ви вирішите, що ви будете продовжувати збирати дані та повторно аналізувати їх, поки не отримаєте подобається вам зображення або не набриднете, це буде набагато менш справедливим (і все ще спричинить за собою припущення, які можуть бути непомітними для оратора, але які все-таки існують). Простіше кажучи,немає ніякого шляху навколо того, що припущення робляться в дослідженнях та аналізі даних .

Ви можете знайти такі цікаві ресурси:


1
Я думаю, що аргумент Урі Сімонсона не був у тому, що припущення самі по собі є поганими, але аналіз енергії в цілому настільки чутливий до припущень, що робить їх марними для планування розмірів вибірки. Однак ваші бали чудові, як і посилання, які ви надали (+1).
Патрік С. Форшер

Ваші зміни продовжують удосконалювати цю вже чудову відповідь. :)
Патрік С. Форшер

3
Я погоджуюся, що це чудова відповідь, і я просто хотів повідомити вам (та іншим), що я цитував вас у недавньому дописі в блозі, який я написав на цю тему: jakewestfall.org/blog/index.php/2015/06/ 16 /…
Джейк Уестпад

2
@JakeWestfall, приємний пост! З іншого боку, коли ви вивчаєте файли cookie, ви робите це в першу чергу, з'їдаючи їх? Вам потрібен статистичний консультант з будь-якого з цих проектів?
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.