Чи може метааналіз досліджень, які всі «не є статистично значущими», призвести до «значного» висновку?


29

Метааналіз включає в себе купу досліджень, усі з яких повідомили про значення P, яке перевищує 0,05. Чи можливо для загального метааналізу повідомити значення Р менше 0,05? За яких обставин?

(Я впевнений, що відповідь "так", але я хотів би посилання чи пояснення.)


1
Я мало знаю про метааналіз, але в мене склалося враження, що він не передбачає тестів на гіпотези, а лише на оцінку ефекту популяції, і в цьому випадку немає поняття про важливість.
Кодіолог

1
Ну, метааналіз - наприкінці дня - це лише середньозважена середня величина. І ви, звичайно, можете встановити тест гіпотези для цієї середньозваженої середньої величини. Див., Наприклад, Боренштейн, Майкл та ін. "Основне введення у моделі мета-аналізу з фіксованим ефектом та випадковими ефектами". Методи дослідження синтезу 1.2 (2010): 97-111.
boscovich

1
Інші відповіді також хороші, але простий випадок: два дослідження є значущими при p = 0,9, але не p = 0,95. Ймовірність того, що обидва незалежні дослідження покажуть р> = 0,9, становить лише 0,01, тому ваш метааналіз може виявити значення при p = 0,99
barrycarter

2
Візьміть межа: Ні один вимір може надати достатньо доказів для / проти (нетривіального) гіпотези мають невеликий значення, але досить великий набір вимірювань може. p
Eric Towers

p- значення не вказують ні на "статистично значущий", ні на незначний ефект. Що ми могли зрозуміти із значного висновку? Це мета аналітичний висновок?
Subhash C. Davar

Відповіді:


31

Теоретично так ...

Результати окремих досліджень можуть бути незначними, але розглядати їх разом, результати можуть бути вагомими.

У теорії ви можете продовжити шляхом обробки результатів з дослідження I , як і будь-який інший випадкової величини.yii

Нехай - деяка випадкова величина (наприклад, оцінка з дослідження i ). Тоді, якщо y i незалежні, а E [ y i ] = μ , ви можете послідовно оцінювати середнє значення за допомогою:yiiyiE[yi]=μ

μ^=1niyi

Додаючи більше припущень, нехай - дисперсія оцінки y i . Тоді ви можете ефективно оцінити μ за допомогою зворотного дисперсійного зважування:σi2yiμ

μ^=iwiyiwi=1/σi2j1/σj2

У будь-якому з цих може бути статистично значущим на якому - то рівень довіри , навіть якщо окремі оцінки не є.μ^

Але можуть бути великі проблеми, проблеми, які слід усвідомлювати ...

  1. Якщо то метааналіз може не збігатися до μ (тобто середнє значення метааналізу - це суперечливий оцінювач).E[yi]μμ

    Наприклад, якщо є упередження щодо публікації негативних результатів, цей простий мета-аналіз може бути жахливо непослідовним і необ’єктивним! Було б як оцінити ймовірність того, що монета перекидається на голову, лише спостерігаючи за обертами там, де не приземляються хвости!

  2. і y j можуть не бути незалежними. Наприклад, якщо два дослідження i і j були засновані на одних і тих же даних, то трактування y i і y j як незалежних у метааналізі може значно недооцінити стандартні помилки та завищену статистичну значимість. Ваші оцінки все ще будуть узгодженими, але стандартні помилки повинні розумно враховувати перехресну кореляцію в дослідженнях.yiyjijyiyj

  3. Поєднання (1) та (2) може бути особливо поганим.

    Наприклад, метааналіз усереднених опитувань разом, як правило, є більш точним, ніж будь-яке окреме опитування. Але усереднення спільних опитувань все ще вразливе до корельованих помилок. На минулих виборах виникла думка, що молоді працівники екзит-полу можуть опитуватись з іншими молодими людьми, а не зі старими людьми. Якщо всі опитування на виїзді роблять однакову помилку, то у вас є погана оцінка, яку ви можете вважати хорошою оцінкою (опитування виходу є корельованими, оскільки вони використовують один і той же підхід для проведення опитувань виходу, і такий підхід генерує ту саму помилку).

Безперечно, люди, більш знайомі з метааналізом, можуть запропонувати кращі приклади, більш нюансовані питання, більш складні методи оцінки тощо ..., але це стосується деяких найбільш базових теорій та деяких великих проблем. Якщо різні дослідження роблять незалежну, випадкову помилку, то метааналіз може бути неймовірно потужним. Якщо помилка буде систематизованою у всіх дослідженнях (наприклад, всі недооцінюють старших виборців тощо), то середнє дослідження також буде вимкнено. Якщо ви недооцінюєте, наскільки співвідносяться дослідження чи наскільки корелюють помилки, ви ефективно переоцінюєте свій сукупний розмір вибірки та занижуєте стандартні помилки.

Є також всілякі практичні питання послідовних визначень тощо ...


1
Я критикую метааналіз щодо ігнорування залежностей між розмірами ефектів (тобто багато розмірів ефектів базувалися на одних і тих же учасниках, але трактувалися як незалежні). Автори кажуть, що немає великого, нас просто цікавлять модератори. Я вказую на те, що ви тут зробили: трактування їх "як незалежних у метааналізі може значно недооцінити стандартні помилки та завищувати статистичну значимість". Чи є доказове / симуляційне дослідження, яке показує, чому це так? У мене є багато посилань, які говорять про те, що корельовані помилки означають занижену SE ... але я не знаю чому?
Марк Уайт

1
Var(1niXi)=1n2(iVar(Xi)+ijCov(Xi,Xj))iVar(Xi)=σ2Cov(Xi,Xj)=0ijVar(1niXi)=σ2nσn

@MarkWhite Я не фахівець з мета-аналізу, і я, чесно кажучи, не знаю, що є чудовим джерелом для того, як слід робити сучасний мета-аналіз. Концептуально реплікація аналізу на ті самі дані, безумовно, корисна (як це інтенсивно вивчають деякі предмети), але це не те саме, що відтворення знахідки з нових, незалежних предметів.
Меттью Ганн

1
Так, на словах: Загальна дисперсія розміру ефекту походить від (а) його дисперсії та (б) - коваріації з іншими розмірами ефекту. Якщо коваріація дорівнює 0, то нормальне оцінювання помилок нормально; але якщо він відповідає іншим розмірам ефекту, нам потрібно враховувати цю дисперсію, і ігнорування цього означає, що ми недооцінюємо дисперсію. Це ніби дисперсія складається з двох частин A і B, і ігнорування залежностей припускає, що частина B дорівнює 0, коли її немає?
Марк Уайт

1
Крім того, це виглядає як хороше джерело (див. Особливо поле 2): nature.com/neuro/journal/v17/n4/pdf/nn.3648.pdf
Марк Білий

29

NN

Тест Фішера

(EDIT - у відповідь на корисний коментар @ mdewey нижче, доречно розрізняти різні метатести. Я викладаю випадок іншого мета тесту, згаданого mdewey нижче)

F=2i=1Nln(pi)
χ2N22ln(U)χ22U

χ2N2(1α)(1α)

cc>αF=2Nln(c)F>χ2N2(1α)

c<exp(χ2N2(1α)2N)
α=0.05N=20p
> exp(-qchisq(0.95, df = 40)/40)
[1] 0.2480904

N

Редагувати:

NcNc0.36

введіть тут опис зображення

χ2

χ2N2(1α)2N+2log(1/α)+22Nlog(1/α),
χ2N2(1α)=O(N)exp(χ2N2(1α)2N)exp(1)Nexp(1)0.3679

Зворотний нормальний тест (Stouffer et al., 1949)

Z=1Ni=1NΦ1(pi)
Φ1Z<1.645α=0.05pi=cZ=NΦ1(c)c<0.5Φ1(c)<0ZpNc0.5ZNN

Z<1.645c<Φ(1.645/N)Φ(0)=0.5N


2
1/e

Спасибі :-). Я не очікував жодного, перш ніж побачив сюжет ...
Крістоф Хенк

5
Цікаво, що метод Фішера є єдиним із широко використовуваних методів, який має цю властивість. Для більшості інших те, що ви називаєте F, збільшується з N, якщо $ c> 0,5) і зменшується в іншому випадку. Це стосується методу Стоуффера та методу Едінгтона, а також методів, заснованих на логітах та середньому значенні p. Різні методи, які є особливими випадками методу Вілкінсона (мінімум p, максимальний p тощо), знову мають різні властивості.
mdewey

1
1/e

p=0.9p

4

p

pα

p[1]p[2]p[k]
k
p[1]<1(1α)1k

kαp[1]α

pp[r]1rkr=2p=0.09

Метод LHC Tippett описаний у книзі Методи статистики. 1931 р. (1-е видання) і метод Вілкінсона знаходиться тут у статті "Статистичний розгляд в психологічних дослідженнях"


1
Спасибі. Але зауважте, що більшість методів мета-аналізу поєднують розміри ефектів (враховуючи будь-яку різницю у розмірі вибірки) та не поєднують значення P.
Харві Мотульський

@HarveyMotulsky погодився, комбінування р-значень є крайнім заходом, але ОП позначила своє запитання тегом поєднання-p-значень, тому я відповів у такому дусі
mdewey

Я думаю, що ваша відповідь правильна.
Subhash C. Davar
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.