40 000 неврознавчих робіт можуть бути помилковими

Я бачив цю статтю в «Економісті» про, здавалося б, руйнівній роботі [1], яка ставить під сумнів «щось на зразок 40 000 опублікованих [fMRI] досліджень». Помилка, кажуть, через "помилкові статистичні припущення". Я читаю статтю і бачу, що це частково проблема з численними виправленнями порівняння, але я не є експертом з ІМР, і мені важко слідувати.

Про які помилкові припущення говорять автори ? Чому ці припущення зроблені? Які способи зробити ці припущення?

На звороті підрахунку конвертів говориться про те, що 40 000 паперів з ІМР фінансують понад мільярд доларів (заробітна плата студента, операційні витрати тощо).

[1] Eklund та ін., Невдача кластера: Чому умовиводи ФМР для просторової міри завищують помилково позитивні показники, PNAS 2016

— Р Грег Стейсі
джерело

Дивіться також документ про fMRI мертвого лосося. wired.com/2009/09/fmrisalmon

— Sycorax

Це дійсно тонка грань, особливо при вивченні невропатологій, тому що ви можете повністю обмежити помилкові позитиви скільки завгодно, але в результаті компромісу ви закінчитеся величезною помилковою негативною частотою.

— Firebug

Існує невелика різниця між цими двома: папір з лососем - це приємна маленька притча про важливість корекції багаторазових порівнянь, що всі повинні були робити вже. На противагу цьому, питання PNAS кусає людей, які намагалися зробити «правильно», але сама корекція була трохи непростою.

— Метт Крауз

Я думаю, що це велике запитання, яке потрібно задати, оскільки воно покладене в основу численних виправлень порівнянь та ключових припущень при проведенні такого типу аналізу в контексті загальної вени досліджень. Однак єдине питання в тексті - "чи хоче хтось, хто має більше знань, ніж їх?"? яка дещо широка і неспецифічна. Якби це могло бути зосереджено на певному статистичному питанні в межах довідкового центру, це було б більше придатним для цього форуму.

— Sycorax

Дякую. Я відредагував питання, щоб зробити його більш конкретним. Дайте мені знати, чи варто редагувати його більше.

— R Greg Stacey

На цифрі 40000

Новини справді сенсаційні, але документ справді обґрунтований. Протягом днів у моїй лабораторії тривали дискусії, в цілому справді необхідна критика, яка змушує дослідників самоаналізувати свою роботу. Я рекомендую прочитати наступний коментар Томаса Нікольса , одного з авторів статті "Невдача кластера: Чому умовиводи ФМР для просторової міри завищили помилково позитивні показники" (вибачте за довгу цитату).

Однак, я шкодую одне число: 40 000. Намагаючись вказати на важливість дисципліни ІМР, ми використали оцінку всієї літератури про ІМР як кількість досліджень, що загрожують нашим висновкам. На нашу захист ми виявили проблеми з висновком розміру кластера загалом (серйозні для P = 0,01 CDT, упереджене для P = 0,001), домінуючим методом виводу, який дозволяє припустити, що більша частина літератури була порушена. Кількість у заяві про вплив, однак, була підхоплена популярною пресою та подала невелику бурхливу бурю. Отже, я вважаю своїм обов'язком зробити хоча б приблизну оцінку "На скільки статей впливає наша робота?". Я не бібліометрик, і це дійсно груба і готова вправа, але, сподіваємось, вона дає відчуття порядку порядку масштабності проблеми.

Код аналізу (в Matlab) викладений нижче, але ось худий: На підставі деяких обґрунтованих імовірнісних обчислень, але, можливо, крихких зразків літератури, я підрахував, що близько 15 000 робіт використовують висновок розміру кластера з корекцією для багаторазового тестування; з них близько 3500 використовують CDT P = 0,01. 3500 - це близько 9% усієї літератури, або, можливо, корисніше, 11% паперів, що містять оригінальні дані. (Звичайно, деякі з цих 15000 або 3500 можуть використовувати непараметричні умовиводи, але для ФМР це, на жаль, рідко - навпаки, це інструмент висновку за замовчуванням для структурних VBM / DTI-аналізів у FSL).

Я відверто подумав, що це число буде вище, але не усвідомив велику частку досліджень, які ніколи не використовували будь-яку корекцію багаторазового тестування. (Неможливо завищити виправлені значення, якщо ви не виправите!) . Ці розрахунки дозволяють припустити, що 13000 робіт не використовували багаторазових виправлень. Звичайно, деякі з них можуть використовувати регіони, що цікавлять, або суб-об'ємні аналізи, але це небагато (тобто результати клінічного випробування), які зовсім не мають кратності. У нашому документі не йдеться про цю групу, але для публікацій, які використовували народну корекцію багаторазового тестування, P <0,001 & k> 10, в нашому документі показано, що цей підхід має сімейні показники помилок, що перевищують 50%.

Отже, чи ми говоримо, що 3500 паперів є "неправильними"? Це залежить. Наші результати свідчать про те, що CDT P = 0,01 результати мають завищені значення Р, але кожне дослідження повинно бути вивчене… якщо ефекти дійсно сильні, це, швидше за все, не має значення, якщо значення P є упередженим, а наукове висновок залишиться незмінним. Але якщо ефекти дійсно слабкі, то результати справді можуть відповідати шуму . А що з цими 13000 паперами без виправлень, особливо поширених у попередній літературі? Ні, їх також не слід викидати з рук, але для цих робіт потрібно особливо затьмарене око, особливо якщо порівнювати їх з новими посиланнями з покращеними методологічними стандартами.

Він також включає цю таблицю в кінці:

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2

В основному, SPM (статистичне параметричне картографування, інструментарій для Matlab) є найбільш широко використовуваним інструментом для досліджень нейрознавства fMRI. Якщо ви перевірите папір, ви побачите, що використання CDT P = 0,001 (стандарт) для кластерів в SPM дає майже очікуваний рівень сімейної помилки.

Автори навіть заповнили помилку через формулювання статті:

З огляду на широко розповсюджені помилкові трактування нашої роботи, Eklund та ін., Невдача кластерів: Чому умовиводи ФМР для просторової міри завищили помилково позитивні показники, ми подали помилку в офіс редакції PNAS:

Errata for Eklund та ін., Невдача кластера: Чому умовиводи ФМРІ для просторової міри завищують помилково позитивні показники. Еклунд, Андерс; Ніколс, Томас Е; Кнутссон, Ганс

Два речення були погано сформульовані і їх можна було легко зрозуміти як завищення наших результатів.

В останньому реченні висловлювання про важливість слід писати: "Ці результати ставлять під сумнів справедливість ряду досліджень ФМР і можуть мати великий вплив на інтерпретацію слабко значущих результатів нейровізуалізації".

У першому реченні після заголовка "Майбутнє ІМР" повинно було бути сказано: "Через плачевні методи архівації та обміну даними навряд чи проблематичні аналізи можуть бути перероблені".

Вони замінюють два речення, з яких помилково випливало, що наша робота вплинула на всі 40 000 публікацій (див. Бібліометрію кластерних висновків для детальної інформації про потенційну кількість літератури).

Після того, як спочатку відхилили помилку, виходячи з того, що вона виправляє інтерпретацію, а не факт, PNAS погодилися опублікувати її так, як ми представили її вище.

На так званому Бугу

Деякі новини також згадували про помилку як причину недійсності досліджень. Дійсно, один із інструментів AFNI здійснював коригування умовиводів , і це було вирішено після публікації препринта в arXiv .

Статистичні умовиводи, що використовуються у функціональному нейровізуалізації

Функціональне нейровізуалізація включає в себе безліч методик, спрямованих на вимірювання активності нейронів у мозку (наприклад, fMRI, EEG, MEG, NIRS, PET та SPECT). Вони засновані на різних механізмах контрасту. fMRI заснований на контрастному рівні крові та кисню (BOLD). У fMRI на основі завдань, що надається стимулом, нейрони в мозку, відповідальні за прийом цієї стимуляції, починають витрачати енергію, і це запускає гемодинамічну відповідь, змінюючи сигнал магнітного резонансу ( ) в районі набраного мікрофона -васкуляризація. $\approx 5\%$

Використовуючи узагальнену лінійну модель (GLM), ви визначаєте, який часовий ряд сигналів вокселів співвідноситься з дизайном парадигми вашого експерименту (зазвичай булеві часові ряди згортаються з канонічною функцією гемодинамічного реагування, але існують варіанти).

Отже, цей GLM дав тобі, скільки кожний часовий ряд вокселів нагадує завдання. Тепер, скажімо, у вас є дві групи людей: пацієнти і контролі зазвичай. Порівнюючи бали GLM між групами, можна було б показати, як стан груп модулює схему "активації" мозку.

Порівняння фокселів між групами можливо, але завдяки функції розподілу точок, притаманної апаратурі та кроку попередньої обробки згладжування, нерозумно очікувати, що вокселі індивідуально несуть всю інформацію. Різниця вокселів серед груп повинна бути, власне, поширена на сусідні вокселі.

Отже, проводиться порівняння кластерно , тобто розглядаються лише відмінності між групами, які формуються в кластери. Цей поріг масштабу кластеру є найпопулярнішим методом корекції множинних порівнянь у дослідженнях фМР. Проблема полягає тут.

SPM і FSL залежать від теорії випадкових полів Гаусса (RFT) для корекції FWE за допомогою голосових і кластерних висновків. Однак висновок RFT по кластерній залежності залежить від двох додаткових припущень. Перше припущення полягає в тому, що просторова гладкість сигналу fMRI є постійною над головним мозком, а друге припущення полягає в тому, що функція просторової автокореляції має специфічну форму (квадратний показник) (30)

У SPM принаймні вам потрібно встановити номінальну швидкість FWE, а також поріг, що визначає кластер (CDT). В основному, SPM виявляє, що вокселі сильно корелюються із завданням, і після визначення порогу з CDT сусідні об'єднуються в кластери. Ці розміри кластерів порівнюються з очікуваною величиною кластера з теорії випадкових полів (RFT) з урахуванням набору FWER [ 1 ].

Теорія випадкових полів вимагає, щоб карта активності була гладкою, щоб було гарним наближенням решітки до випадкових полів. Це пов'язано з кількістю згладжування, яке застосовується до обсягів. Згладжування також впливає на припущення, що залишки нормально розподіляються, оскільки згладжування за центральною граничною теоремою зробить дані більш гауссовими.

Автори показали в роботі [ 1 ], що очікувані розміри кластерів від RFT дійсно невеликі при порівнянні з пороговими значеннями кластеру, отриманими при тестуванні випадкової перестановки (RPT).

У їх останній статті дані про стан спокою (інша модальність fMRI, де учасникам доручають нічого не думати, зокрема), дані використовувались так, ніби люди виконували завдання під час отримання зображення, а групове порівняння виконувались вокселем та кластером -наче. Спостережувана помилково-позитивна помилка (тобто, коли ви спостерігаєте відмінності у відповіді сигналу на віртуальну задачу між групами), швидкість повинна бути значно нижчою, ніж очікувана швидкість FWE, встановлену в . Повторне проведення цього аналізу в мільйонах разів на випадково вибіркових групах з різними парадигмами показало, що більшість спостережуваних показників ПСВ є вищими, ніж прийнятні. $\alpha = 0.05$

@amoeba порушив ці два дуже актуальні питання в коментарях:

(1) Eklund та ін. Папір PNAS говорить про "номінальний рівень 5%" усіх тестів (див., Наприклад, горизонтальну чорну лінію на фіг.1). Однак CDT в одному і тому ж малюнку є різним і може становити, наприклад, 0,01 і 0,001. Як поріг CDT співвідноситься з номінальною похибкою типу I? Мене це бентежить. (2) Ви бачили відповідь Карла Фрістона http://arxiv.org/abs/1606.08199 ? Я читав це, але я не зовсім впевнений, що вони говорять: чи я бачу правильно, що вони згодні з Eklund та ін. але скажіть, що це "добре відоме" питання?

(1) Добре запитання. Я фактично переглянув свої посилання, давайте подивимось, чи можу я зараз зробити це зрозумілішим. Кластерне висновок базується на обсязі кластерів, що утворюються після первинного порогу (застосовується CDT, який є довільним ). У вторинному аналізі застосовується поріг кількості вокселів на кластер . Цей поріг заснований на очікуваному розподілі нульових розширень кластера, який можна оцінити з теорії (наприклад, RFT) і встановлює номінальну FWER. Хороша довідка - [ 2 ].

(2) Дякую за цю посилання, я не бачив її раніше. Flandin & Friston стверджують, Eklund та ін. підтвердили висновки RFT, оскільки вони в основному показали, що, поважаючи його припущення (щодо CDT та згладжування), результати є неупередженими. У цьому світлі нові результати показують, що різні практики в літературі, як правило, зміщують висновки, оскільки вони руйнують припущення RFT.

На множинні порівняння

Також добре відомо, що багато досліджень з нейронауки не виправляють багаторазове порівняння. Оцінки становлять від 10% до 40% літератури. Але це не враховується цим твердженням, всі знають, що ці папери мають крихку силу та, можливо, величезні помилкові позитивні ставки.

На СЖЕР понад 70%

Автори також повідомили про процедуру, яка виробляє FWER понад 70%. Цей "народний" -процедур полягає у застосуванні CDT для збереження лише дуже значущих кластерів, а потім застосуванні іншого довільно вибраного порогового значення кластеру (у кількості вокселів). Це, іноді називається "встановлення набору", має слабкі статистичні основи і, можливо, дає найменш надійні результати.

Попередні звіти

Ті ж автори вже повідомляли про проблеми з валідністю SPM [ 1 ] в окремих аналізах. У цій галузі також є інші цитовані роботи.

Цікаво, що кілька звітів про груповий та індивідуальний рівень аналізу, засновані на моделюваних даних, укладені порогом RFT, насправді були консервативними. З недавніми досягненнями в обробній потужності, хоча RPT може бути виконано набагато легше на реальних даних, виявляючи великі розбіжності з RFT.

ОНОВЛЕННЯ: 18 жовтня 2017 року

Коментар до "Невдачі кластеру" спливав минулого червня [ 3 ]. Там Mueller та ін. стверджують, що результати, представлені у Eklund та ін, можуть бути зумовлені специфічною технікою попередньої обробки зображень, що використовується в їх дослідженні. В основному вони перекомпонували функціональні зображення до більш високої роздільної здатності перед згладжуванням (хоча це, мабуть, не робиться кожним дослідником, це звичайна процедура в більшості програмного забезпечення для аналізу ФМР). Вони також відзначають, що Фландін і Фрістон цього не зробили. Мені насправді довелося розмовляти з Eklund того ж місяця на щорічній зустрічі Організації з картографування мозку людини (OHBM) у Ванкувері, але я не пам’ятаю жодних коментарів з цього приводу, але це питання є вирішальним.

[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M., & Knutsson, H. (2012). Чи дає параметричний аналіз ФМР із SPM достовірними результатами? - Емпіричне дослідження 1484 наборів даних про відпочинок. NeuroImage, 61 (3), 565-578.

[2] Woo, CW, Krishnan, A., & Wager, TD (2014). Порогове значення, засноване на кластерній обробці, в аналізах ФМР: підводні камені та рекомендації. Neuroimage, 91, 412-419.

[3] Mueller, K., Lepsien, J., Möller, HE, & Lohmann, G. (2017). Коментар: Невдача кластеру: Чому умови fMRI для просторової міри завищують помилково позитивні показники. Межі в нейрології людини, 11.

— Firebug
джерело

@Qroid Так, для першої частини припущення не виконується (і це, мабуть, причина хорошої роботи непараметричного тесту перестановки). Кластери - це кластери вокселів, тобто сусідні вокселі, що демонструють той же ефект. Існує р-значення для визначення кластеру (поріг, що визначає кластер).

— Firebug

Ця відповідь здебільшого зосереджується на тому, чи це 40000 чи якесь інше число, але я думаю, що багатьом людям тут було б цікавіше, якби ви могли підсумувати головну дискусію (що таке кластери? У чому проблема просторових кореляцій для тестування гіпотез? Ніхто не робив) дійсно подумайте про це раніше? тощо)

— амеба

Знову дякую. Після короткого огляду Woo та ін. 2014 рік, я вже впевнений, чому Eklund та ін. зробив це в PNAS і, як наслідок, створив такий штурм у популярній пресі та навколо блогів. Не були Ву та ін. кажучи більш-менш те саме? Ось він, прямо в їх крапці "основні моменти": "Ще одна помилка - це посилення помилкових позитивних результатів, коли використовується ліберальний первинний поріг".

— амеба

Я бачу. Тож я розумію, що науково нічого особливо насправді не сталося зараз: проблема з ліберальними CDT відома роками, обговорювалася в декількох працях і показана в різних моделюваннях різними дослідниками. (Але, тим не менш, деякі дослідники продовжували використовувати такі небезпечно ліберальні CDT.) Eklund et al. 2016 пощастило бути опублікованим у журналі "гучного" та бу! - всі зараз про це говорять, ніби це одкровення.

— амеба

@amoeba Спільнота нейронаук потребує статистичних заходів, подібних до того, що сталося в прикладній психології (можливо, не настільки різко, як заборона p-значень). У багатьох роботах, що стверджують, що статистична значимість не має статистичної суворості, люди використовують інструменти та параметри, за допомогою яких "з'являються результати".

— Firebug