На цифрі 40000
Новини справді сенсаційні, але документ справді обґрунтований. Протягом днів у моїй лабораторії тривали дискусії, в цілому справді необхідна критика, яка змушує дослідників самоаналізувати свою роботу. Я рекомендую прочитати наступний коментар Томаса Нікольса , одного з авторів статті "Невдача кластера: Чому умовиводи ФМР для просторової міри завищили помилково позитивні показники" (вибачте за довгу цитату).
Однак, я шкодую одне число: 40 000. Намагаючись вказати на важливість дисципліни ІМР, ми використали оцінку всієї літератури про ІМР як кількість досліджень, що загрожують нашим висновкам. На нашу захист ми виявили проблеми з висновком розміру кластера загалом (серйозні для P = 0,01 CDT, упереджене для P = 0,001), домінуючим методом виводу, який дозволяє припустити, що більша частина літератури була порушена. Кількість у заяві про вплив, однак, була підхоплена популярною пресою та подала невелику бурхливу бурю. Отже, я вважаю своїм обов'язком зробити хоча б приблизну оцінку "На скільки статей впливає наша робота?". Я не бібліометрик, і це дійсно груба і готова вправа, але, сподіваємось, вона дає відчуття порядку порядку масштабності проблеми.
Код аналізу (в Matlab) викладений нижче, але ось худий: На підставі деяких обґрунтованих імовірнісних обчислень, але, можливо, крихких зразків літератури, я підрахував, що близько 15 000 робіт використовують висновок розміру кластера з корекцією для багаторазового тестування; з них близько 3500 використовують CDT P = 0,01. 3500 - це близько 9% усієї літератури, або, можливо, корисніше, 11% паперів, що містять оригінальні дані. (Звичайно, деякі з цих 15000 або 3500 можуть використовувати непараметричні умовиводи, але для ФМР це, на жаль, рідко - навпаки, це інструмент висновку за замовчуванням для структурних VBM / DTI-аналізів у FSL).
Я відверто подумав, що це число буде вище, але не усвідомив велику частку досліджень, які ніколи не використовували будь-яку корекцію багаторазового тестування. (Неможливо завищити виправлені значення, якщо ви не виправите!) . Ці розрахунки дозволяють припустити, що 13000 робіт не використовували багаторазових виправлень. Звичайно, деякі з них можуть використовувати регіони, що цікавлять, або суб-об'ємні аналізи, але це небагато (тобто результати клінічного випробування), які зовсім не мають кратності. У нашому документі не йдеться про цю групу, але для публікацій, які використовували народну корекцію багаторазового тестування, P <0,001 & k> 10, в нашому документі показано, що цей підхід має сімейні показники помилок, що перевищують 50%.
Отже, чи ми говоримо, що 3500 паперів є "неправильними"? Це залежить. Наші результати свідчать про те, що CDT P = 0,01 результати мають завищені значення Р, але кожне дослідження повинно бути вивчене… якщо ефекти дійсно сильні, це, швидше за все, не має значення, якщо значення P є упередженим, а наукове висновок залишиться незмінним. Але якщо ефекти дійсно слабкі, то результати справді можуть відповідати шуму . А що з цими 13000 паперами без виправлень, особливо поширених у попередній літературі? Ні, їх також не слід викидати з рук, але для цих робіт потрібно особливо затьмарене око, особливо якщо порівнювати їх з новими посиланнями з покращеними методологічними стандартами.
Він також включає цю таблицю в кінці:
AFNI BV FSL SPM OTHERS
____ __ ___ ___ ______
>.01 9 5 9 8 4
.01 9 4 44 20 3
.005 24 6 1 48 3
.001 13 20 11 206 5
<.001 2 5 3 16 2
В основному, SPM (статистичне параметричне картографування, інструментарій для Matlab) є найбільш широко використовуваним інструментом для досліджень нейрознавства fMRI. Якщо ви перевірите папір, ви побачите, що використання CDT P = 0,001 (стандарт) для кластерів в SPM дає майже очікуваний рівень сімейної помилки.
Автори навіть заповнили помилку через формулювання статті:
З огляду на широко розповсюджені помилкові трактування нашої роботи, Eklund та ін., Невдача кластерів: Чому умовиводи ФМР для просторової міри завищили помилково позитивні показники, ми подали помилку в офіс редакції PNAS:
Errata for Eklund та ін., Невдача кластера: Чому умовиводи ФМРІ для просторової міри завищують помилково позитивні показники. Еклунд, Андерс; Ніколс, Томас Е; Кнутссон, Ганс
Два речення були погано сформульовані і їх можна було легко зрозуміти як завищення наших результатів.
В останньому реченні висловлювання про важливість слід писати: "Ці результати ставлять під сумнів справедливість ряду досліджень ФМР і можуть мати великий вплив на інтерпретацію слабко значущих результатів нейровізуалізації".
У першому реченні після заголовка "Майбутнє ІМР" повинно було бути сказано: "Через плачевні методи архівації та обміну даними навряд чи проблематичні аналізи можуть бути перероблені".
Вони замінюють два речення, з яких помилково випливало, що наша робота вплинула на всі 40 000 публікацій (див. Бібліометрію кластерних висновків для детальної інформації про потенційну кількість літератури).
Після того, як спочатку відхилили помилку, виходячи з того, що вона виправляє інтерпретацію, а не факт, PNAS погодилися опублікувати її так, як ми представили її вище.
На так званому Бугу
Деякі новини також згадували про помилку як причину недійсності досліджень. Дійсно, один із інструментів AFNI здійснював коригування умовиводів , і це було вирішено після публікації препринта в arXiv .
Статистичні умовиводи, що використовуються у функціональному нейровізуалізації
Функціональне нейровізуалізація включає в себе безліч методик, спрямованих на вимірювання активності нейронів у мозку (наприклад, fMRI, EEG, MEG, NIRS, PET та SPECT). Вони засновані на різних механізмах контрасту. fMRI заснований на контрастному рівні крові та кисню (BOLD). У fMRI на основі завдань, що надається стимулом, нейрони в мозку, відповідальні за прийом цієї стимуляції, починають витрачати енергію, і це запускає гемодинамічну відповідь, змінюючи сигнал магнітного резонансу ( ) в районі набраного мікрофона -васкуляризація.≈5%
Використовуючи узагальнену лінійну модель (GLM), ви визначаєте, який часовий ряд сигналів вокселів співвідноситься з дизайном парадигми вашого експерименту (зазвичай булеві часові ряди згортаються з канонічною функцією гемодинамічного реагування, але існують варіанти).
Отже, цей GLM дав тобі, скільки кожний часовий ряд вокселів нагадує завдання. Тепер, скажімо, у вас є дві групи людей: пацієнти і контролі зазвичай. Порівнюючи бали GLM між групами, можна було б показати, як стан груп модулює схему "активації" мозку.
Порівняння фокселів між групами можливо, але завдяки функції розподілу точок, притаманної апаратурі та кроку попередньої обробки згладжування, нерозумно очікувати, що вокселі індивідуально несуть всю інформацію. Різниця вокселів серед груп повинна бути, власне, поширена на сусідні вокселі.
Отже, проводиться порівняння кластерно , тобто розглядаються лише відмінності між групами, які формуються в кластери. Цей поріг масштабу кластеру є найпопулярнішим методом корекції множинних порівнянь у дослідженнях фМР. Проблема полягає тут.
SPM і FSL залежать від теорії випадкових полів Гаусса (RFT) для корекції FWE за допомогою голосових і кластерних висновків. Однак висновок RFT по кластерній залежності залежить від двох додаткових припущень. Перше припущення полягає в тому, що просторова гладкість сигналу fMRI є постійною над головним мозком, а друге припущення полягає в тому, що функція просторової автокореляції має специфічну форму (квадратний показник) (30)
У SPM принаймні вам потрібно встановити номінальну швидкість FWE, а також поріг, що визначає кластер (CDT). В основному, SPM виявляє, що вокселі сильно корелюються із завданням, і після визначення порогу з CDT сусідні об'єднуються в кластери. Ці розміри кластерів порівнюються з очікуваною величиною кластера з теорії випадкових полів (RFT) з урахуванням набору FWER [ 1 ].
Теорія випадкових полів вимагає, щоб карта активності була гладкою, щоб було гарним наближенням решітки до випадкових полів. Це пов'язано з кількістю згладжування, яке застосовується до обсягів. Згладжування також впливає на припущення, що залишки нормально розподіляються, оскільки згладжування за центральною граничною теоремою зробить дані більш гауссовими.
Автори показали в роботі [ 1 ], що очікувані розміри кластерів від RFT дійсно невеликі при порівнянні з пороговими значеннями кластеру, отриманими при тестуванні випадкової перестановки (RPT).
У їх останній статті дані про стан спокою (інша модальність fMRI, де учасникам доручають нічого не думати, зокрема), дані використовувались так, ніби люди виконували завдання під час отримання зображення, а групове порівняння виконувались вокселем та кластером -наче. Спостережувана помилково-позитивна помилка (тобто, коли ви спостерігаєте відмінності у відповіді сигналу на віртуальну задачу між групами), швидкість повинна бути значно нижчою, ніж очікувана швидкість FWE, встановлену в . Повторне проведення цього аналізу в мільйонах разів на випадково вибіркових групах з різними парадигмами показало, що більшість спостережуваних показників ПСВ є вищими, ніж прийнятні.α=0.05
@amoeba порушив ці два дуже актуальні питання в коментарях:
(1) Eklund та ін. Папір PNAS говорить про "номінальний рівень 5%" усіх тестів (див., Наприклад, горизонтальну чорну лінію на фіг.1). Однак CDT в одному і тому ж малюнку є різним і може становити, наприклад, 0,01 і 0,001. Як поріг CDT співвідноситься з номінальною похибкою типу I? Мене це бентежить. (2) Ви бачили відповідь Карла Фрістона
http://arxiv.org/abs/1606.08199 ? Я читав це, але я не зовсім впевнений, що вони говорять: чи я бачу правильно, що вони згодні з Eklund та ін. але скажіть, що це "добре відоме" питання?
(1) Добре запитання. Я фактично переглянув свої посилання, давайте подивимось, чи можу я зараз зробити це зрозумілішим. Кластерне висновок базується на обсязі кластерів, що утворюються після первинного порогу (застосовується CDT, який є довільним ). У вторинному аналізі застосовується поріг кількості вокселів на кластер . Цей поріг заснований на очікуваному розподілі нульових розширень кластера, який можна оцінити з теорії (наприклад, RFT) і встановлює номінальну FWER. Хороша довідка - [ 2 ].
(2) Дякую за цю посилання, я не бачив її раніше. Flandin & Friston стверджують, Eklund та ін. підтвердили висновки RFT, оскільки вони в основному показали, що, поважаючи його припущення (щодо CDT та згладжування), результати є неупередженими. У цьому світлі нові результати показують, що різні практики в літературі, як правило, зміщують висновки, оскільки вони руйнують припущення RFT.
На множинні порівняння
Також добре відомо, що багато досліджень з нейронауки не виправляють багаторазове порівняння. Оцінки становлять від 10% до 40% літератури. Але це не враховується цим твердженням, всі знають, що ці папери мають крихку силу та, можливо, величезні помилкові позитивні ставки.
На СЖЕР понад 70%
Автори також повідомили про процедуру, яка виробляє FWER понад 70%. Цей "народний" -процедур полягає у застосуванні CDT для збереження лише дуже значущих кластерів, а потім застосуванні іншого довільно вибраного порогового значення кластеру (у кількості вокселів). Це, іноді називається "встановлення набору", має слабкі статистичні основи і, можливо, дає найменш надійні результати.
Попередні звіти
Ті ж автори вже повідомляли про проблеми з валідністю SPM [ 1 ] в окремих аналізах. У цій галузі також є інші цитовані роботи.
Цікаво, що кілька звітів про груповий та індивідуальний рівень аналізу, засновані на моделюваних даних, укладені порогом RFT, насправді були консервативними. З недавніми досягненнями в обробній потужності, хоча RPT може бути виконано набагато легше на реальних даних, виявляючи великі розбіжності з RFT.
ОНОВЛЕННЯ: 18 жовтня 2017 року
Коментар до "Невдачі кластеру" спливав минулого червня [ 3 ]. Там Mueller та ін. стверджують, що результати, представлені у Eklund та ін, можуть бути зумовлені специфічною технікою попередньої обробки зображень, що використовується в їх дослідженні. В основному вони перекомпонували функціональні зображення до більш високої роздільної здатності перед згладжуванням (хоча це, мабуть, не робиться кожним дослідником, це звичайна процедура в більшості програмного забезпечення для аналізу ФМР). Вони також відзначають, що Фландін і Фрістон цього не зробили. Мені насправді довелося розмовляти з Eklund того ж місяця на щорічній зустрічі Організації з картографування мозку людини (OHBM) у Ванкувері, але я не пам’ятаю жодних коментарів з цього приводу, але це питання є вирішальним.
[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M., & Knutsson, H. (2012). Чи дає параметричний аналіз ФМР із SPM достовірними результатами? - Емпіричне дослідження 1484 наборів даних про відпочинок. NeuroImage, 61 (3), 565-578.
[2] Woo, CW, Krishnan, A., & Wager, TD (2014). Порогове значення, засноване на кластерній обробці, в аналізах ФМР: підводні камені та рекомендації. Neuroimage, 91, 412-419.
[3] Mueller, K., Lepsien, J., Möller, HE, & Lohmann, G. (2017). Коментар: Невдача кластеру: Чому умови fMRI для просторової міри завищують помилково позитивні показники. Межі в нейрології людини, 11.