Послідовне тестування гіпотез у фундаментальній науці


16

Я фармаколог, і, за моїм досвідом, майже всі статті в базових біомедичних дослідженнях використовують t-тест Стьюдента (або для підтримки висновку, або для відповідності очікуванням ...). Пару років тому мені стало відомо, що t-тест Стьюдента - не найефективніший тест, який може бути використаний: послідовні тести пропонують набагато більше енергії для будь-якого розміру вибірки або набагато менший розмір вибірки в середньому для еквівалентної потужності.

Послідовні процедури різної складності використовуються в клінічних дослідженнях, але я ніколи не бачив жодної, яка використовується в базовій публікації біомедичних досліджень. Зауважу, що вони також відсутні у підручниках зі статистики вступного рівня, що є всім, що, ймовірно, бачать більшість основних вчених.

Моє запитання тричі:

  1. Враховуючи дуже істотну перевагу ефективності послідовних тестів, чому вони не використовуються більш широко?
  2. Чи є недолік, пов’язаний із застосуванням послідовних методів, який би означав, що їх використання нестатистами слід не допустити?
  3. Чи навчають студентів статистику щодо послідовних процедур тестування?

3
Щоб переконатися, чи говорите ви про ІПС, як виявлено в клінічних випробуваннях, наприклад, en.wikipedia.org/wiki/Sequences_analysis ?
chl

Так. Існує досить багато варіантів послідовного тестування, включаючи послідовні t-тести, але жоден не використовується в базових дослідженнях. Я не бачу жодних перешкод для їх використання.
Майкл Лев

(+1) Просто натрапив на послідовне тестування і задав собі ті самі запитання.
steffen

Відповіді:


5

Я не знаю багато послідовних тестів та їх застосування за межами проміжного аналізу (Jennison and Turnbull, 2000) та комп'ютерного адаптивного тестування (van der Linden and Glas, 2010). Один виняток - у деяких дослідженнях fMRI, які пов’язані з великими витратами та труднощами із зарахуванням предметів. В основному, в цьому випадку послідовне тестування в першу чергу має на меті зупинити експеримент раніше. Тож я не здивований, що ці дуже спеціалізовані підходи не викладаються у звичайних статистичних класах.

Послідовні тести не позбавлені своїх підводних каменів (помилки типу I та II повинні бути визначені заздалегідь, вибір правила зупинки та багаторазовий перегляд результатів повинні бути виправданими, значення p не розподіляється рівномірно під нулем, як у фіксованому зразковий дизайн тощо). У більшості проектів ми працюємо із заздалегідь заданими експериментальними установками або було проведено попереднє дослідження потужності, щоб оптимізувати якийсь критерій економічності, у цьому випадку застосовуються стандартні процедури тестування.

Однак я виявив, що наступний документ від Майка Діркеса про конструкцію з фіксованим та відкритим зразком дуже цікавий: претензія на послідовні розробки експериментів .


Основні дослідники біомедицини постійно проводять проміжні аналізи, вони просто не декларують їх, оскільки вони навіть не знають, що це має значення! Я опитав дослідників на національному конгресі і виявив, що більше 50% не знали, що контроль рівня помилок від t-тесту Стьюдента залежить від заздалегідь визначеного фіксованого розміру вибірки. Докази цього можна побачити у використаних часом інтенсивно змінюються розмірах вибірки.
Майкл Лев

Деякі недоліки, що виникають із складнощів послідовних конструкцій, пов'язані саме з розробкою аналізів, а не з їх виконанням. Можливо, ми могли б мати набір готових конструкцій для невеликих базових експериментів.
Майкл Лев

@Michael Про "фальшиві" проміжні аналізи (перегляд p-значень, поки дослідження все ще знаходиться на стадії, що розвивається): схоже, це неправомірне використання статистики, не більше.
chl

@Chi На одному рівні, так, незадекларовані та непоправлені проміжні аналізи є недоцільними (але це робиться в незнанні, незнанні, що, на мою думку, вказує на недоліки в методах навчання статистики основним біомедичним дослідникам ...). Однак якщо ми розглянемо це на метарівні, то можна знайти деякі часткові виправдання. У багатьох експериментах задіяні такі невеликі зразки, що підвищена помилкова позитивна помилка може бути розумним компромісом для отримання більшої потужності. Конвенція виключає оголошений рівень альфа, що перевищує 0,05.
Майкл Лев

Я зазначаю в цьому контексті, що основні дослідники біомедики не працюють виключно за підходу Неймана-Пірсона, навіть якщо твердження про те, що "результати, коли P <0,05 було визнано значущим", можуть підказати інше. Якщо ми залишимось у межах тестування на Фішера на значущість, де інші рішення, ніж досягнуте значення Р, можуть бути включені у рішення про те, як поводитися з результатами випробувань, можливо, проміжний аналіз може виявитися не таким вже й поганим. Однак, певно, що розроблений послідовний тест був би кращим за непроектований.
Майкл Лев
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.