Чому впливає упередженість, коли клінічне випробування припиняється на ранній стадії?


24

Проміжний аналіз являє собою аналіз даних в одному або декількох тимчасових точках до офіційного закриття дослідження з метою, наприклад, можливе завершення дослідження рано.

За словами Піантадосі, С. ( Клінічні випробування - методологічна перспектива ): " Оцінка ефекту від лікування буде упередженою, коли випробування припиняється на ранній стадії. Чим раніше рішення, тим більше упередженість ".

Чи можете ви пояснити мені цю претензію. Я легко розумію, що на точність буде впливати, але претензія щодо упередженості для мене не очевидна ...


Я вважаю, що це ідеальне питання, щоб «викреслити» відмінності між методами Байесія та частотолога
ймовірністьлогічний

Відповіді:


13

Перш за все, ви повинні відзначити контекст: це застосовується лише тоді, коли випробування було припинено достроково через проміжний моніторинг, що показує ефективність / марність, а не з якихось випадкових зовнішніх причин. У такому випадку оцінка розміру ефекту буде упереджена в абсолютно статистичному сенсі. Якщо ви зупинилися на ефективності, оцінений ефект буде занадто високим (якщо припустити, що він позитивний), якщо ви зупинилися на марності, він буде занадто низьким.

Piantodosi також дає інтуїтивне пояснення (Розділ 10.5.4 в моєму виданні). Припустимо, справжня різниця у двох засобах - 1 одиниця. Коли ви проводите безліч випробувань і дивитесь на них у свій проміжний час аналізу, деякі з них помітять розміри ефектів набагато вище 1, інші набагато нижче одного, а більшість навколо 1 - розподіл буде широким, але симетричним. Розрахунковий розмір ефекту в цей момент був би не дуже точним, але був би неупередженим. Однак ви зупиняєтесь і повідомляєте розмір ефекту лише в тому випадку, якщо різниця значна (скоригована для багаторазового тестування), тобто оцінка знаходиться на високій стороні. У всіх інших випадках ви продовжуєте роботу та не повідомляєте про оцінку. Це означає, що умовно зупинитися рано, розподіл розміру ефекту не симетричний, і його очікуване значення вище справжнього значення оцінки.

Справа в тому, що цей ефект є більш серйозним на ранніх стадіях - це більша перешкода для припинення судового розгляду, таким чином більша частина розподілу викидається під час кондиціонування.


1
Спочатку я теж думав це, але коли я сів довести це, я не зміг: я міг лише показати, що отримана оцінка насправді є неупередженою. (Нова інтуїція: позитивний ухил від умовної зупинки врівноважує негативний ухил від проведення експерименту до завершення.) Отже: чи можете ви представити більш жорстку демонстрацію?
качан

@whuber Я спробую це записати, але справа в тому, що твердження Піантодосі стосується лише того, що відбувається, коли ти робите зупинки рано. Для його збалансування немає завершення.
Аніко

2
@whuber Так, це стверджує і оригінальне твердження. Ваша думка, що існуватиме протилежний ухил, що обумовлює завершення дослідження, також справедливий. Повідомлення повинно полягати в тому, що після того, як ви почнете робити проміжний моніторинг, у вашій здатності оцінювати розмір ефекту починають відбуватися смішні речі.
Аніко

3
@Aniko Повинно бути можливим скорегувати упередження, коли відбувається дострокове припинення. Тому ми, мабуть, обговорюємо наївне використання стандартного оцінювача, призначеного для випадкових вибірок фіксованого розміру, в умовно закінчених експериментах, де такі оцінки не мають бажаних властивостей. (+1, до речі.)
блукання

2
@whuber Звичайно, ви можете налаштувати цю упередженість, але спочатку ви повинні визнати, що вона існує. І тоді ви повинні продати слідчому, що, хоча чітко відповіли 5 з 10 пацієнтів, передбачувана швидкість відповіді становить 40% (складені числа) після коригування упередженості через ранню зупинку.
Аніко

3

Ось ілюстрація того, як може виникати упередженість у висновках, і чому це може бути не повна історія. Припустимо, у вас є послідовне випробування препарату, який, як очікується, матиме позитивний (+1) ефект, але може мати негативний ефект (-1). П’ять морських свинок випробовуються одна за одною. Невідома ймовірність позитивного результату в одному випадку насправді та негативний результат134 .14

Тож після п’яти випробувань є ймовірність різних результатів

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    405/1024
+3-2 = +1    270/1024
+2-3 = -1     90/1024
+1-4 = -3     15/1024
+0-5 = -5      1/1024

тому ймовірність позитивного результату в цілому становить 918/1024 = 0,896, а середній результат - +2,5. Якщо поділити на 5 випробувань, це в середньому +0,5 результату за випробування.

Це неупереджена цифра, оскільки це також .+1×341×14

Припустимо, що для захисту морських свинок дослідження буде припинено, якщо на будь-якому етапі сукупний результат буде негативним. Тоді ймовірності стають

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    324/1024
+3-2 = +1    135/1024
+2-3 = -1     18/1024
+1-2 = -1     48/1024
+0-1 = -1    256/1024

тому ймовірність позитивного результату в цілому становить 702/1024 = 0,6855, а середній результат +1,953. Якщо ми розглянули середнє значення результату за випробування в попередньому розрахунку, тобто використовуючи ,+3+55 ,+1+35 ,-1+15 ,-115 і-113 тоді ми отримали б +0,184.11

Це ті відчуття, в яких виникає упередженість, зупиняючись на початку другої схеми, і упередження йде в передбачуваному напрямку. Але це не повна історія.

Чому бурхливий та ймовірніснийлогічний погляд на зупинку на ранньому етапі повинен давати неупереджені результати? Ми знаємо, що очікуваний результат випробувань у другій схемі становить +1,953. Очікувана кількість випробувань виявляється 3,996. Таким чином, розділяючи один на інший, отримуємо +0,5, точно так само, як раніше, і те, що було описано як неупереджене.


ви сприймаєте перспективу світу "перед даними". Те, що ви говорите, є правдою, що правило зупинки має значення, але лише до того, як ви врахуєте дані . Це тому, що правило зупинки забезпечує інформацію про дані, а не про справжні ймовірності. Отже, як тільки дані є, правило зупинки більше не має значення. Зверніть увагу, що справжні ймовірності невідомі в реальному експерименті. Тому вам також потрібно врахувати ситуації, коли ймовірності є, скажімо, іP(-)=3P(+)=14 , а також будь-яка інша можлива комбінація. P()=34
ймовірністьлогічний

Тому я сприймаю ваш приклад як твердження, що . Це, звичайно, правда! Моя відповідь також обумовлює:P(H|S,I)P(H|I) , хоча. Це тому, що, якщо ви скажете мені правило зупинки, але не те, чи насправді ви зупинилися, я можу це зрозуміти з набору даних, які я насправді є. Насправді я можу зрозуміти, чи було бякесь правилозупинки, коли я знаю ці дані. D
ймовірністьлогічний

1

Ну, мої знання про це походять з оповіді Харвея в 2008 році http://bookshop.rcplondon.ac.uk/details.aspx?e=262 По суті, наскільки я можу спогадати, результати будуть упередженими, оскільки 1) зупинка на ранніх термінах Зазвичай означає, що або лікування було більш-менш ефективним, ніж сподівалося, і якщо це позитивно, то ви можете скористатися випадковістю. Я вважаю, що значення p розраховуються виходячи із запланованого розміру вибірки (але я можу помилитися з цим), а також якщо ви постійно перевіряєте свої результати, щоб побачити, чи були показані якісь ефекти, вам потрібно виправити для кількох порівнянь для того, щоб переконатися, що ви не просто знаходите випадковий ефект. Наприклад, якщо ви перевіряєте 20 разів на значення p нижче .05, то статистично кажучи, ви майже впевнені, що знайдете один значний результат.


ЧАСТИНА 1 Перш за все, дякую за вашу відповідь. Дійсно, частофілістські методи коректують для багаторазового тестування. Отже, проблема упередженої оцінки ефекту від лікування не може виникнути звідси. При проміжному аналізі тест базується на поточній інформації, використовуючи поточний розмір вибірки, а не загальний запланований розмір вибірки. Тож проблема не виникає і звідти.
окрам

ЧАСТИНА 2 Я погоджуюся, що припинення раннього часу може означати, що лікування є "більш ефективним, ніж один скаканий". У цьому сенсі ефект від лікування буде більшим, ніж очікувалося. Але, на мою думку, це не робить його упередженим… Натомість, на мою думку, у певному сенсі "наша надія була упереджена".
окрам

1

Я б не погоджувався з цим твердженням, якщо тільки "упередженість" Піантадосі не означає ту частину точності, яку зазвичай називають упередженістю. Висновок не буде "упередженим", оскільки ви вирішили зупинитись як такий: він буде "упередженим", оскільки у вас менше даних. Так званий "принцип ймовірності" стверджує, що умовивід повинен залежати лише від даних, які спостерігалися, а не від даних, які могли спостерігатися, але не були. У ЛП йдеться

P(H|D,S,I)=P(H|D,I)

HDSIDIS=g(D,I)AA=AS=g(D,I)DЯD,S,Я=D,г(D,Я),Я=D,ЯDЯ що це має значення.


@probabilityislogic: Thank you! If I understand it well, "bias" should not be taken in a statistical sense. I think this makes sense because Piantadosi speaks about the "bias" of an estimate and not of an estimator...
ocram

@ocram - What I meant by "biased" is the usual statistical term E(μμ^)2=var(μ^)+Bias(μ^) where μ is the "true value" and μ^ is the "estimator". If the second term (the bias) depends on the sample size, then you would expect that stopping early would increase the bias, because it has decreased the sample size, relative to if the experiment continued. But from what you say, it sounds like "bias" should be interpreted as "error" from Piantadosi's perspective.
probabilityislogic

1
This argument says nothing about the bias, only the hypothesis testing aspect of the problem, which nobody questions.
Aniko

@Prob Я повинен погодитися з @Aniko: очевидно, що коли нульове значення є істинним, існує позитивна ймовірність дострокового припинення, і в цьому випадку оцінка ефекту буде нульовою. Таким чином, очікуваний прогнозований ефект, що обумовлений достроковим припиненням, є позитивним, тоді як безумовне очікування дорівнює нулю. (Зауважте, що ОП стосується оцінки , а не перевірки гіпотез.)
whuber

@whuber - тут немає різниці між оцінкою та тестуванням гіпотез, просто замініть Н за пропозицією "справжнє значення мк знаходиться в якомусь невеликому інтервалі (а,а+га)". Оцінка залежить від S only through the data D and prior I. So while this may be true before you see the data (that S matters), S is irrelevant after the data has been observed. S only gives you information about D and I, not directly about μ.
probabilityislogic

0

there will be bias (in "statistical sense") if termination of studies is not random.

In a set of experiments run to conclusion, the "early on" results of (a) some experiments that ultimately find "no effect" will show some effect (as a result of chance) and (b) some experiments that ultimately do find an effect will show "no effect" (likely as a result of lack of power). In a world in which you terminate trials, if you stop (a) more often than (b), you'll end up across run of studies with bias in favor of finding an effect. (Same logic applies for effect sizes; terminating studies that show "bigger than expected" effect early on more often than ones that show "as expected or lower" will inflate count of findings of "big effect.")

If in fact medical trials are terminated when early results show a positive effect -- in order to make treatment available to subjects in placebo or others -- but not when early results are inconclusive, then there will be more type 1 error in such testing than there would be if all experiments were run to conclusion. But that doesn't meant the practice is wrong; the cost of type 1 error, morally speaking, might be lower than denying treatment as quickly as one otherwise would for treatments that really would be shown to work at end of full trial.


Please see my comment to Aniko's reply, because I would ask the same question of you: can you provide a more rigorous demonstration?
whuber

I defer to Aniko--he does a better job than I could. But if you agree that "desk drawer effect" results in bias, the logic here is identical. There is bias in favor of data supportive of hypothesis -- in the former case b/c the not-supportive data are not reported, in the latter b/c some fraction of not-supported data is necessarily not being collected: Ending the trial early when results look good excludes that part of the "bad results" distribution populated by trials that will produce their bad results late. Maybe this bias can be adjusted for--but there is bias in need of adjustment.
dmk38

@dmk I'm just trying to spur you both to have a debate with @Probability, with whom you seem to sharply disagree ;-).
whuber

1
@whuber, @dmk - I think we are destined to disagree not because either of us is wrong, but because each is answering a different question. The frequentist considers P(D|H,S,I) as "the answer", and if this is the object, then the stopping rule does matter. But to what question is it the answer? To me, this answers the question: "what data are we likely to observe, given the hypothesis is true (or parameter is said value), that we have stopped early, and from our prior information?" But this is not the question that is actually being asked I think (more later)
probabilityislogic

1
@ probability Це один із способів поглянути на це. Інше - уникнути гіпотези і вирішити питання, яке фактично задається; на кмітливість, який розмір ефекту від лікування ? З цієї точки зору припинення може статися, коли оцінка буде відома з достатньою точністю для підтримки прийняття рішень. Наприклад, ми можемо мати високу впевненість у тому, що приріст здоров'я від призначення лікування, ймовірно, перевищить витрати (та побічні ефекти) лікування.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.