Коли ми порівнюємо групи на контрольних змінних, чи слід використовувати тести на еквівалентність?

У багатьох працях, які розглядають питання лікування та результатів, я бачу таблиці (зазвичай "таблиця 1") того, що можна назвати змінними неприємності (часто демографічні показники, іноді медичні умови) з тестами на значущість та текстом, наприклад "групи були в основному подібними, не було суттєвих відмінностей у XXXXX, див. таблицю ". Тож чітка мета - показати, що групи, призначені для різних методів лікування, схожі.

Однак мені здається, що це може бути "прийняття нуля" і що те, що ми повинні робити (або вимагати зробити), - це тести на еквівалентність.

Це може стосуватися рандомізованих випробувань або спостережних досліджень. Я щось тут пропускаю?

equivalence controlling-for-a-variable

— Пітер Флом - Відновити Моніку
джерело

Я думаю, ви посилаєтесь на "таблицю 1". Ви запитуєте про RCTs як такі, чи також спостережливі дослідження?

— gung - Відновити Моніку

@gung так, зазвичай це Таблиця 1. Це можуть бути спостережні дослідження або РКЗ. Я відредагував своє запитання, щоб відобразити ваш коментар.

— Пітер Флом - Відновіть Моніку

Навіть якщо я ризикую висловити очевидне: Є деякі документи, які займаються цим питанням (наприклад, de Boer et al. (2015) ). Я думаю, що консенсус полягає в тому, що в базових таблицях слід відмовитися від тестування гіпотез. Консорт Заява для клінічних випробувань, а також заяву Строба для спостережних досліджень рекомендують уникати гіпотези тестування в базових таблицях. Якщо тести на еквівалентність краще, я не знаю.

— COOLSerdash

Тест на нуль чи тест на еквівалентність залежить від мотивації та впливає на дискусію, яку можна скласти із таблиці. Затвердження еквівалентності є дуже сильною умовою, і я підозрюю, що це не потрібно для більшості випадків, якщо автор не хоче зробити чітких висновків щодо демографії тощо. демографічні показники. Я не розглядав це, але зацікавив би думку інших щодо того, як це може виглядати.

— ReneBt

Це складне питання, яке вводить багато суміжних питань: 1) чітко конкретизуючи гіпотезу, 2) розуміння, які причинно-наслідкові механізми (можуть) лежать в основі гіпотезованого ефекту та 3) вибір / стиль викладу.

Ви маєте рацію , що, якщо ми будемо застосовувати звукову статистичну практику, щоб стверджувати , що «групи є схожі», можна було б виконати перевірку еквівалентності. Однак тести на еквівалентність страждають від тих же питань, що і їх колега NHST: потужність є лише відображенням кількості вибірки та кількості порівнянь: ми очікуємо відмінностей, але їх масштаби та вплив на основний аналіз набагато важливіші.

Якщо зіткнутися з цими ситуаціями, базові порівняння майже завжди є червоношкірими. Можна застосовувати кращі методи (науки та статистики). У мене є кілька фондових концепцій / відповідей, які я враховую, відповідаючи на подібні запитання.

"Загальний" стовпчик важливіший, ніж стовпці з роздільною обробкою; обговорення цих цінностей є обґрунтованим .

У клінічних випробуваннях зразок безпеки зазвичай аналізують. Це підмножина тих, хто спочатку звернувся, потім погодився, потім був рандомізований і, нарешті, піддався хоча б одній ітерації контролю чи лікування. У цьому процесі ми стикаємось із різною мірою упередженості участі.

Мабуть, найважливішим та опущеним аспектом цих досліджень є представлення результатів таблиці 1 у сукупності . Це досягає найважливішої мети таблиці 1: демонстрація іншим дослідникам, наскільки узагальнений зразок дослідження для широкої групи населення, в якій застосовуються результати.

Мені здається дивним, як фіксований слідчий, читачі та рецензенти ставляться до дотичних тенденцій у характеристиках пацієнтів, коли існує повна зневага до критеріїв включення / виключення та узагальнення вибірки.

Мені соромно сказати, що я був аналітиком на суді, який розглядав це як проблему. Ми набирали пацієнтів, і тоді, через логістичні проблеми, ми чекали майже рік, перш ніж здійснити втручання. Діаграма не лише показала величезний спад між цими періодами, але і зразок змістився. Результат був значною мірою непрацездатним, старшим та здоровішим, ніж люди, яких ми мали намір досягти. У мене були глибокі занепокоєння щодо узагальненості дослідження, але важко лобіювати, щоб ці проблеми були відомі.

Потужність та похибка типу I для виявлення дисбалансу в базових характеристиках залежить від фактичної кількості характеристик

Суть подання такого детального переліку базових змінних, як згадувалося раніше, полягає в тому, щоб дати ґрунтовний знімок вибірки; їх історію хвороби, лабораторії, ліки та демографічні показники. Це все аспекти, які клініцисти використовують, щоб рекомендувати лікування пацієнтам. Вважається, що всі вони прогнозують результат. Але кількість таких факторів є приголомшливою. Можна порівняти цілих 30 різних змінних. Невисокий ризик помилки I типу становить 1- (1-0,05) ^ 30 = 0,79. Коригування бонферроні або перестановки доцільно, якщо необхідно провести тестування .

Статистичне тестування в найчистішому вигляді має бути неупередженим, і воно повинно бути попередньо визначеним. Однак вибір та подання базових характеристик часто відносні. Я вважаю, що останній підхід доречний: якщо ми виявимо, як у моєму дослідженні, цікаві риси, які ефективно описують вибірку, ми повинні мати свободу вибирати, щоб представити ці цінності ad hoc . Тестування може бути здійснено, якщо воно має будь-яку цінність, але застосовуються звичайні застереження: вони не є гіпотезами, що представляють інтерес, існує високий ризик плутанини щодо того, які значущі та несуттєві результати мають на увазі, а результати більше відображають розмір вибірки та міркування щодо викладу, ніж будь-яка правда.

Рерандомізацію можна проводити, але лише до того, як пацієнти піддаються лікуванню

Як я вже згадував, аналізований зразок є типово безпечним зразком. Однак рерандомізація - це сильно обстоюваний і теоретично послідовний підхід до пацієнтів, які не піддавалися досліджуваному лікуванню. Це стосується лише параметрів, у яких проводиться реєстрація партії. Тут набирають та рандомізують 100 учасників. Якщо, наприклад, ймовірність відводить велику частку людей похилого віку до однієї групи, то вибірку можна перенавіювати для вирівнювання віку. Це неможливо зробити за допомогою послідовного або поетапного зарахування, що є умовою, в якому проводиться більшість випробувань. Це пояснюється тим, що терміни зарахування мають тенденцію передбачати статус пацієнта за поширеним випадком «упередженості» (заплутані випадки та поширені критерії прийнятності).

Збалансований дизайн не є вимогою для дійсного висновку

Припущення про рандомізацію говорить про те, що теоретично всі учасники матимуть в середньому однакові розподіли коваріатів. Однак, як було зазначено раніше, при порівнянні 30 або більше рівнів сукупна ймовірність дисбалансу є незначною. Насправді дисбаланс коваріатів може бути неактуальним при розгляді цілого.

Якщо рандомізація є справедливою, ми можемо побачити, що вік у групі лікування підвищений, але куріння підвищено у контрольній групі: обидва вони індивідуально сприяють ризику результату. Для ефективного та обґрунтованого висновку необхідне те, щоб оцінка схильності була збалансована між групами. Це набагато слабший стан. На жаль, схильність неможливо перевірити на баланс без моделі ризику. Однак легко помітити, що така схильність залежить від комбінації коваріатів, а ймовірність дисбалансу схильностей у рандомізованій вибірці набагато менш вірогідна, незважаючи на те, що неможливо точно показати.

Якщо модель ризику відома або є сильні прогнози результатів, більш ефективні та дійсні РКТ здійснюються шляхом простого коригування цих факторів незалежно від того, чи збалансовані вони між групами лікування

Один з моїх улюблених робіт, 7 міфів рандомізованих контрольованих випробувань , обговорює це. Коригування підвищує ефективність, коли змінна коригування сильно прогнозує результат. Виявляється, що навіть при ідеальному балансі 50/50, використовуючи блоковану рандомізацію скажімо, або навіть як збіг того, як проводилася рандомізація, коригування зменшить КІ, вимагаючи меншої кількості учасників, які мають однаково потужне дослідження; це зменшує витрати та ризики. Шокуюче, що це робиться не частіше.

Спостережні дослідження вимагають контролю за збиття з пантелику незалежно від того, що показано в таблиці 1

Припущення про рандомізацію виключає заплутаність. При не випадковому лікуванні виникає непорозуміння. Конфендер - це змінна, яка є причиною результату і передбачає отримання квазіекспериментального лікування. Немає тесту, щоб визначити, яка змінна (і) є / є конфундером. Ризик зазирнути до даних, щоб відповісти на ці запитання, полягає в тому, що плутанини практично не відрізняються від посередників або колайдерів без абсолютно ідеального вимірювання поздовжніх значень (і навіть тоді ...). Налаштування для посередників послаблює будь-який ефект, регулювання колайдера може спричинити будь-який тип зміщення. Крім того, не потрібно коригувати загальний набір плутанини, а навпаки, вони повинні усунути критерій заднього ходу.

Наприклад, у дослідженні функції легенів та куріння у підлітків: діти старшого віку частіше курять, але оскільки вони вищі, їхня функція легенів більша. Виявляється, коригування по висоті лише для того, щоб зняти збиття з пантелику, оскільки воно відповідає критерію заднього ходу. Подальше коригування віку просто втрачає працездатність. Однак, лише перевірка «балансу» таблиці 1 у курців та некурящих може припустити, що і вік, і зріст є «незбалансованими», і тому слід контролювати їх. Це неправильно.

— АдамО
джерело

Я погоджуюся з цим і добре знаю проблеми зі значеннями p. (На цьому сайті ви знайдете мало людей або мають більшу цінність, ніж я). І я все за кращі методи, деякі з яких ви піднімаєте. Звичайно, деякі змінні можуть бути супресорами (так що їх включення збільшує розмір основного ефекту). Однак, якщо я, скажімо, рецензую статтю для журналу, то чи вважаєте ви, що рекомендувати тести на еквівалентність для таблиці 1 добре, чи ви б хотіли отримати повну відповідь тут?

— Пітер Флом - Відновити Моніку

@PeterFlom Зараз я бачу контекст трохи кращим. Як статистичний рецензент, я би розглядав, чи коментар має відношення до подальших аналізів. Якщо це не стосується, я б закликав їх висловити цей коментар, оскільки це не корисно. Якщо це доречно, я б закликав їх: a) розглянути більш надійний підхід до аналізу або b) використовувати аналіз чутливості для визначення можливого впливу. Баланс коваріатів має значення лише в тій мірі, в якій він впливає на аналізи, тому я б хотів би приділити увагу. Мабуть, це не відповідна конструкція схильності, чи не так?

— AdamO

@PeterFlom Як рецензент, чи не має сенсу рекомендувати взагалі позбавлятись від p-значень у "Таблиці 1"?

— амеба каже, що поверніть Моніку

AdamO, чудова відповідь (+1), але мене трохи турбує рекомендація, що в контексті "Таблиці 1" кілька коригувань тестування "доцільно". Чи помилка типу I викликає занепокоєння? Я вважаю, що в цьому випадку помилка типу II насправді набагато важливіша (не хотілося б упустити той факт, що деяка базова змінна різниця між лікувальною та контрольною групами) Використовуючи Bonferroni, помилка типу II значно збільшиться. Це пов’язано з точкою @ Петра щодо тестів на еквівалентність: у певному сенсі, тип I і тип II обмінюються місцями, якщо ви переходите до точки зору "еквівалентності".

— амеба каже, що поверніть Моніку

@amoeba Абсолютно. Якщо ми наполягаємо на такому підході (не моя рекомендація), NHST вимагають, щоб ми контролювали помилку типу I. Я думаю, моя думка полягає в тому, що ми повинні контролювати FWER, оскільки нам не байдуже, яка змінна є незбалансованою. Його можна встановити на величинне значення, як 0,2. Я не знаю жодного тесту на еквівалентність, для якого потужність зростає в міру збільшення розміру вибірки, тому обгрунтування таких тестів є багатослівними, суб'єктивними та неточними.

— AdamO