Це складне питання, яке вводить багато суміжних питань: 1) чітко конкретизуючи гіпотезу, 2) розуміння, які причинно-наслідкові механізми (можуть) лежать в основі гіпотезованого ефекту та 3) вибір / стиль викладу.
Ви маєте рацію , що, якщо ми будемо застосовувати звукову статистичну практику, щоб стверджувати , що «групи є схожі», можна було б виконати перевірку еквівалентності. Однак тести на еквівалентність страждають від тих же питань, що і їх колега NHST: потужність є лише відображенням кількості вибірки та кількості порівнянь: ми очікуємо відмінностей, але їх масштаби та вплив на основний аналіз набагато важливіші.
Якщо зіткнутися з цими ситуаціями, базові порівняння майже завжди є червоношкірими. Можна застосовувати кращі методи (науки та статистики). У мене є кілька фондових концепцій / відповідей, які я враховую, відповідаючи на подібні запитання.
"Загальний" стовпчик важливіший, ніж стовпці з роздільною обробкою; обговорення цих цінностей є обґрунтованим .
У клінічних випробуваннях зразок безпеки зазвичай аналізують. Це підмножина тих, хто спочатку звернувся, потім погодився, потім був рандомізований і, нарешті, піддався хоча б одній ітерації контролю чи лікування. У цьому процесі ми стикаємось із різною мірою упередженості участі.
Мабуть, найважливішим та опущеним аспектом цих досліджень є представлення результатів таблиці 1 у сукупності . Це досягає найважливішої мети таблиці 1: демонстрація іншим дослідникам, наскільки узагальнений зразок дослідження для широкої групи населення, в якій застосовуються результати.
Мені здається дивним, як фіксований слідчий, читачі та рецензенти ставляться до дотичних тенденцій у характеристиках пацієнтів, коли існує повна зневага до критеріїв включення / виключення та узагальнення вибірки.
Мені соромно сказати, що я був аналітиком на суді, який розглядав це як проблему. Ми набирали пацієнтів, і тоді, через логістичні проблеми, ми чекали майже рік, перш ніж здійснити втручання. Діаграма не лише показала величезний спад між цими періодами, але і зразок змістився. Результат був значною мірою непрацездатним, старшим та здоровішим, ніж люди, яких ми мали намір досягти. У мене були глибокі занепокоєння щодо узагальненості дослідження, але важко лобіювати, щоб ці проблеми були відомі.
Потужність та похибка типу I для виявлення дисбалансу в базових характеристиках залежить від фактичної кількості характеристик
Суть подання такого детального переліку базових змінних, як згадувалося раніше, полягає в тому, щоб дати ґрунтовний знімок вибірки; їх історію хвороби, лабораторії, ліки та демографічні показники. Це все аспекти, які клініцисти використовують, щоб рекомендувати лікування пацієнтам. Вважається, що всі вони прогнозують результат. Але кількість таких факторів є приголомшливою. Можна порівняти цілих 30 різних змінних. Невисокий ризик помилки I типу становить 1- (1-0,05) ^ 30 = 0,79. Коригування бонферроні або перестановки доцільно, якщо необхідно провести тестування .
Статистичне тестування в найчистішому вигляді має бути неупередженим, і воно повинно бути попередньо визначеним. Однак вибір та подання базових характеристик часто відносні. Я вважаю, що останній підхід доречний: якщо ми виявимо, як у моєму дослідженні, цікаві риси, які ефективно описують вибірку, ми повинні мати свободу вибирати, щоб представити ці цінності ad hoc . Тестування може бути здійснено, якщо воно має будь-яку цінність, але застосовуються звичайні застереження: вони не є гіпотезами, що представляють інтерес, існує високий ризик плутанини щодо того, які значущі та несуттєві результати мають на увазі, а результати більше відображають розмір вибірки та міркування щодо викладу, ніж будь-яка правда.
Рерандомізацію можна проводити, але лише до того, як пацієнти піддаються лікуванню
Як я вже згадував, аналізований зразок є типово безпечним зразком. Однак рерандомізація - це сильно обстоюваний і теоретично послідовний підхід до пацієнтів, які не піддавалися досліджуваному лікуванню. Це стосується лише параметрів, у яких проводиться реєстрація партії. Тут набирають та рандомізують 100 учасників. Якщо, наприклад, ймовірність відводить велику частку людей похилого віку до однієї групи, то вибірку можна перенавіювати для вирівнювання віку. Це неможливо зробити за допомогою послідовного або поетапного зарахування, що є умовою, в якому проводиться більшість випробувань. Це пояснюється тим, що терміни зарахування мають тенденцію передбачати статус пацієнта за поширеним випадком «упередженості» (заплутані випадки та поширені критерії прийнятності).
Збалансований дизайн не є вимогою для дійсного висновку
Припущення про рандомізацію говорить про те, що теоретично всі учасники матимуть в середньому однакові розподіли коваріатів. Однак, як було зазначено раніше, при порівнянні 30 або більше рівнів сукупна ймовірність дисбалансу є незначною. Насправді дисбаланс коваріатів може бути неактуальним при розгляді цілого.
Якщо рандомізація є справедливою, ми можемо побачити, що вік у групі лікування підвищений, але куріння підвищено у контрольній групі: обидва вони індивідуально сприяють ризику результату. Для ефективного та обґрунтованого висновку необхідне те, щоб оцінка схильності була збалансована між групами. Це набагато слабший стан. На жаль, схильність неможливо перевірити на баланс без моделі ризику. Однак легко помітити, що така схильність залежить від комбінації коваріатів, а ймовірність дисбалансу схильностей у рандомізованій вибірці набагато менш вірогідна, незважаючи на те, що неможливо точно показати.
Якщо модель ризику відома або є сильні прогнози результатів, більш ефективні та дійсні РКТ здійснюються шляхом простого коригування цих факторів незалежно від того, чи збалансовані вони між групами лікування
Один з моїх улюблених робіт, 7 міфів рандомізованих контрольованих випробувань , обговорює це. Коригування підвищує ефективність, коли змінна коригування сильно прогнозує результат. Виявляється, що навіть при ідеальному балансі 50/50, використовуючи блоковану рандомізацію скажімо, або навіть як збіг того, як проводилася рандомізація, коригування зменшить КІ, вимагаючи меншої кількості учасників, які мають однаково потужне дослідження; це зменшує витрати та ризики. Шокуюче, що це робиться не частіше.
Спостережні дослідження вимагають контролю за збиття з пантелику незалежно від того, що показано в таблиці 1
Припущення про рандомізацію виключає заплутаність. При не випадковому лікуванні виникає непорозуміння. Конфендер - це змінна, яка є причиною результату і передбачає отримання квазіекспериментального лікування. Немає тесту, щоб визначити, яка змінна (і) є / є конфундером. Ризик зазирнути до даних, щоб відповісти на ці запитання, полягає в тому, що плутанини практично не відрізняються від посередників або колайдерів без абсолютно ідеального вимірювання поздовжніх значень (і навіть тоді ...). Налаштування для посередників послаблює будь-який ефект, регулювання колайдера може спричинити будь-який тип зміщення. Крім того, не потрібно коригувати загальний набір плутанини, а навпаки, вони повинні усунути критерій заднього ходу.
Наприклад, у дослідженні функції легенів та куріння у підлітків: діти старшого віку частіше курять, але оскільки вони вищі, їхня функція легенів більша. Виявляється, коригування по висоті лише для того, щоб зняти збиття з пантелику, оскільки воно відповідає критерію заднього ходу. Подальше коригування віку просто втрачає працездатність. Однак, лише перевірка «балансу» таблиці 1 у курців та некурящих може припустити, що і вік, і зріст є «незбалансованими», і тому слід контролювати їх. Це неправильно.