Як визначити, яке з них краще, коли вони дають суперечливі результати?


11

Ви так часто зустрічаєте в пресі різні дослідження, які роблять висновки, спрямовані протилежно. Вони можуть бути пов'язані з тестуванням нового препарату, що відпускається за рецептом, або із застосуванням певної поживної речовини або будь-чого іншого з цього питання.

Коли два таких дослідження досягають суперечливих результатів, як ви можете сказати, яке з двох найближче до істини?


Можливо, це має бути CW? Однозначної відповіді на це питання не знайдеться, і може з’явитися чимало перспектив та підходів.
whuber

2
@whuber Я би голосував проти CW, тому що навіть якщо існують різні точки зору, можливо, буде найкращий підхід. Це схоже на те, як таку саму гіпотезу можна перевірити, використовуючи різні рамки / моделі, але, ймовірно, існує один найкращий підхід.

@Srikant: У будь-якому конкретному випадку я можу собі уявити, що ти можеш зібрати міцний захист, щоб підтримати твоє твердження. Загалом, хоча - яка зараз ситуація - найкраща відповідь буде залежати від контексту. Як простий (і неповний) приклад, розгляньте відмінності між оцінкою пари розроблених фізичних експериментів (таких як вимірювання швидкості світла, де історично більшість інтервалів довіри пропустили правду!) Та спостережливим дослідженням соціальних наук .
whuber

@whuber Можливо, нам слід продовжити цю розмову на мета. Я визнаю, що я все ще нечітко розумію, коли використовувати CW, а коли не робити, але переймаюсь вашою думкою: найкращою відповіддю на це питання буде те, що відповідь залежить від контексту, і поясніть, чому на кількох прикладах. У будь-якому випадку я якось вважаю, що це питання не повинно бути CW, але я не в змозі сформулювати більше причин, ніж ті, які я описав вище.

Відповіді:


3

Я вважаю , що відповідь Джеромі достатня, якщо ви вивчаєте два експериментальні дослідження або фактичний метааналіз. Але часто ми стикаємося з вивченням двох неекспериментальних досліджень, і перед нами стоїть завдання оцінити обгрунтованість цих двох неоднорідних висновків.

Як підказує перелік питань Сайрус щодо продуктових продуктів , сама тема не піддається короткій відповіді, і цілі книги по суті спрямовані на вирішення такого питання. Для всіх, хто зацікавлений у проведенні досліджень на неекспериментальних даних, я б настійно пропоную прочитати

Експериментальні та квазіекспериментальні конструкції для узагальненого причинного висновку Вільяма Р. Шадіша, Томаса Д. Кука, Дональда Томаса Кемпбелла (Також я чув, що старіші версії цього тексту так само хороші).

Декілька предметів, про які Ієромій згадував (більший розмір вибірки та більша методична строгість), і все, про що згадує Сайрус, вважатиметься тим, що Кемпбелл і Кук називають "внутрішньою дійсністю". Сюди входять аспекти дизайну дослідження та статистичні методи, що використовуються для оцінки взаємозв'язку між X та Y. Зокрема, як критиків ми стурбовані аспектами будь-якого, що може змістити результати та зменшити надійність отриманих результатів. Оскільки це форум, присвячений статистичному аналізу, значна частина відповідей зосереджена на статистичних методах, щоб забезпечити неупереджені оцінки будь-яких відносин, які ви оцінюєте. Але це інші аспекти дизайну дослідження, не пов'язані зі статистичним аналізом, які зменшують обґрунтованість висновків незалежно від того, до якої обґрунтованої довжини йдеться в їх статистичному аналізі (наприклад, згадка Кіра про декілька аспектів вірності експерименту може бути вирішена, але не вирішена з статистичні методи, і якщо вони відбудуться, завжди зменшується обгрунтованість результатів досліджень). Існує багато інших аспектів внутрішньої обґрунтованості, які набувають вирішального значення для порівняння результатів неекспериментальних досліджень, про які не йдеться, та аспектів дослідницьких конструкцій, які дозволяють розрізнити надійність отриманих результатів. Я не думаю, що тут цілком доречно вдаватися до занадто багато деталей,

Кемпбелл і Кук також посилаються на "зовнішню силу" досліджень. Цей аспект дизайну досліджень часто значно менший за обсягом і не заслуговує такої уваги, як внутрішня обгрунтованість. Зовнішня обґрунтованість по суті стосується узагальнення результатів, і я б сказав, що миряни часто можуть оцінювати зовнішню обґрунтованість досить добре, доки вони знайомі з темою. Довга коротка розповідь прочитала книгу Шадіша, Кука та Кемпбелла.


8

Аналіз позначки література має відношення до вашого запитання. Використовуючи метааналітичні методи, ви можете генерувати оцінку ефекту інтересу, об'єднаного в рамках досліджень. Такі методи часто вивчають вагу з точки зору їх кількості.

У контексті мета-аналізу дослідники говорять про моделі з фіксованим ефектом та випадковими ефектами (див. Hunter and Schmidt, 2002 ). Модель фіксованого ефекту передбачає, що всі дослідження оцінюють однаковий популяційний ефект. Модель випадкових ефектів передбачає, що дослідження відрізняються за популяційним ефектом, який оцінюється. Модель випадкових ефектів, як правило, більше підходить.

Оскільки більше досліджень накопичується, дивлячись на певні відносини, стають можливі більш складні підходи. Наприклад, ви можете кодувати дослідження з точки зору різних властивостей, таких як сприйнята якість, а потім емпірично вивчити, чи змінюється розмір ефекту залежно від цих характеристик дослідження. Крім якості, можуть бути деякі теоретично відповідні відмінності між дослідженнями, які б пом'якшили взаємозв'язок (наприклад, характерні для зразка, рівні дозування тощо).

Взагалі, я схильний довіряти дослідженням:

  • більший розмір вибірки
  • більша методична строгість
  • підтверджуюча орієнтація (наприклад, не дослідження, де вони перевіряли на кореляцію між 100 різними поживними речовинами та 50 результатами для здоров'я)
  • відсутність конфлікту інтересів (наприклад, не компанія, комерційна зацікавленість у виявленні відносин; не дослідник, який має стимул до значного результату)

Але це говорить, що вам потрібно зберігати випадкові вибірки та теоретично значущі відмінності між дослідженнями як правдоподібне пояснення суперечливих результатів дослідження.


Мені особливо подобається коефіцієнт ймовірності як засобу зведення доказів у метааналізі; якщо у вас є достатня кількість даних для їх обчислення для кожного дослідження, ви просто обчислюєте продукт у ході досліджень, щоб представити сукупні докази гіпотези / проти.
Майк Лоуренс

Я прокоментував (і) актуальність метааналізу після відповіді Сайруса, але відмовив цю відповідь на все інше, особливо на точки кулі.
whuber

Питання @whuber @ Gaetan передбачає, що одне дослідження ближче до істини. Я намагаюся зробити крок назад і розташувати варіації результатів між дослідженнями в метааналітичних рамках, визнаючи можливість того, що дослідження можуть бути однакової якості, але поясненням можуть бути випадкові вибірки або істотні відмінності.
Джеромі Англім

@whuber Навіть за допомогою двох досліджень можна було б сформувати метааналітичну оцінку ефекту, що представляє інтерес. Звичайно, довірчий інтервал оцінки ефекту може бути великим. Але високої ступеня невизначеності слід очікувати, якщо було проведено лише два дослідження і вони дадуть суперечливі результати.
Джеромі Англім

5

Я б не зупинився на розгляді мета-аналізу, поки ви не вивчите джерела, якщо потенційні зміщення або зміни цільових груп населення. Якщо це дослідження наслідків лікування, чи було призначено лікування випадковим чином? Чи були відхилення від протоколу? Чи було недотримання? Чи відсутні дані про результати? Чи були зразки взяті з одного і того ж кадру? Чи була відмова від участі? Помилки впровадження? Чи були правильно обчислені стандартні помилки, що враховують кластеризацію та надійні різні параметричні припущення? Лише після того, як ви відповіли на ці запитання, я думаю, що проблеми метааналізу починають входити в картину. Має бути рідкістю, що для будь-яких двох досліджень метааналіз є підходящим, якщо ви не готові зробити суто героїчні припущення.


Але хіба ці кроки вже не є частиною метааналізу?
chl

3
@chl: Правда, але справа в тому, що ці кроки доходять до суті питання. Метааналіз був би корисним лише тоді, коли існує багато досліджень (не лише двох) і їх достоїнства вже ретельно оцінені. Перед нами питання справді задається питанням, як насамперед оцінювати якість дослідження чи пару конфліктних досліджень. Сайрус вказував на деякі з багатьох аспектів цього; розумне лікування, як правило, вимагає одного або двох семестрів навчання на рівні університету. У цьому світлі я думаю, що його використання терміна "героїчне" дещо занижене!
whuber

1
@whuber Так, я згоден з вами та @Cyrus. Звичайно, оцінка якості та достовірності попередніх досліджень є обов'язковим кроком (і для перегляду кожного дослідження потрібен час, особливо коли нам доводиться звертатися до авторів, оскільки інформації в МС не вистачає); Я просто думав, що це частина метааналізу, і "статистична частина" зводиться до отримання кількісного підсумку достовірних результатів.
chl
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.