Який зв’язок між такими методами, як зіставлення та статистичний контроль змінних?


10

Часто в прочитаних статтях дослідників дослідники контролювали певні змінні. Це можна зробити такими методами, як узгодження, блокування тощо.

Але я завжди думав, що контроль змінних - це щось, що робиться статистично, вимірюючи декілька змінних, які можуть впливати, і здійснюючи певний статистичний аналіз на тих, що можна зробити як в істинних, так і в квазі експериментах. Так, наприклад, у вас було б опитування або інший тест, в якому ви б виміряли незалежну змінну і деякі, можливо, заплутані змінні, і зробили деякий аналіз.

  • Чи можна контролювати змінні в квазі експериментах?
  • Який зв’язок між такими методами, як зіставлення та статистичний контроль змінних?

Відповіді:


6

Як і у випадку з AdamO, я думаю, що ключовим у відповіді на це питання є поняття причинного висновку та як дістати "до" причинно-наслідкової моделі за допомогою спостережних установок.

У досконалому світі ми мали б щось, що називається контрфактичною сукупністю - досліджувана сукупність, однакова в усіх відношеннях, за винятком однієї речі, яка нас цікавить. Різниця між цими двома групами населення, виходячи з цієї різниці, є справжнім причинним результатом.

Очевидно, у нас цього не може бути.

Однак можна спробувати наблизитися до нього:

  • Рандомізація: Ця теоретично (якщо рандомізація проведена правильно), ви повинні отримати дві ідентичні групи, за винятком пост-рандомізації лікування.

  • Стратифікація: Ви можете дивитись на популяцію в межах рівнів коваріатів, де ви робите порівняння "на кшталт". Це чудово працює для невеликої кількості рівнів, але швидко стає громіздкою.

  • Узгодження: Узгодження - це спроба зібрати досліджувану сукупність таким чином, що група A нагадує групу B, і, таким чином, піддається порівнянню.

  • Статистичне коригування: включення коваріатів у регресійну модель дозволяє оцінити ефект в межах рівнів коваріатів - знову ж таки, порівнюючи, як з подібними, або, принаймні, намагаючись.

Усі - це спроба наблизитися до цієї контрфактичної сукупності. Як найкраще досягти цього залежить від того, що ви хочете отримати, і як виглядає ваше дослідження.


Чудове пояснення. Набагато більш стисло і краще вирішувати початкове питання. Додам, що з цих методів лише статистика коригує проблему порожніх верств. У дослідженні контрольного випадку, якщо ми хочемо розшарувати населення за віком, узгодженням, стратифікацією та (блок) рандомізацією за віком, потрібно групувати чи розширювати, щоб порівняти 50-річний випадок із 51-річним контролем.
АдамО

Однак у логістичній регресії ви можете використовувати безперервну інформацію для неявного запозичення інформації по групах, як, наприклад, з лінійним або базовим сплайном, скоригованим віком, щоб зробити це порівняння. Це робить регресійне моделювання однією з найпотужніших та корисних статистичних методологій.
AdamO

@AdamO Погодився - у своїй відповіді у зв'язаному вище питанні я згадую, що його можна використовувати для згладжування областей, що не мають інформації, доки цей брак інформації обумовлений випадковістю та виправданням. Але так - є причина регресу приголомшлива.
Фоміт

2

Я думаю, що каузальне моделювання є запорукою відповіді на це питання. Кожен стикається з самого початку, щоб визначити правильний скоригований / стратифікований / контрольований ефект, що цікавить, перш ніж навіть переглядати дані. Якби я оцінив співвідношення висоти / ємності легенів у дорослих, я би налаштував статус куріння, оскільки куріння тютюнопаління впливає на зростання легенів. Конфундери - це змінні, що причинно пов'язані з прогнозкою інтересу і пов'язані з результатом інтересу. Дивіться Причинність з Іудеї Перл, 2-е видання. Слід визначити та обґрунтувати їх аналіз для правильних змішуючих змінних, перш ніж процес збору даних навіть почне використовувати раціональну логіку та попередні знання з попередніх дослідницьких досліджень.

R2для лінійних моделей цих змінних коригування. Інший процес, поширений в епідеміології, полягає в тому, що змінні додаються до моделі лише тоді, коли вони змінить оцінку основного ефекту (як коефіцієнт шансів чи коефіцієнт небезпеки) принаймні на 10%. Хоча це "більш" правильно, ніж вибір моделі на основі AIC, я все ще думаю, що в цьому підході є основні застереження.

Моя рекомендація - заздалегідь уточнити бажаний аналіз як частину гіпотези. Ризик куріння / раку, скоригований віком, є іншим параметром і призводить до різних висновків у контрольованому дослідженні, ніж ризик сирого куріння / раку. Використання знань з предметів є найкращим способом вибору предикторів для коригування в регресійних аналізах, або як стратифікація, відповідність або зважування змінних у різних інших типах "контрольованих" аналізів експериментального та квазіекспериментального проектування.


2

Історія про співвідношення між узгодженням та регресією коротко узагальнена в публікації блогу тут . Коротко

"Регресуйте на D [показник лікування] - повний набір манекенів (тобто насиченої) моделі для X [коваріатів]. Отримана оцінка ефекту D дорівнює збігу на X і зважуванню через клітини коваріату за дисперсією лікування, що залежить від Х "

Дивіться також розділ 3.3 «Більш нешкідливих» економетрій або розділ 5.3 « Контрфактики» та «Причинний висновок» для ретельного обговорення, включаючи плюси та мінуси D, що визначає зважування X, яке побічно передбачає регресія.

@EpiGrad добре розпочав своє перше запитання. Зв'язані вище книги стосуються цього майже виключно. Якщо у вас немає досвіду з інформатики / математики, ви можете виявити, що Перлина важко (хоча це варто в кінці кінців!)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.