Чи справедливо включати базовий показник як контрольну змінну при тестуванні впливу незалежної змінної на показники змін?


38

Я намагаюся запустити регресію OLS:

  • DV: Зміна ваги за рік (початкова вага - кінцева вага)

  • IV: Ви чи не займаєтеся фізичними вправами.

Однак здається розумним, що важчі люди втратять більше ваги за одиницю фізичних вправ, ніж худі люди. Таким чином, я хотів включити контрольну змінну:

  • CV: Початковий стартовий вага.

Однак тепер початкова вага використовується ВІДОМО для обчислення залежної змінної AND як контрольної змінної.

Це добре? Чи це порушує припущення про OLS?


4
Чи було призначено лікування випадковим чином?
Енді Ш

1
Зауважимо, що нещодавно також запитували ще одну дуже схожу, stats.stackexchange.com/q/15104/1036 . Відповідь на це питання застосовно до цього питання (насправді я б сказав, що це повторювані запитання).
Andy W

3
@Andy Насправді ці два питання досить різні, що я би дав іншу відповідь на це одне, ніж на інше. Чарлі вже дав приємний аналіз тут.
whuber

3
Зауважте, що використання
різницьких

Відповіді:


25

Щоб відповісти на ваше буквальне запитання: "Чи справедливо включати базовий показник як контрольну змінну при тестуванні впливу незалежної змінної на бали змін?", Відповідь - ні . Відповідь "ні", оскільки, будуючи базовий бал, співвідноситься з терміном помилки, коли оцінка зміни використовується як залежна змінна величина, отже, оцінений вплив базової лінії на бал змін не може бути зрозумілим.

Використання

  • як початкова вагаY1
  • як кінцева вагаY2
  • як зміна ваги (тобто Δ Y = Y 2 - Y 1 )ΔYΔY=Y2Y1
  • яквипадково призначенелікування, іT
  • як інші екзогенні фактори, що впливають на вагу (наприклад, інші контрольні змінні, які пов'язані з результатом, але повинні бути неспорідненими з лікуванням через випадкове призначення)X

Тоді є модель регресування на T і X ;ΔYTX

ΔY=β1T+β2X+e

Який за визначенням рівнозначний;

Y2Y1=β1Т+β2Х+е

Тепер, якщо ви включаєте базову лінію як коваріат, слід побачити проблему в тому, що у вас є термін по обидва боки рівняння. Це показує, що β 3 Y 1 не інтерпретоване, оскільки він по своїй суті корелює з терміном помилки.Y1β3Y1

Y2Y1=β1T+β2X+β3Y1+eY2=β1T+β2X+β3Y1+(e+Y1)

Тепер частина плутанини в різних відповідях, мабуть, випливає з того, що різні моделі дадуть однакові результати для ефекту лікування , у моїй вище рецепті. Отже, якби порівняти ефект лікування для моделі з використанням балів змін як залежної змінної до моделі за допомогою "рівнів" (при цьому кожна модель, включаючи базову лінію Y 1 як коваріат), інтерпретація ефекту лікування була б так само. У двох моделях, що слідують за β 1 T, будуть однаковими, а також висновки, засновані на них (Брюс Вівер має розміщений код SPSS, що також демонструє еквівалентність).β1TY1β1Т

Changе Scоrе Могел:Y2-Y1=β1Т+β2Х+β3Y1+еLеvелс Могел:Y2=β1Т+β2Х+β3Y1+е

Так дехто буде сперечатися (як це має Фелікс у цій темі, і як Брюс Вівер у деяких дискусіях щодо google групи SPSS) що оскільки моделі призводять до однакового оціночного ефекту від лікування, не має значення, яку саме вибрати. Я не погоджуюся, оскільки коваріат базової лінії у моделі оцінки змін не може бути інтерпретований, ви ніколи не повинні включати базову лінію як коваріату (незалежно від того, оцінений ефект лікування однаковий чи ні). Отже, це викликає ще одне питання, який сенс у використанні балів змін як залежних змінних? Як уже зазначав Фелікс, модель, що використовує бал зміни як залежної змінної, виключаючи базову лінію як коваріату, відрізняється від моделі, що використовує рівні. Для уточнення наступні моделі даватимуть різні ефекти лікування (особливо у випадку, якщо лікування співвідноситься з базовим рівнем);

Change Score Model Without Baseline:Y2Y1=β1T+β2X+eLevels Model:Y2=β1T+β2X+β3Y1+e

Це було відзначено в попередній літературі як "Парадокс Господа". То яка модель є правильною? Що ж, у випадку рандомізованих експериментів, я б сказав, що модель рівнів є кращою (хоча, якщо ви зробили гарну роботу, рандомізуючи, середній ефект лікування повинен бути дуже близьким між моделями). Інші відзначили причини, чому модель рівнів є кращою, відповідь Чарлі дає хороший момент у тому, що ви можете оцінити ефекти взаємодії з базовою лінією в моделі рівнів (але ви не можете в моделі зміни балів). У відповіді Вюбер на дуже подібне питання демонструє, як результати змін викликають кореляцію між різними методами лікування.

У ситуаціях, коли лікування не призначається випадковим чином, модель, яка використовує бали змін як залежної змінної, слід більше уваги розглянути. Основна перевага моделі оцінки змін полягає в тому, що будь-які інваріантні прогнози результатів контролюються. Так, у вищенаведеному формулюванні, скажімо, є постійним протягом усього часу (наприклад, скажімо, генетична схильність бути певною вагою), і що X співвідноситься з тим, чи вирішила людина фізичні вправи (а X - це не помічено). У цьому випадку краща модель зміни є кращою. Також у випадках, коли відбір для лікування корелює з базовим значенням, модель оцінки змін може бути кращою. Пол Еллісон у своїй роботі,XXXЗміна балів як залежних змінних в регресійному аналізі дає такі самі приклади (і значною мірою вплинула на мою точку зору на тему, тому я настійно пропоную прочитати її).

Це не означає, що бали змін завжди бажані в не рандомізованих налаштуваннях. У випадку, якщо ви очікуєте, що базовий рівень матиме фактичний причинний вплив на вагу після посту, слід використовувати модель рівнів. У випадку, якщо ви очікуєте, що базовий рівень матиме причинний ефект, а вибір на лікування корелює з вихідним рівнем, ефект лікування плутається з базовим ефектом.

Я проігнорував замітку Чарлі про те, що логарифм ваги може використовуватися як залежна змінна. Хоча я не сумніваюся, що це може бути можливим, це початкове питання дещо не є послідовним . Ще одне питання обговорювало, коли доцільно використовувати логарифми змінної (а ті, що все ще застосовуються в цьому випадку). Напевно, є попередня література з цього приводу, яка допоможе вам орієнтуватись на те, чи правильне використання зареєстрованої ваги також.


Цитування

Аллісон, Пол Д. 1990. Змінення балів як залежних змінних в регресійному аналізі . Соціологічна методологія 20: 93-114. Загальнодоступна версія PDF .


3
У рівнянні якщо, як це прийнято у звичайній практиці, вважаємо, що всі коваріати не є випадковими величинами, то Y 1 не корелює з e + Y 1 . Тому я думаю, що існує лише проблема, якщо ви розглядаєте Y 1 як випадковий, і в цьому випадку (знову ж таки, на мою думку) ви повинні моделювати ( Y 1 , Y 2 )Y2=β1T+β2X+β3Y1+(e+Y1)Y1e+Y1Y1(Y1,Y2)спільно, але без як коваріату. У цьому відношенні, не маючи даних, мені було повідомлено, що цей підхід еквівалентний Y 1 - фіксованому коваріату (я спробую знайти деякі посилання на це). Y1Y1
дендар

1
@dandar, це твердження для мене не має сенсу. Зауважимо, що - це значення результату перед обробкою , це не змінна, якою маніпулюють в експерименті. Ви говорите, якщо у мене базове значення Y 1 , то я провожу експеримент, а потім вимірюю Y 2 , я повинен моделювати як Y 1, так і Y 2 як функцію експериментального втручання? Y1Y1Y2Y1Y2
Andy W

1
Модель, про яку я говорю, насправді означає, що є функцією лікування, але лише з точки зору того, що незважаючи на рандомізацію, завжди будуть невеликі відмінності між лікувальною та контрольною групою щодо їх базових засобів. Таким чином, β 1 буде враховувати цю різницю, а також ефект від лікування. Посиланням на це є ("Поздовжній аналіз даних безперервних та дискретних відповідей для проектів перед пост" після Зегера та Ліанга, 2000). Y1β1
dandar

1
Чітке обговорення цього документу можна знайти в ("Чи повинен базовий рівень бути коваріатною або залежною змінною в аналізі зміни змін від базової лінії в клінічних випробуваннях", Лю, Могг, Малік і Мехротра 2009). Вони відносять цю модель як безумовну модель (тобто вона не обумовлює базову відповідь). У статті Лю (2009) вони обговорюють основні результати роботи Зегера (2000). По-перше, це те, що за відсутністю відсутніх даних точкові оцінки з беззастережної моделі такі ж, як і в умовному підході ANCOVA з використанням пост-базової лініїB1
квітня

1
вимірювання як відповідь та обумовлення фіксованого базового значення, по-друге, відхилення точкової оцінки від моделі ANCOVA завжди більше або дорівнює такому від безумовного. Виявляється, ця різниця в дисперсії, як правило, буде невеликою через рандомізацію, що забезпечує середні рівні відгуків між групами невеликими. Автори роблять висновок, що безумовна модель підходить для моделювання базової лінії як випадкової величини, але ANCOVA, якщо це доречно, при розгляді її як фіксованої.
дендар

21

Відповідь Енді, здається, погляд економіста на речі. У клінічних випробуваннях прийнято практично майже завжди коригувати базову версію змінної реакції, щоб значно підвищити потужність. Оскільки ми визначаємо базові змінні, немає "терміну помилки", щоб вони змішувались із загальним терміном помилки. Єдиною проблемою було б, якщо помилки вимірювання в базовій коваріаті плутаються з іншим X, спотворюючи ефект цього іншого X. Загальним кращим методом є коригування базової лінії та моделювання змінної відповіді, не обчислюючи зміни. Однією з причин цього є те, що зміна сильно залежить від правильного перетворення Y, і ця зміна взагалі не стосується регресійних моделей. Наприклад, якщо Y є порядковим, різниця між двома порядковими змінними вже не є порядковою.


1
Я не повністю розумію цю відповідь. Що ви маєте на увазі під "коригування для базової лінії"? Взяти різницю, чи контролювати її?
Генрік

3
Під «коригуванням для базової лінії» я мав на увазі включення базової лінії як коваріату. Також звичайно використовувати бали змін, але ви не можете їх використовувати, не налаштувавши також базову лінію як коваріатну (звідси навіщо турбуватися з балами змін?).
Френк Харрелл

6
Насправді ніщо, що ви тут говорите (або у відповідь на коментарі Фелікса), прямо не суперечить тому, що я говорю. Використання балів змін не "коригує базову лінію", вона контролює будь-які інваріантні опущені змінні (або якщо вибір у лікуванні сильно корелює з базовою лінією). Якщо базовий рівень є несуттєвим (тобто це має прямий причинний вплив на результат або він має взаємодію з лікуванням), зміни змін не вирішують проблему.
Енді Ш

2
@Frank Harrell Дякую за приєднання до цієї дискусії та уточнення цього. (+1)
Генрік

8

Ми можемо трохи змінити міркування @ ocram, щоб мати

Е[ш1-ш0Х,ш0]=β0+хβ+ш0γЕ[ш1Х,ш0]=β0+хβ+ш0(γ+1)

Отже, якщо це правильна модель , то кажучи, що різниця залежить від ваги, випливає, що кінцеве значення залежить від початкового значення з коефіцієнтом, який може бути чим завгодно. Запуск регресії різниці на і w 0 або кінцеву вагу для одних і тих же змінних повинен дати вам однакові коефіцієнти для всього, крім w 0 . Але якщо ця модель не зовсім коректна, ці регресії дадуть різні результати і за іншими коефіцієнтами.хш0ш0

Е[ш1-ш0Х,ш0]=β0+(хш0)β+ш0γ.

журнал(ш1)-журнал(ш0)r;
rхрозповість, як ці прогнози пов'язані із зміною пропорції у вазі. Це "контролює" початкову вагу, кажучи, що, наприклад, режим фізичних вправ, який знижує вагу на 10% (коефіцієнт 0,1, помножений на 100%) для того, хто важить 130 фунтів, зменшує вагу на 13 фунтів, тоді як програма знижує вага учасника 200 фунтів на 20 фунтів. У цьому випадку вам може не знадобитися включати початкову вагу (або її журнал) праворуч.

ш0ш0β1β1

журнал(ш0)β1/ш0

Як бачимо, перехресні сторони щодо умов взаємодії можуть стати дещо складними для тлумачення, але вони можуть зафіксувати вплив, який вас цікавить.


Привіт Чарлі, я бачу перевагу в застосуванні зміни пропорції, однак чому ви знаходите різницю в зареєстрованих змінних на відміну від просто ділення w1 на w0.
ChrisStata

Мені подобається ідея пропорційних змін. Однак питання залишається, чи очікувана взаємодія буквально пропорційна чи ні. Якщо ні, то все-таки потрібно було б включити початкову вагу як коваріат. Або ви впевнені, що втратити 10% ваги для людини на 100 або 200 фунтів з такою ж складністю ??
Генрік

@ChrisStata, ти теж міг би це зробити. Я економіст, і ми любимо наші журнали (і теж відрізняємося). Якщо у вас був часовий ряд (тобто кілька спостережень) для кожної людини (створення набору даних на панелі), я можу стверджувати, що мій шлях кращий, але це не має значення тут. Генрік, ти маєш рацію; Я трохи додав про це до своєї відповіді.
Чарлі

8

EDIT: Аргумент Енді W переконав мене відмовитись від моделі C. Я додав ще одну можливість: аналіз змін з випадковими коефіцієнтами (також багаторівневі моделі або змішані ефекти)

Було багато наукових дискусій щодо використання різницьких балів. Мої улюблені тексти - «Рогоза» (1982, [1]) та Фіцмаурице, «Повітря» та «Посуд» (2004, [2])

Загалом у вас є три можливості аналізу ваших даних:

  • A) Візьміть лише показник різниць між різними різними оцінками
  • B) Розглядайте пост вимірювання як DV та контролюйте його за базовою лінією
  • В) Візьміть бал різниці як DV та контролюйте його за базовою лінією (це модель, яку ви запропонували). Через аргументи Енді У, я відмовився від цієї альтернативи
  • D) Використання модельного підходу на багаторівневому / змішаному ефекті, коли лінійка регресії моделюється для кожного учасника та учасника, розглядається як одиниці рівня 2.

Моделі A і B можуть давати дуже різні результати, якщо вихідний рівень співвідноситься зі зміною балів (наприклад, у важких людей більше втрати ваги) та / або призначення лікування співвідноситься з базовим рівнем.

Якщо ви хочете дізнатися більше про ці проблеми, перегляньте цитовані статті, або тут, і тут .

Нещодавно було проведено симуляційне дослідження [3], яке емпірично порівнює умови, за яких A або B є кращими.

Для повністю збалансованих конструкцій без відсутніх значень модель D повинна бути еквівалентною моделі A. Однак вона дає більше інформації про мінливість людини, вона легко розширюється до більшої кількості точок вимірювання та має приємні властивості за наявності незбалансованих даних та / або відсутні значення.

Як підсумок: У вашому випадку я би проаналізував пост-заходи, контрольовані за базовою лінією (модель B).

[1] Rogosa, D., Brandt, D., & Zimowski, M. (1982). Кривий ріст підхід до вимірювання змін. Психологічний вісник, 92, 726-748.

[2] Fitzmaurice, GM, Laird, NM, & Ware, JH (2004). Застосовується поздовжній аналіз. Hoboken, NJ: Wiley.

[3] Petscher, Y., Schatschneider, C., 2011. Модельне дослідження ефективності показників, що регулюються простою різницею та коефіцієнтом у рандомізованих експериментальних проектах. Журнал навчальних вимірювань, 48, 31-43.


Я спростував цю відповідь, і ви можете побачити мою відповідь на те, чому я вважаю, що зміни змін із базовою лінією як коваріату не слід робити. Підсумовуючи це, навіть незважаючи на те, що моделі B і C у вашій рецептурі дають еквівалентні ефекти лікування, це не означає, що модель C є кращою. Насправді, базовий ефект в моделі C не є зрозумілим, тому я вважаю, що його не слід використовувати.
Енді Ш

@AndyW: Ваш аргумент мене переконав; хоча найрелевантніша оцінка ефекту від лікування однакова в обох моделях, модель B слід віддати перевагу порівняно з моделлю C. Я відповідним чином скорегував свою відповідь. Але що ви скажете Laird, N. (1983). Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician, 37, 329-330.? Хто показує еквівалентність B і C?
Felix S

б¯б¯

Один момент для моделі D. Мені цікаво, чому не розглядати тільки модель D. Це найбільш послідовна (базове значення - випадкова величина і не може бути примушена до залежної змінної), вона проста, дуже гнучка (взаємодія може буде додано) і забезпечує також стандартне відхилення населення.
giordano

3

Дивіться Josh Angrist саме на це питання: http://www.mostlyharmlesseconometrics.com/2009/10/adding-lagged-dependent-vars-to-differenced-models/ . Він значною мірою суперечить тому, що у вашу модель включено відсталий DV. У його відповіді немає нічого, що не є у відповідях вище, але подальша лаконічна відповідь на ваше запитання може допомогти.


3

Glymour та ін. (2005) розглянуто з використанням коригування базової лінії під час аналізу балів змін. Якщо зміна стану здоров'я передує оцінці базової лінії або є велика похибка вимірювання залежної змінної, вони виявляють, що зміщення може виникнути, якщо модель регресії, що використовує бал зміни як залежної змінної, включає коваріат базової лінії. Відповідь Френка Гаррелла "Єдиною проблемою було б, якщо помилки вимірювання в базовій коваріаті плутаються з іншим X, спотворюючи ефект цього іншого X". може відображати той самий упередженість, що і адреси Glymour.

Глімор (2005) "Коли коригування базової лінії корисно для аналізу змін? Приклад з освітою та когнітивними змінами. Американський журнал епідеміології 162: 267-278


1

Ocram невірний. Різниця у вазі не враховує початкову вагу. Зокрема, вихідну вагу витягують шляхом вирахування з неї кінцевої ваги.

Тому я заперечую, що це не порушує жодних припущень, якщо ви контролюєте початкову вагу.

(Ця ж логіка застосовується, якщо взяти різницю ІМТ і початкового ІМТ.)


Оновлення
Після критики Енді У дозвольте мені бути більш офіційним щодо того, чому я правий і Окрам помиляюся (принаймні з моєї точки зору).

аш
iш=ашеш=аш+Δш

Δш=iш-еш=аш-аш+Δш=Δш

аш

Якщо ви хочете врахувати це, вам потрібно включити його у свою модель окремо (як звичайний параметр та / або як термін взаємодії).

ΔБМJеш=ашprоpΔш


Коли я сказав, що різниця враховує початкову вагу, це саме те, що я мав на увазі. А тепер конкретно, що б ви написали? кінцева вага - початкова вага = ...?
окрам

Як я писав, ваша аргументація мені здається хибною. Я можу стверджувати, що насправді кінцева вага враховує початкову вагу більше, ніж вона є на тій же «шкалі», тоді як різниця «переосмислена» (як кінцева вага, отже, деяке абсолютне значення віднімається від іншого абсолютного значення).
Генрік

(-1) Це невірно. Взагалі, ви не повинні включати однакову змінну як в правій, так і в лівій частині рівняння (оскільки це призводить до того, що незалежна змінна співвідноситься з терміном помилки). Отже, якщо ви використовуєте відмінності для залежної змінної, ви не повинні включати базову лінію як коваріат.
Енді Ш

@Andy W: Я знаю, що ваш аргумент в принципі правильний. Але мій аргумент полягає в тому, що ви частково викреслюєте абсолютне значення (віднімаючи кінцеве значення з базової лінії), тим самим усуваючи це співвідношення. Отже, додавання його як коваріату не вводить такого роду хибного кореляції помилок.
Генрік

@Henrik, дивіться мою відповідь на це запитання, і чому я все ще вважаю, що ці настрої є помилковими.
Енді Ш

0

Зауважте, що

кінцева вага-початкова вагаY=β0+βТх

еквівалентно

кінцева вага=початкова вага+β0+βТх

Словом, використовуючи зміну ваги (замість самої кінцевої ваги) як DV вже припадає на початкову вагу.


1
Але я здогадуюсь, що може бути взаємодія між початковою вагою та втратою ваги за даними тренуванням. Скажімо, дорослий висотою 1,90 м та масою тіла 70 кг та дорослим 1,60 м висотою та масою тіла 90 кг беруть участь у одних і тих же тренувальних вправах. Б'юсь у заклад, що останній втрачає більше ваги. По-друге, думка: можливо, індекс маси тіла є кращим резюме, ніж просто вага.
xmjx

1
@xmjx: Якщо ви думаєте, що початкова вага вплине на кінцеву вагу - і ви, мабуть, маєте рацію - тоді це гарна ідея ввести це як зміщення в моделі, як це робиться тут ...
ocram

3
Неправильно взагалі. Якщо нахил базової ваги не дорівнює 1,0, аналіз змін не буде еквівалентний аналізу кінцевої ваги, якщо початкова вага не є в обох моделях і ви не використовуєте звичайну регресію. Якщо базовий вага знаходиться в двох місцях, модель насправді пояснити важче, тому причини, що зберігаються при такому підході, є незрозумілими.
Френк Харрелл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.