Яким саме чином "керує іншими змінними"?


141

Ось стаття, яка мотивувала це питання: чи нетерплячість робить нас жирними?

Ця стаття мені сподобалась, і вона чудово демонструє концепцію "контролю за іншими змінними" (IQ, кар'єра, дохід, вік тощо), щоб найкраще виділити справжній зв'язок між лише двома розглянутими змінними.

Чи можете ви пояснити мені, як ви насправді керуєте змінними на типовому наборі даних?

Наприклад, якщо у вас є 2 людини з однаковим рівнем нетерпіння та ІМТ, але різними доходами, як ви ставитесь до цих даних? Ви класифікуєте їх на різні підгрупи, які мають подібний дохід, терпіння та ІМТ? Але, зрештою, є десятки змінних, які слід контролювати (IQ, кар'єра, дохід, вік тощо). Як ви потім об'єднуєте ці (потенційно) 100 підгруп? Насправді, я маю відчуття, що цей підхід гавкає неправильне дерево, тепер, коли я його вербалізував.

Дякуємо, що пролили будь-яке світло на те, що я мав намір досягти донизу вже кілька років ...!


3
Епі та Бернд, велике спасибі за спробу відповісти на це. На жаль, ці відповіді є великим стрибком від мого запитання і над головою. Можливо, це не так, що я не маю досвіду роботи з R, а просто основна статистика 101. Так само, як відгуки про ваше вчення, коли ви відстороняєтесь від ІМТ, віку, нетерплячості тощо, щоб «коварити» та ін., Ви повністю втратили мене. Автогенерування псевдоданих також не було корисним у з'ясуванні понять. Насправді це погіршило. Важко вчитися на фіктивних даних без притаманного їм значення, якщо ви вже не знаєте пояснюваного принципу (тобто: Вчитель знає, що я
JackOfAll

7
Дякуємо, що задали це питання принципового значення, @JackOfAll - веб-сайт був би неповним без запитань у цьому напрямку - я "вподобав" це. Відповіді тут були дуже корисними для мене і, мабуть, багатьом іншим, виходячи з кількості поданих заявок. Якщо після роздуму над цим ви знайшли відповіді самі собі корисними (або відповідями на будь-яке із своїх запитань), я рекомендую вам скористатися своєю резюме та прийняти відповідь, якщо ви вважаєте її остаточною. Це можна зробити, клацнувши невеликі криві вгору, що вказують вгору, наступну відповідь і галочку відповідно.
Макрос

4
Це не повна відповідь чи що-небудь, але я вважаю, що варто прочитати "Кріс Ахен." Покладемо регресії сміття та сміття, куди вони належать ". (Посилання у форматі PDF: http://qssi.psu.edu/files/Achen_GarbageCan.pdf ) Це стосується як байєсівського, так і частотологічного підходів однаково. Просто кидання термінів у ваше налаштування недостатньо, щоб "контролювати" ефекти, але, на жаль, саме це передається для контролю у великій кількості літератури.
ely

9
Ви запитуєте " як комп'ютерне програмне забезпечення одночасно математично керує всіма змінними ". Ви також говорите "мені потрібна відповідь, яка не передбачає формул". Я не бачу, як можна реально робити і те й інше одночасно. Принаймні, не без серйозного ризику залишити вас з хибною інтуїцією.
Glen_b

2
Я здивований, це питання не привернуло більшої уваги. Я погоджуюся з коментарем ОП, що інші питання на сайті точно не висвітлюють конкретні питання, які тут піднімаються. @Jen, дуже коротка відповідь на ваше (друге) запитання полягає в тому, що численні коваріати дійсно одночасно збиваються, а не повторюються, як ви описуєте. Зараз я подумаю, як виглядала б більш детальна та інтуїтивна відповідь на ці запитання.
Джейк Уестпад

Відповіді:


124

Існує багато способів контролю за змінними.

Найпростіше, і ви придумали - стратифікувати свої дані, щоб у вас були підгрупи з подібними характеристиками - тоді є методи, щоб об'єднати ці результати разом, щоб отримати єдиний "відповідь". Це працює, якщо у вас є дуже мала кількість змінних, якими ви хочете керувати, але, як ви правильно виявили, це швидко розпадається, коли ви розділяєте свої дані на менші та менші шматки.

Більш поширений підхід полягає в включенні змінних, якими ви хочете керувати, в регресійну модель. Наприклад, якщо у вас є модель регресії, яку концептуально можна описати як:

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

Оцінка, яку ви отримаєте за нетерплячість, буде впливом Нетерпіння в межах рівнів інших коваріатів - регресія дозволяє вам по суті згладжувати місця, де у вас не так багато даних (проблема з підходом стратифікації), хоча це слід робити з обережністю.

Існують ще більш складні способи контролю за іншими змінними, але шанси є, коли хтось каже "контрольовані за іншими змінними", це означає, що вони були включені в регресійну модель.

Добре, ви попросили приклад, над яким можна працювати, щоб побачити, як це відбувається. Я пройду вас покроково. Все, що вам потрібно, - це встановлена ​​копія R.

По-перше, нам потрібні деякі дані. Виріжте та вставте наступні фрагменти коду в R. Майте на увазі, це надуманий приклад, який я склав на місці, але він показує процес.

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

Це ваші дані. Зауважте, що ми вже знаємо взаємозв'язок між результатом, експозицією та коваріатом - ось це питання багатьох симуляційних досліджень (з яких це надзвичайно базовий приклад. Ви починаєте зі структури, яку ви знаєте, і впевнені, що ваш метод може отримати правильну відповідь.

Тепер, на регресійну модель. Введіть наступне:

lm(outcome~exposure)

Ви отримали перехоплення = 2,0 та експозицію = 0,6766? Або щось близьке до цього, враховуючи, чи будуть випадкові зміни в даних? Добре - ця відповідь неправильна. Ми знаємо, що це неправильно. Чому це неправильно? Ми не змогли контролювати змінну, яка впливає на результат та вплив. Це двійкова змінна, зробіть все, що завгодно - стать, курець / некурящий тощо.

Тепер запустіть цю модель:

lm(outcome~exposure+covariate)

Цього разу ви повинні отримати коефіцієнти перехоплення = 2,00, експозиції = 0,50 і коваріату 0,25. Це, як ми знаємо, правильна відповідь. Ви контролювали інші змінні.

Тепер, що відбувається, коли ми не знаємо, чи ми подбали про всі змінні, які нам потрібні (насправді ми ніколи не робимо)? Це називається залишковим збиттям з пантелику , і його стурбованість у більшості спостережливих досліджень - те, що ми контролювали недосконало, і наша відповідь, хоч і праворуч, не є точною. Чи допомагає це більше?


Дякую. Хто-небудь знає простий приклад регресії на основі Інтернету чи в підручнику, над яким я можу працювати?
JackOfAll

@JackOfAll Мабуть сотні таких прикладів - які сфери / типи питань вас цікавлять і які програмні пакети ви можете використовувати?
Фоміт

Ну, будь-який академічний / надуманий приклад мені добре. У мене є Excel, який може зробити багатозмінну регресію, правильно? Або мені потрібно щось на зразок R для цього?
JackOfAll

10
+1 Для відповіді на це без негативу, який я б використав. :) За типовою мовою, контроль за іншими змінними означає, що автори кинули їх у регресію. Це насправді не означає, що вони думають, що це означає, якщо вони не підтвердили, що змінні відносно незалежні і що вся модель моделі (як правило, якась ГЛМ) є обґрунтованою. Коротше кажучи, я вважаю, що коли хтось використовує цю фразу, це означає, що вони мають дуже мало поняття про статистику, і слід перераховувати результати, використовуючи запропонований вами метод стратифікації.
Ітератор

7
@SibbsGambling Ви зауважите, що оригінальний запитуючий запитував простий відпрацьований приклад.
Фоміт

56
  1. Вступ

    Мені подобається відповідь @ EpiGrad (+1), але дозвольте поглянути на іншу точку зору. Далі я маю на увазі цей документ у форматі PDF: "Аналіз множинної регресії: оцінка" , в якому є розділ "Інтерпретація множинної регресії" Partialling Out "(стор. 83f.). На жаль, я не маю уявлення, хто є автором цієї глави, і я буду називати це REGCHAPTER. Аналогічне пояснення можна знайти в Колер / Кройтер (2009) "Аналіз даних за допомогою статистики" , глава 8.2.3 "Що означає" під контролем "?".

    Я буду використовувати приклад @ EpiGrad для пояснення такого підходу. R код та результати можна знайти у Додатку.

    Слід також зазначити, що "контроль за іншими змінними" має сенс лише тоді, коли пояснювальні змінні мають помірковану кореляцію (колінеарність). У вищезгаданому прикладі співвідношення продукт-момент між exposureі covariateстановить 0,50, тобто

    > cor(covariate, exposure)
    [1] 0.5036915
  2. Залишки

    Я припускаю, що ви маєте основне розуміння концепції залишків в регресійному аналізі. Ось пояснення у Вікіпедії : "Якщо за деякими даними проводиться регресія, то відхилення залежних змінних спостережень від пристосованої функції є залишковими".

  3. Що означає "під контролем"?

    Контролюючи змінну covariate, ефект (вага регресії) exposureна outcomeможна описати наступним чином (я неохайний і пропускаю більшість індексів та всіх шапок; будь ласка, зверніться до вищезгаданого тексту для точного опису):

    β1=residi1yiresidi12

    residi1 є залишки , коли ми регрес exposureна covariate, тобто

    exposure=const.+βcovariatecovariate+resid

    "Залишки [..] - це частина яка не пов'язана з . [...] Таким чином, вимірює вибірковий зв'язок між та після того, як був частково вийшов »(РЕГІСТР 84). "Розділений" означає "контрольований для".xi1xi2β^1yx1x2

    Я продемонструю цю ідею, використовуючи приклади даних @ EpiGrad. По- перше, я регрес exposureна covariate. Оскільки мене цікавлять лише залишки lmEC.resid, я опускаю вихід.

    summary(lmEC <- lm(exposure ~ covariate))
    lmEC.resid   <- residuals(lmEC)

    Наступним кроком є ​​регресування outcomeцих залишків ( lmEC.resid):

    [output omitted]
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
    lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
    
    [output omitted]

    Як ви бачите, вага регресії для lmEC.resid(див. Стовпець Оцінка, ) у цій простій регресії дорівнює кратній вазі регресії , яка також дорівнює (див. Відповідь EpiGrad або вихід R нижче).βlmEC.resid=0.50covariate0.50

Додаток

R код

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

R Вихід

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
> 

5
Ця глава виглядає як Baby Wooldridge (він же «Вступна економетрія: сучасний підхід Джефрі М. Вулдріджа»)
Димитрій Вікторович Мастеров

2
Я можу щось нерозуміти, але чому б вам також не потрібно регресувати результат по коваріату, а потім нарешті регресувати остаточні результати за залишками експозиції?
hlinee

@hlinee має рацію. Чи можете ви пояснити, чому ви цього не робите?
Parseltongue

41

Звичайно, буде задіяна якась математика, але це не так багато: Евклід це добре зрозумів би. Все, що вам потрібно знати, - це додавання та змінення масштабів векторів. Хоча це сьогодні називається "лінійна алгебра", вам потрібно візуалізувати її лише у двох вимірах. Це дозволяє нам уникати матричної машини лінійної алгебри та зосереджуватися на поняттях.


Геометрична історія

На першому малюнку - сума і . (Вектор масштабований числовим коефіцієнтом ; грецькі літери (альфа), (бета) та (гамма) будуть позначати такі чисельні коефіцієнти.)yy1αx1x1ααβγ

Фігура 1

Ця цифра фактично починалася з початкових векторів (показаних суцільними лініями) та . "Збіг" найменших квадратів від до знаходимо, беручи кратне яке найближче до в площині фігури. Ось так було знайдено . Приймаючи цей матч від лівого , то залишкова від по відношенню до . (Точка " " послідовно вказуватиме, для яких векторів було "зіставлено", "вийнято" або "контрольовано".)x1yyx1x1yαyy1yx1

Ми можемо співставити інші вектори до . Ось картина , де була узгоджена з , висловлюючи це як множинний від плюс його залишкової :x1x2x1βx1x21

Малюнок 2

(Не має значення, що площина, що містить і могла відрізнятися від площини, що містить і : ці дві фігури виходять незалежно одна від одної. Все, що вони гарантовано мають спільний, - вектор .) Аналогічно, будь-яке число векторів можна порівняти з .x1x2x1yx1x3,x4,x1

Тепер розглянемо площину, що містить два залишки і . Я зорієнтую зображення, щоб зробити горизонтальним, так само, як я орієнтував попередні малюнки, щоб зробити горизонтальним, оскільки цього разу буде грати роль відповідника:y1x21x21x1x21

Малюнок 3

Зауважте, що в кожному з трьох випадків залишок перпендикулярний до сірника. (Якби цього не було, ми могли б налаштувати відповідність, щоб наблизити його ще до , або .)yx2y1

Ключова ідея полягає в тому, що до моменту досягнення останньої цифри обидва вектори ( і ) вже перпендикулярні до за побудовою. Таким чином, будь-яке наступне коригування включає зміни, які перпендикулярні до . Як результат, нова відповідність та нова залишка залишаються перпендикулярними до .x21y1x1y1x1γx21y12x1

(Якщо задіяні інші вектори, ми би поступили так само, щоб відповідати їх залишкам до .)x31,x41,x2

Є ще один важливий момент. Ця конструкція дала залишок який перпендикулярний як і . Це означає , що є також залишковим в просторі (тривимірне евклідів області дії ) , натягнуте на і . Тобто цей двоетапний процес узгодження та взяття залишків повинен був знайти місце у площині яка є найближчою до . Оскільки в цьому геометричному описі не має значення, хто з та прийшов першим, ми робимо висновок про цеy12x1x2y12x1,x2,yx1,x2yx1x2якби процес був виконаний в іншому порядку, починаючи з як збірника, а потім використовуючи , результат був би таким же.x2x1

(Якщо є додаткові вектори, ми б продовжували цей процес "виймання матчера", поки кожен з цих векторів не виявився б черцем. У кожному випадку операції будуть такими ж, як показано тут, і завжди відбуватимуться в площині .)


Застосування до множинної регресії

Цей геометричний процес має пряму інтерпретацію множинної регресії, оскільки стовпці чисел діють точно так, як геометричні вектори. Вони мають усі властивості, які ми вимагаємо від векторів (аксіоматично), і тому ними можна думати і маніпулювати таким же чином з ідеальною математичною точністю та суворістю. У призахідного зі змінними множинної регресії , , і , мета полягає в тому, щоб знайти комбінацію і ( і т.д. ) , що найближче до . Геометрично всі такі комбінації та ( тощо)X1X2,YX1X2YX1X2) відповідають точкам у просторі . Встановлення множинних коефіцієнтів регресії - це не що інше, як проектування ("узгодження") векторів. Геометричний аргумент показав цеX1,X2,

  1. Узгодження може здійснюватися послідовно і

  2. Порядок, у якому відбувається відповідність, значення не має.

Процес "виймання" матчера шляхом заміни всіх інших векторів їх залишками часто називають "контролем" для відповідника. Як ми бачили на малюнках, після того, як контролер контролюється, усі наступні обчислення вносять корективи, перпендикулярні цьому матчеру. Якщо вам подобається, ви можете подумати про "контролінг" як "облік (у найменшому квадратному сенсі) для внеску / впливу / ефекту / асоціації відповідника для всіх інших змінних".


Список літератури

Ви можете побачити все це в дії з даними та робочим кодом у відповіді за адресою https://stats.stackexchange.com/a/46508 . Ця відповідь може подобатися більше людям, які віддають перевагу арифметиці над площинними зображеннями. (Арифметика для коригування коефіцієнтів, коли послідовники вводяться послідовно, все ж є простою.) Мова відповідності - від Фреда Мостеллера та Джона Тукі.


1
Більше ілюстрацій у цьому напрямку можна знайти в книзі Вікен "Геометрія багатоваріантної статистики" (1994). Деякі приклади є у цій відповіді .
каракал

2
@Caracal Дякую за посилання. Я спочатку передбачив відповідь, яка використовує діаграми, подібні до вашої відповіді, - які є чудовим доповненням до моєї відповіді тут, - але після їх створення я вважав, що псевдо-3D фігури можуть бути надто складними та неоднозначними, щоб бути цілком придатними. Мені було приємно виявити, що аргумент можна повністю звести до найпростіших векторних операцій в площині. Можливо, варто також зазначити, що попереднє центрування даних є непотрібним, тому що це обробляється шляхом включення ненульового постійного вектора серед . xi
whuber

1
Мені подобається ця відповідь, тому що вона дає набагато більше інтуїції, ніж алгебра. BTW, не впевнений, чи перевіряли ви на YouTube канал цього хлопця . Мені це дуже сподобалось
Хайтао,

3

Наразі існує чудова дискусія щодо коваріантного пристосування як засобу "контролю за іншими змінними". Але я думаю, що це лише частина історії. Насправді існує безліч (інших) проектів, заснованих на розробці, моделі та машинному навчанні, щоб вирішити вплив ряду можливих заплутаних змінних. Це коротке опитування деяких найважливіших тем (що не коригуються). Хоча коригування є найбільш широко використовуваним засобом "контролю" для інших змінних, я думаю, що хороший статистик повинен мати розуміння того, що він робить (а що не робить) у контексті інших процесів та процедур.

Відповідність:

Узгодження - це метод проектування парного аналізу, де спостереження групуються в набори з 2, які інакше схожі за своїми найбільш важливими аспектами. Наприклад, ви можете взяти зразки двох осіб, які співзвучні за своєю освітою, доходом, професійним стажем, віком, сімейним становищем (тощо) тощо, але вони суперечать з точки зору своєї нетерпіння. Для двійкових експозицій простого тестування на парне t достатньо перевірити середню різницю в їхньому ІМТ, що контролює всі відповідні функції. Якщо ви моделюєте безперервну експозицію, аналогічним показником буде модель регресії через походження для відмінностей. Див. Карлін 2005

E[Y1Y2]=β0(X1X2)

Зважування

Зважування - це ще один універсальний аналіз, який моделює зв'язок між безперервним або бінарним предиктором та результатом так, що розподіл рівнів впливу є однорідним між групами. Ці результати, як правило, повідомляються як стандартизовані, такі як стандартизована за віком смертність для двох країн або декількох лікарень. Непряма стандартизація розраховує очікуваний розподіл результатів від показників, отриманих у "контрольній" чи "здоровій" популяції, що прогнозується до розподілу верств у референтній популяції. Пряма стандартизація йде іншим шляхом. Зазвичай ці методи використовуються для двійкового результату. Зважування балів схильностіYXYоблік вірогідності бінарного опромінення та контролі для цих змінних у цьому відношенні. Це схоже на пряму стандартизацію експозиції. Дивіться Ротман, 3-е видання сучасної епідеміології.

Рандомізація та квазірандомізація

Це тонкий момент, але якщо ви насправді здатні рандомізувати людей до певного експериментального стану, то вплив інших змінних пом'якшується. Це надзвичайно сильніший стан, тому що вам навіть не потрібно знати, що це за інші змінні. У цьому сенсі ви "контролювали" їх вплив. Це не можливо в обсерваційному дослідженні, але виявляється, що методи оцінки схильності створюють просту імовірнісну міру впливу, яка дозволяє важити, коригувати або співставляти учасників, щоб їх можна було проаналізувати так само, як квазі-рандомізоване дослідження . Див. Розенбаум, Рубін 1983 .

Мікросимуляція

Інший спосіб моделювання даних, які могли бути отримані в результаті рандомізованого дослідження, - це проведення мікросимуляції. Тут можна насправді звернути свою увагу на більші та більш досконалі, машинні навчання, як моделі. Термін, який мені вподобала Юдея Перл, - це " Моделі Oracle ": складні мережі, які здатні генерувати прогнози та прогнозувати для ряду особливостей та результатів. Виявляється, можна "скласти" інформацію такої моделі оракула, щоб імітувати результати врівноваженої групи людей, які представляють рандомізовану когорту, збалансовану в розподілі "контрольної змінної" та використовуючи прості процедури тестування для оцінки величина та точність можливих різниць. Див. Руттер, Заславський та Фейєр 2012

Зрівняння, зважування та коефіцієнт коригування в регресійній моделі всі оцінюють одні і ті ж асоціації, і, таким чином, всі можна вважати способами "контролю" для інших змінних .


Всього над головою.
JackOfAll

Це відповідь на поставлене запитання, поки що хороша дискусія є дещо односторонньою на користь коригування в багатоваріантних моделях.
АдамО

Багатоваріантні моделі, відповідність тощо - всі дійсні методи, але коли дослідник зазвичай використовує одну техніку над іншою?
mnmn

-1

Програмне забезпечення буквально не контролює змінні. Якщо ви знайомі з матричним позначенням регресії , то ви можете пам'ятати, що рішення найменших квадратів є . Отже, програмне забезпечення оцінює це вираження чисельно за допомогою обчислювальних методів лінійної алгебри.b = ( X T X ) - 1 X T YY=Xβ+εb=(XTX)1XTY


4
Дякуємо, що скористалися можливістю запропонувати цю інформацію. Для відповіді на відповідність потребам, які задаються у питанні, нам слід було б знати значення простих значень у другому виразі та значення другого виразу. Я розумію, що нахил - це зміна однієї осі над зміною іншої. Пам’ятайте, позначення - це особлива мова, яку спочатку створювали та вивчали, використовуючи ненотативну лексику. Досягнення людей, які не знають, що мова вимагає використання інших слів, і це постійний виклик передачі знань з різних дисциплін.
Джен

2
Після того як ви перейдете до багатоваріантної регресії, без лінійної алгебри неможливо. У посиланні Wiki є всі описи змінних. Тут я можу сказати, що позначає транспозицію матриціВам доведеться дізнатися, як будується матриця дизайну. Тут занадто довго пояснювати це. Прочитайте Вікі, яку я розмістив, у ній багато інформації. Якщо я не розумію лінійну алгебру, я не зможу відповісти на ваше запитання змістовно, боюся. XXX
Аксакал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.