Суперечність суттєвості в лінійній регресії: суттєвий t-тест на коефіцієнт проти несуттєвої загальної F-статистики


35

Мені підходить декілька лінійних регресійних моделей між 4 категоричними змінними (з 4 рівнями кожна) та числовим результатом. У моєму наборі даних є 43 спостереження.

Регресія дає мені такі p -значення від -тесту для кожного коефіцієнта нахилу: . Таким чином, коефіцієнт для 4-го предиктора є значущим на рівні довіри .т.15,.67,.27,.02α=.05

З іншого боку, регресія дає мені -значення від загального -теста нульової гіпотези про те, що всі мої коефіцієнти нахилу рівні нулю. Для мого набору даних це значення значення становить .pFp.11

Моє запитання: як мені інтерпретувати ці результати? Який -значення слід використовувати і чому? Чи суттєво відрізняється коефіцієнт для 4-ї змінної від на рівні довіри ?p0α=.05

Я бачив відповідне запитання, статистику і в регресії , але виникла протилежна ситуація: високий -тест -значення і низький -тест -значення. Чесно кажучи, я не зовсім розумію, для чого нам знадобиться -test на додаток до test, щоб побачити, чи значні коефіцієнти лінійної регресії різні від нуля.ЖттpЖpЖт


2
Якщо у вас є 4 категоріальні змінні з 4 рівнями в кожному, у вас повинні бути коефіцієнти 3 * 4 = 12 для ваших незалежних змінних (плюс перехоплення) ...
boscovich

@andrea: Я вирішив трактувати їх як числові змінні.
Лев

4
0,02 ледь значущий (особливо якщо врахувати той факт, що у вас всього п'ять тестів), а 0,11 не дуже високий. Щедра інтерпретація полягала б у тому, що з трохи більшою потужністю загальний F-тест також був би значним (а може бути і першим коефіцієнтом). Більш консервативне тлумачення полягає в тому, що ви не повинні мати великої впевненості в будь-якому з цих результатів (включаючи коефіцієнт зі значенням .02 p). Так чи інакше, ви не повинні занадто багато читати в різниці між .02 та .11.
Гала-

3
Для обговорення протилежного випадку ви також можете побачити тут: наскільки регресія може бути суттєвою, але всі прогнози можуть бути несуттєвими , крім питання, пов'язаного вище.
gung - Відновити Моніку

Відповіді:


37

Я не впевнений, що тут відбувається мультиколінеарність. Це, безумовно, могло бути, але з наданої інформації я не можу зробити висновок про це, і я не хочу починати з цього місця. Перший мій припущення полягає в тому, що це може бути проблема декількох порівнянь. Тобто, якщо ви проведете достатню кількість тестів, щось з’явиться, навіть якщо там нічого немає.

Одне з питань, на яке я стикаюсь, полягає в тому, що проблема численних порівнянь завжди обговорюється з точки зору вивчення багатьох парних порівнянь, наприклад, проведення t-тестів на кожному унікальному парі рівнів. (Для жартівливого поводження з кількома порівняннями дивіться тут .) Це залишає у людей враження, що це єдине місце, де з’являється ця проблема. Але це просто не відповідає дійсності - проблема численних порівнянь виявляється скрізь. Наприклад, якщо ви запустили регресію з 4 пояснювальними змінними, існують ті самі проблеми. У добре розробленому експерименті ІV може бути ортогональним, але люди звичайно переживають за використання корекцій Бонферроні на множинах апріорі, ортогональних контрастів, і не замислюються двічі про факторні ANOVA. На мій погляд, це непослідовно.

Глобальний F-тест називається "одночасним" тестом. Це перевіряє, чи всі ваші прогнози не пов'язані зі змінною відповіді. Одночасний тест забезпечує певний захист від проблеми багаторазового порівняння без необхідності пройти втрату енергії Бонферроні. На жаль, моє тлумачення того, про що ви повідомляєте, полягає в тому, що у вас є нульова знахідка.

p.11


24

Я хотів би припустити, що це явище (несуттєва загальна перевірка, незважаючи на значну індивідуальну змінну), можна розуміти як певний сукупний "маскуючий ефект", і хоча воно, можливо, може виникнути з багатоклінічних пояснювальних змінних, цього не потрібно що зовсім. Також виявляється, що це не пов'язано з численними коригуваннями порівняння. Таким чином, ця відповідь додає певної кваліфікації до вже з'явлених відповідей, які навпаки говорять про те, що винуватці повинні розглядатися як мультиколінеарність, так і численні порівняння.

Щоб встановити правдоподібність цих тверджень, давайте генеруємо колекцію ідеально ортогональних змінних - настільки ж неколінеарних, наскільки це можливо - і залежної змінної, яка явно визначається виключно першим із пояснень (плюс хороша кількість випадкової помилки незалежно від усього іншого). У Rцьому можна зробити (відтворюється, якщо ви хочете експериментувати) як

set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)

Неважливо, що пояснювальні змінні є двійковими; Що важливо, це їх ортогональність, яку ми можемо перевірити, щоб переконатися, що код працює так, як очікувалося, що можна зробити, перевіривши їх кореляцію. Дійсно, кореляційна матриця цікава : малі коефіцієнти пропонують yмало спільного ні з однією зі змінних, крім першої (що за конструкцією), а позадіагональні нулі підтверджують ортогональність пояснювальних змінних:

> cor(cbind(x,y))
     Var1  Var2  Var3   Var4  Var5      y
Var1 1.00 0.000 0.000  0.000  0.00  0.486
Var2 0.00 1.000 0.000  0.000  0.00  0.088
Var3 0.00 0.000 1.000  0.000  0.00  0.044
Var4 0.00 0.000 0.000  1.000  0.00 -0.014
Var5 0.00 0.000 0.000  0.000  1.00 -0.167
y    0.49 0.088 0.044 -0.014 -0.17  1.000

Давайте проведемо ряд регресій , використовуючи лише першу змінну, потім перші дві тощо. Для стислості та простого порівняння я показую лише рядок першої змінної та загальний F-тест:

>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))

#              Estimate Std. Error t value Pr(>|t|)   
1  x[, 1:i]       0.898      0.294    3.05   0.0048 **
F-statistic: 9.29 on 1 and 30 DF,  p-value: 0.00478 

2  x[, 1:i]Var1    0.898      0.298    3.01   0.0053 **
F-statistic: 4.68 on 2 and 29 DF,  p-value: 0.0173 

3  x[, 1:i]Var1   0.8975     0.3029    2.96   0.0062 **
F-statistic: 3.05 on 3 and 28 DF,  p-value: 0.0451 

4  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0072 **
F-statistic: 2.21 on 4 and 27 DF,  p-value: 0.095 

5  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0073 **
F-statistic: 1.96 on 5 and 26 DF,  p-value: 0.118

Подивіться, як (a) значення першої змінної ледь змінюється, (a ') перша змінна залишається значною (p <.05) навіть при коригуванні для декількох порівнянь ( наприклад , застосувати Bonferroni шляхом множення номінального p-значення на кількість пояснювальних змінних), (б) коефіцієнт першої змінної ледь змінюється, але (в) загальна значущість зростає в експоненціальній формі, швидко надуваючись до несуттєвого рівня.

Я трактую це як демонстрацію, що включення пояснювальних змінних, які значною мірою не залежать від залежної змінної, може «замаскувати» загальне p-значення регресії. Коли нові змінні є ортогональними для існуючих та залежної змінної, вони не змінять окремі p-значення. (Невеликі зміни, що спостерігаються тут, полягають у тому, що випадкова помилка, яка додається до y, випадково злегка корелює з усіма іншими змінними.) Один урок, який випливає з цього, полягає в тому, що парсис є цінним : використання якомога менше змінних може посилити значення результати.

Я не кажу, що це обов'язково відбувається для набору даних у запитанні, про яке мало розкрито. Але знання про те, що цей ефект маскування може статися, повинно інформувати нашу інтерпретацію результатів, а також наші стратегії варіативного вибору та побудови моделі.


+1, я згоден з цим аналізом. FWIW, це пояснення, на яке я натякав (можливо, непогано) у своїй дискусії про владу у своїй відповіді на інше питання . У мене тут є питання щодо вашої версії, чому ви використовуєте 32 як середній термін помилки? Це помилка друку чи це важливо якимось чином?
gung - Відновіть Моніку

@gung Де ти бачиш 32? Якщо ви маєте на увазі rnorm(2^p, sd=2), зверніть увагу, що перший аргумент - це кількість термінів, а не середина. Середнє значення за замовчуванням дорівнює нулю, тому явно не вказано.
whuber

rnorm()N(мк,σ)

@gung Я вдячний за можливість уточнити код і тому відредагував рядок порушень.
whuber

11

У вас це часто трапляється, коли у вас є висока ступінь колінеарності серед пояснювальних змінних. ANOVA F - це спільний тест про те, що всі регресори спільно неінформативні. Коли ваші X містять подібну інформацію, модель не може віднести пояснювальну силу тому чи іншому регресору, але їх комбінація може пояснити велику кількість змін змінної відповіді.

х1у


Якщо колінеарність - це проблема, то у вас будуть високі стандартні помилки і, можливо, неймовірно великі коефіцієнти, можливо навіть з неправильними ознаками. Щоб переконатися, що саме це відбувається, обчисліть коефіцієнти дисперсії дисперсії (VIF) після регресії. Розумним правилом є те, що колінеарність - це проблема, якщо найбільший ВІФ більший за 10. Якщо так, то тут у вас є два варіанти. Одне полягає в тому, щоб повторно вказати модель для зменшення майжелінійної залежності, скинувши деякі ваші змінні. Друге - отримати більший та / або кращий (менш однорідний) зразок.
Мастеров Димитрій Васильович

1
(+1) Це пояснення є хорошим, але це зайве відношення явища до мультиколінеарності: ключове розмежування - спільно інформативне та індивідуально інформативне. Включення додаткових некорельованих регресорів (що дозволяє уникнути будь-якої мультиколінеарності) знижує перший, залишаючи останній незмінним.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.