розуміння р-значення при множинній лінійній регресії


12

Щодо р-значення множинного лінійного регресійного аналізу, вступ із веб-сайту Minitab показано нижче.

Значення р для кожного терміна перевіряє нульову гіпотезу про те, що коефіцієнт дорівнює нулю (немає ефекту). Низьке p-значення (<0,05) вказує на те, що ви можете відхилити нульову гіпотезу. Іншими словами, передбачувач, який має низьке значення р, швидше за все, буде вагомим доповненням до вашої моделі, оскільки зміни значення передбачувача пов'язані зі змінами змінної відповіді.

Наприклад, у мене є результат MLR як . а виведене місце показано нижче. Тоді можна обчислити, використовуючи це рівняння.у=0,46753Х1-0,2668Х2+1.6193Х3+4,5424Х4+14.48у

            Estimate      SE        tStat       pValue  
               ________    ______    _________    _________

(Intercept)      14.48     5.0127       2.8886    0.0097836
x1             0.46753     1.2824      0.36458      0.71967
x2             -0.2668     3.3352    -0.079995      0.93712
x3              1.6193     9.0581      0.17877      0.86011
x4              4.5424     2.8565       1.5902       0.1292

Виходячи з вступу вище, нульовою гіпотезою є те, що коефіцієнт дорівнює 0. Я розумію, що коефіцієнт, наприклад коефіцієнт , буде встановлений як 0, а інший y обчислюється як . Потім проводиться парний t-тест для і , але p-значення цього t-тесту становить 6,9e-12, що не дорівнює 0,192 (p-значення коефіцієнта .Х4у2=0,46753Х1-0,2668Х2+1.6193Х3+0Х4+14.48уу2Х4

Хтось може допомогти у правильному розумінні? Дуже дякую!


Ви можете показати результат регресії рутини?
Аксакал

Ваш опис обчислення p-значення є нестандартним. Чому, на вашу думку, це слід обчислювати так, як ви описуєте? p-значення у виході обчислюється з матриці параметрів Var-Cov. Якщо ви хочете запустити тест обмеження, як-от Wald, це не так, як ви описуєте. Вам доведеться переоцінити модель за допомогою 3 змінних, отримати логічність і т. Д.
Aksakal

1
Відповідно до цього вступу, у вас є лише одна "значна" змінна - "перехоплення" -, оскільки лише її р-значення невелике. Щоб вийти за рамки наївної та оманливої ​​практики в цитаті, вам потрібно дізнатися більше про багаторазову регресію. Щоб побачити, що можна дізнатися з цього приводу, розгляньте відповідні теми на нашому сайті .
whuber

2
Перевірте відповіді на ці два питання: - stats.stackexchange.com/questions/5135/… та - stats.stackexchange.com/questions/126179/… Вони допомогли мені зрозуміти, як розраховуються значення p, сподіваюся, ви їх знайдете. корисно також.
Джакомо

Відповіді:


7

Це неправильно з кількох причин:

  1. Модель "без" X4 не обов'язково матиме однакові оцінки коефіцієнта для інших значень. Підійдіть до зменшеної моделі і переконайтеся самі.

  2. Y

  3. Статистичне випробування, яке проводиться для статистичної значущості коефіцієнта, є одноразовим t-випробуванням. Це заплутано, оскільки у нас немає "вибірки" множинних коефіцієнтів для X4, але ми маємо оцінку властивостей розподілу такого зразка, використовуючи центральну граничну теорему. Середня і стандартна помилка описують розташування та форму такого обмежуючого розподілу. Якщо ви берете стовпець "Est" і ділиться на "SE" і порівнюєте зі звичайним нормальним розподілом, це дає вам p-значення в 4-му стовпці.

  4. Четвертий момент: критика довідкової сторінки minitab. Такий файл довідки не міг у параграфі підсумувати роки статистичної підготовки, тому мені не потрібно суперечитись із цілою справою. Але сказати, що "провісник" є "важливим внеском", є невиразним і, ймовірно, невірним. Обґрунтування вибору змінних, які слід включити в багатоваріантну модель, є тонким і спирається на наукові міркування, а не на статистичні умовиводи.


0

Ваша початкова інтерпретація p-значень видається правильною, тобто лише перехоплення має коефіцієнт, що суттєво відрізняється від 0. Ви помітите, що оцінка коефіцієнта для x4 все ще досить висока, але є достатня помилка, що це не суттєво відрізняється від 0.

Ваш парний t-тест y1 та y2 говорить про те, що моделі відрізняються одна від одної. Цього можна очікувати, що в одну модель ви включили великий, але неточний коефіцієнт, який дуже багато сприяє вашій моделі. Немає підстав вважати, що p-значення цих моделей, що відрізняються одна від одної, має бути такою ж, як p-значення коефіцієнта x4, що відрізняється від 0.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.