Не можна реально говорити про значення в цьому випадку без стандартних помилок; вони масштабуються зі змінними та коефіцієнтами. Крім того, кожен коефіцієнт обумовлений іншими змінними в моделі, і колінеарність насправді, начебто, завищує значення hp та disp.
Зміна змінних змін взагалі не повинна змінювати значення результатів. Дійсно, коли я відміняв регресію (із змінними, як є, і нормалізувався шляхом віднімання середнього значення та ділення на стандартні помилки), кожна оцінка коефіцієнта (крім постійної) мала точно такий же t-stat, як і до масштабування, і F-тест загальної значимості залишився точно таким же.
Тобто, навіть коли всі змінні масштабуються із значенням нуля та дисперсією 1, немає одного розміру стандартної помилки для кожного з коефіцієнтів регресії, тому просто дивлячись на величину кожного коефіцієнта в стандартизована регресія все ще вводить в оману щодо важливості.
Як пояснив Девід Масіп, очевидний розмір коефіцієнтів має зворотну залежність від величини точок даних. Але навіть коли коефіцієнти розряду і к.с. величезні, вони все ще не суттєво відрізняються від нуля.
Насправді, hp і disp дуже корелюють один з одним, r = .79, тому стандартні похибки на цих коефіцієнтах особливо високі відносно величини коефіцієнта, оскільки вони настільки колінеарні. У цій регресії вони роблять дивне противагу, тому один має позитивний коефіцієнт, а інший - негативний; це здається випадком надмірного оздоблення і не здається осмисленим.
Хороший спосіб побачити, які змінні пояснюють найбільшу мінливість mpg - це (скоригований) R-квадрат. Буквально відсоток варіації у y пояснюється варіацією змінних x. (Коригування R-квадрата включає незначне покарання за кожну додаткову х змінну в рівнянні, щоб врівноважити надмірний розмір.)
Хороший спосіб зрозуміти, що важливо - зважаючи на інші змінні - це подивитися на зміну скоригованого R-квадрата, коли ви не зміните цю змінну з регресії. Ця зміна - відсоток дисперсії залежної змінної, що пояснює цей фактор, після постійного утримання інших змінних. (Формально ви можете перевірити, чи мають значення залишені змінні F-тест ; саме так працюють ступінчасті регресії для вибору змінних.)
Щоб проілюструвати це, я провів поодинокі лінійні регресії для кожної зі змінних окремо, передбачивши mpg. Сама змінна wt пояснює 75,3% варіації mpg, і жодна змінна не пояснює більше. Однак багато інших змінних співвідносяться з wt і пояснюють деякі з цих же варіацій. (Я використав надійні стандартні помилки, які можуть призвести до незначних відмінностей у стандартних обчисленнях помилок і значущості, але не вплинуть на коефіцієнти або R-квадрат.)
+------+-----------+---------+----------+---------+----------+-------+
| | coeff | se | constant | se | adj R-sq | R-sq |
+------+-----------+---------+----------+---------+----------+-------+
| cyl | -0.852*** | [0.110] | 0 | [0.094] | 0.717 | 0.726 |
| disp | -0.848*** | [0.105] | 0 | [0.095] | 0.709 | 0.718 |
| hp | -0.776*** | [0.154] | 0 | [0.113] | 0.589 | 0.602 |
| drat | 0.681*** | [0.123] | 0 | [0.132] | 0.446 | 0.464 |
| wt | -0.868*** | [0.106] | 0 | [0.089] | 0.745 | 0.753 |
| qsec | 0.419** | [0.136] | 0 | [0.163] | 0.148 | 0.175 |
| vs | 0.664*** | [0.142] | 0 | [0.134] | 0.422 | 0.441 |
| am | 0.600*** | [0.158] | 0 | [0.144] | 0.338 | 0.360 |
| gear | 0.480* | [0.178] | 0 | [0.158] | 0.205 | 0.231 |
| carb | -0.551** | [0.168] | 0 | [0.150] | 0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+
Коли всі змінні знаходяться там разом, R-квадрат дорівнює 0,869, а скоригований R-квадрат 0,807. Отже, додавання ще 9 змінних для приєднання до wt просто пояснює ще 11% варіації (або лише на 5% більше, якщо ми виправляємо переоцінку). (Багато змінних пояснювали деякі ті ж зміни в mpg, що й мас.) І в цій повній моделі єдиний коефіцієнт зі значенням p нижче 20% - мас, при p = 0,089.