Лінійна регресія та масштабування даних


10

Наступний графік показує коефіцієнти, отримані при лінійній регресії (з mpgцільовою змінною та всі інші як предиктори).

Для набору даних mtcars ( тут і тут ) як із масштабуванням даних, так і без них:

введіть тут опис зображення

Як я інтерпретую ці результати? Змінні hpта dispзначущі лише в тому випадку, якщо дані масштабуються. Це amі не qsecменш важливо чи amважливіше ніж qsec? Про яку змінну слід сказати важливі детермінанти mpg?

Дякуємо за ваше розуміння.


Якщо ви не заперечуєте, чи можете ви просто запустити кілька різних моделей і перехресно перевірити, які функції насправді важливі? Масштабування даних робиться, коли у нас дійсно дуже різні масштаби для різних стовпців, і вони погано відрізняються, від вашого сюжету (приємні сюжети), цілком зрозуміло, що масштабування допомогло моделі знайти реальне уявлення про дані як без масштабування, модель не має жодного варіанту, але надати більшу вагу змінній, яка має великі масштаби, за умови, що те, що ви прогнозуєте, теж трохи велике число ..
Aditya

Дякуємо за Ваш коментар до сюжету. Я не впевнений, що ви маєте на увазі під "запуском декількох різних моделей". Чи можете ви дізнатись, які особливості справді важливі, використовуючи деякі інші методи, такі як нейромережа, щоб потім можна було порівняти висновки лінійної регресії.
rnso

Вибачте за те, що я не розумію, що я мав на увазі випробувати різні алгоритми ml, як-от на основі дерева тощо, і порівняти всі їх функції.
Важливості

Відповіді:


4

Той факт, що коефіцієнти hp та disp низькі, коли дані не змінюють масштаб, і високі, коли дані масштабуються, означає, що ці змінні допомагають пояснити залежну змінну, але їх величина велика, тому коефіцієнти в немасштабному випадку повинні бути низькими.

З точки зору "важливості", я б сказав, що абсолютне значення коефіцієнтів у масштабованому випадку є хорошим показником важливості, більше, ніж у незакладеному випадку, оскільки там величина змінної також є актуальною, і вона повинна ні.

Звичайно, більш важливою змінною є мас.


4

Не можна реально говорити про значення в цьому випадку без стандартних помилок; вони масштабуються зі змінними та коефіцієнтами. Крім того, кожен коефіцієнт обумовлений іншими змінними в моделі, і колінеарність насправді, начебто, завищує значення hp та disp.

Зміна змінних змін взагалі не повинна змінювати значення результатів. Дійсно, коли я відміняв регресію (із змінними, як є, і нормалізувався шляхом віднімання середнього значення та ділення на стандартні помилки), кожна оцінка коефіцієнта (крім постійної) мала точно такий же t-stat, як і до масштабування, і F-тест загальної значимості залишився точно таким же.

Тобто, навіть коли всі змінні масштабуються із значенням нуля та дисперсією 1, немає одного розміру стандартної помилки для кожного з коефіцієнтів регресії, тому просто дивлячись на величину кожного коефіцієнта в стандартизована регресія все ще вводить в оману щодо важливості.

Як пояснив Девід Масіп, очевидний розмір коефіцієнтів має зворотну залежність від величини точок даних. Але навіть коли коефіцієнти розряду і к.с. величезні, вони все ще не суттєво відрізняються від нуля.

Насправді, hp і disp дуже корелюють один з одним, r = .79, тому стандартні похибки на цих коефіцієнтах особливо високі відносно величини коефіцієнта, оскільки вони настільки колінеарні. У цій регресії вони роблять дивне противагу, тому один має позитивний коефіцієнт, а інший - негативний; це здається випадком надмірного оздоблення і не здається осмисленим.

Хороший спосіб побачити, які змінні пояснюють найбільшу мінливість mpg - це (скоригований) R-квадрат. Буквально відсоток варіації у y пояснюється варіацією змінних x. (Коригування R-квадрата включає незначне покарання за кожну додаткову х змінну в рівнянні, щоб врівноважити надмірний розмір.)

Хороший спосіб зрозуміти, що важливо - зважаючи на інші змінні - це подивитися на зміну скоригованого R-квадрата, коли ви не зміните цю змінну з регресії. Ця зміна - відсоток дисперсії залежної змінної, що пояснює цей фактор, після постійного утримання інших змінних. (Формально ви можете перевірити, чи мають значення залишені змінні F-тест ; саме так працюють ступінчасті регресії для вибору змінних.)

Щоб проілюструвати це, я провів поодинокі лінійні регресії для кожної зі змінних окремо, передбачивши mpg. Сама змінна wt пояснює 75,3% варіації mpg, і жодна змінна не пояснює більше. Однак багато інших змінних співвідносяться з wt і пояснюють деякі з цих же варіацій. (Я використав надійні стандартні помилки, які можуть призвести до незначних відмінностей у стандартних обчисленнях помилок і значущості, але не вплинуть на коефіцієнти або R-квадрат.)

+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+

Коли всі змінні знаходяться там разом, R-квадрат дорівнює 0,869, а скоригований R-квадрат 0,807. Отже, додавання ще 9 змінних для приєднання до wt просто пояснює ще 11% варіації (або лише на 5% більше, якщо ми виправляємо переоцінку). (Багато змінних пояснювали деякі ті ж зміни в mpg, що й мас.) І в цій повній моделі єдиний коефіцієнт зі значенням p нижче 20% - мас, при p = 0,089.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.