Функція lm в R може роздрукувати оцінену коваріацію коефіцієнтів регресії. Що дає нам ця інформація? Чи можемо ми зараз краще інтерпретувати модель або діагностувати проблеми, які можуть бути присутніми в моделі?
Функція lm в R може роздрукувати оцінену коваріацію коефіцієнтів регресії. Що дає нам ця інформація? Чи можемо ми зараз краще інтерпретувати модель або діагностувати проблеми, які можуть бути присутніми в моделі?
Відповіді:
Найбільш основне використання коваріаційної матриці - це отримання стандартних помилок регресійних оцінок. Якщо дослідника цікавлять лише стандартні помилки самих окремих параметрів регресії, вони можуть просто взяти квадратний корінь діагоналі, щоб отримати окремі стандартні помилки.
Однак часто вас може зацікавити лінійна комбінація параметрів регресії. Наприклад, якщо у вас є змінна індикатора для даної групи, вас може зацікавити середнє значення групи, яке б було
.
Тоді, щоб знайти стандартну помилку для оціночного середнього значення для цієї групи, ви мали б
,
де - вектор ваших контрастів, а S - матриця коваріації. У нашому випадку, якщо ми маємо лише додавання коваріату "grp", то X = ( 1 , 1 ) ( 1 для перехоплення, 1 для належності до групи).
Крім того, матриця коваріації (або більше, кореляційна матриця, яка однозначно ідентифікована з коваріаційної матриці, але не навпаки) може бути дуже корисною для певної діагностики моделі. Якщо дві змінні сильно корелюються, один із способів подумати про це полягає в тому, що в моделі виникають труднощі з'ясувати, яка змінна відповідає за ефект (оскільки вони так тісно пов'язані). Це може бути корисно для цілого ряду випадків, таких як вибір підмножини коваріатів для використання в прогностичній моделі; якщо дві змінні сильно корелюються, можливо, ви хочете використовувати лише одну з двох у вашій прогнозній моделі.
Існує два "види" коефіцієнтів регресії:
Тепер подумайте, що означає коваріація. Візьмемо будь-які дві випадкові величини і Y . Якщо | C o v ( X , Y ) | є високим, тоді, коли ви малюєте велике абсолютне значення X, ви також можете розраховувати намалювати велике абсолютне значення Y в тому ж напрямку. Зауважимо, що "високий" тут відносно величини варіації X та Y , як зазначено в коментарях.
Щодо того, для чого це насправді використовується, відповідь Cliff AB - це хороший підсумок.