Якщо є повним рангом, існує обернена , і ми отримуємо оцінку найменших квадратів: таХ Т Х β = ( Х Т Х ) - 1 х Y вар ( β ) = σ 2 ( Х Т Х ) - 1
Як можна інтуїтивно пояснити у формулі дисперсії? Техніка виведення для мене зрозуміла.
Якщо є повним рангом, існує обернена , і ми отримуємо оцінку найменших квадратів: таХ Т Х β = ( Х Т Х ) - 1 х Y вар ( β ) = σ 2 ( Х Т Х ) - 1
Як можна інтуїтивно пояснити у формулі дисперсії? Техніка виведення для мене зрозуміла.
Відповіді:
Розглянемо просту регресію без постійного терміну, і там, де одиничний регресор зосереджений на середній вибірці. Тоді - це ( разів) дисперсія вибірки, а її реципрок. Отже, чим вище дисперсія = мінливість у регресорі, тим менша дисперсія оцінювача коефіцієнтів: чим більше мінливості у нас в пояснювальній змінній, тим точніше ми можемо оцінити невідомий коефіцієнт.
Чому? Тому що чим регрессор більше варіюється, тим більше інформації він містить. Коли регресорів багато, це узагальнюється до оберненої їх дисперсійно-коваріаційної матриці, яка також враховує ко-мінливість регресорів. У крайньому випадку, коли - діагональна, точність кожного розрахункового коефіцієнта залежить лише від дисперсії / змінності асоційованого регресора (враховуючи дисперсію терміна помилки).
Простий спосіб перегляду є матричним (багатофакторним) аналогом , що є дисперсією коефіцієнта нахилу в простому регресії OLS. Можна навіть отримати за цю дисперсію, опустивши перехоплення в моделі, тобто виконавши регресію через початок.σ 2 σ2
З будь-якої з цих формул видно, що більша мінливість змінної предиктора в цілому призведе до більш точної оцінки її коефіцієнта. Ця ідея часто використовується при розробці експериментів, де, вибираючи значення для (невипадкових) прогнокторів, намагається зробити визначник якомога більше, визначальним є міра мінливості.
Чи допомагає лінійне перетворення Гауссової випадкової величини? Використовуючи правило, що якщо , то .A x + b ∼ N ( A μ + b , A T Σ A )
Якщо припустити, що є базовою моделлю і .ϵ ∼ N ( 0 , σ 2 )
Таким чином просто складна матриця масштабування , яка перетворює розподіл . Y
Сподіваюся, що це було корисно.
Я буду іншим підходом до розвитку інтуїції, яка лежить в основі формули . Розробляючи інтуїцію для моделі множинної регресії, корисно розглянути модель двовимірної лінійної регресії, а саме. , часто називають детермінованим внеском у , а називають стохастичним внеском. Виражена у вигляді відхилень від вибіркового засобу , ця модель також може бути записана якгя=α+βхя+εя,α + β x i y i ε i ( ˉ x , ˉ y ) ( y i - ˉ y ) = β ( x i - ˉ x ) + ( ε i - ˉ ε ) ,
Щоб допомогти розвинути інтуїцію, будемо вважати, що найпростіші припущення Гаусса-Маркова задовольняються: нестахастичні, для всіх , і для всіх . Як ви вже добре знаєте, ці умови гарантують, що де - вибіркова дисперсія . Словом, ця формула передбачає три твердження: "Дисперсія обернено пропорційна розміру вибірки , вона прямо пропорційна дисперсії∑ n i = 1 ( x i - ˉ x ) 2 > 0 n ε i ∼ iid ( 0 , σ 2 )Varвар
Чому слід подвоїти розмір зразка, ceteris paribus , змусити дисперсію розрізати навпіл? Цей результат тісно пов'язаний з н.о.р. припущення , прикладеного до : Оскільки окремі помилки передбачаються IID, кожне спостереження слід розглядати попереджуючий як в рівній мірі інформативно. І подвоєння кількості спостережень подвоює кількість інформації про параметри, що описують (припускається лінійний) зв’язок між і ; & epsiхуσ2 & beta ;. Маючи вдвічі більше інформації скорочує невизначеність щодо параметрів навпіл. Точно так само слід розвинути інтуїцію, чому подвоєння також подвоює дисперсію .
Звернемо, то, на ваш головне питання, яке про розвиток інтуїції для затвердження , що дисперсія є обернено пропорційною до дисперсії . Для формалізації понять розглянемо дві окремі двовимірні лінійні регресійні моделі, звані відтепер Модель та Модель . Будемо вважати, що обидві моделі задовольняють припущення про найпростішу форму теореми Гаусса-Маркова і що моделі мають однакові значення , , і . Згідно з цими припущеннями, це легко показати ; х(1)(2)& alpha& betaпσ-E ; на словах, обидва оцінювачі є неупередженими. Принципово важливо також припустити, що тоді як , . Не втрачаючи загальності, припустимо, що . Який оцінювач матиме меншу дисперсію? Інакше кажучи, чи чи в середньому ближче до ? З попереднього обговорення ми маємодля . Оскільки за припущенням, випливає, що . Яка ж інтуїція стоїть за цим результатом?
Оскільки за припущенням , в середньому кожен буде далі від ніж у середньому для . Позначимо очікувану середню абсолютну різницю між та через . Припущення, що означає, що . Біваріантна лінійна регресійна модель, виражена у відхиленнях від середніх , визначає, що для моделі і для моделі . Якщо , це означає , що детермінований компонент моделі , , має більший вплив на , ніж робить детермінований компонент моделі , . Нагадаємо, що обидві моделі передбачаються, що задовольняють припущення Гаусса-Маркова, що відхилення помилок однакові в обох моделях, і що . Оскільки модель надає більше інформації про внесок детермінованої складової ніж модель , то випливає, що точністьз якою детермінований внесок можна оцінити більше для Моделі ніж для Моделі . Обернення більшої точності - менша дисперсія оцінки балів .
Досить просто узагальнити інтуїцію, отриману при вивченні простої регресійної моделі, до загальної множинної лінійної регресійної моделі. Основне ускладнення полягає в тому, що замість порівняння скалярних дисперсій необхідно порівнювати "розмір" дисперсійно-коваріаційних матриць. Маючи хороші знання про визначники, сліди та власні значення реальних симетричних матриць, на цей момент дуже зручно :-)
Скажімо, у нас є спостережень (або розмір вибірки) та параметрів.
Матриця коваріації ім'я оцінюваних параметрів тощо є поданням точності оцінюваних параметрів.
Якщо в ідеальному світі дані можуть бути ідеально описані моделлю, то шум буде . Тепер діагональні записи відповідають тощо. Отримана формула дисперсії узгоджується з інтуїцією, що якщо шум буде нижчим, оцінки будуть більш точними.
Крім того, у міру збільшення кількості вимірювань дисперсія оцінюваних параметрів зменшиться. Отже, загальне абсолютне значення записів буде вище, оскільки кількість стовпців дорівнює а кількість рядків дорівнює , а кожен запис - це сума пар продуктів. Абсолютне значення записів зворотного буде нижчим.X T n X n X T X n ( X T X ) - 1
Отже, навіть якщо шуму багато, ми все одно можемо досягти хороших оцінок параметрів якщо збільшити розмір вибірки . н
Я сподіваюся, що це допомагає.
Довідка: Розділ 7.3 про найменші квадрати: Косентіно, Карло та Деклан Бейтс. Контроль зворотного зв'язку в біології систем. Crc Press, 2011.
Це ґрунтується на відповіді @Alecos Papadopuolos.
Нагадаємо, що результат регресії найменших квадратів не залежить від одиниць вимірювання змінних. Припустимо, ваша X-змінна - це вимірювання довжини, подане в дюймах. Тоді зміна шкали X, скажімо, множення на 2,54, щоб змінити одиницю на сантиметри, істотно не впливає на речі. Якщо ви повторно встановите модель, новою оцінкою регресії буде стара оцінка, поділена на 2,54.
матриця дисперсія X, і , отже , відображає масштаб вимірювання X. Якщо змінити масштаб, ви повинні відобразити це в вашій оцінці , і це робиться шляхом множення на зворотній частині .β X ′ X