У простому випадку лінійної регресії можна отримати оцінку найменшого квадрата таким чином, що вам не потрібно знати щоб оцінювати
Припустимо , що у мене , як я вивести β 1 без оцінки β 2 ? чи це неможливо?
У простому випадку лінійної регресії можна отримати оцінку найменшого квадрата таким чином, що вам не потрібно знати щоб оцінювати
Припустимо , що у мене , як я вивести β 1 без оцінки β 2 ? чи це неможливо?
Відповіді:
Виведення в матричному позначенні
Починаючи з , що насправді так само, як
все зводиться до мінімізації :
Таким чином, мінімізація дає нам:
e ′ e = ( y - X b ) ′ ( y - X b )
e ′ e = y ′ y - 2 b ′ X ′ y + b ′ X ′ X b
Остання остання математична річ, умова другого порядку для мінімуму вимагає, щоб матриця була позитивно визначеною. Ця вимога виконується у випадку, якщо X має повний ранг.
Більш точне виведення, яке проходить усі кроки в більшій кількості, можна знайти в розділі http://economictheoryblog.com/2015/02/19/ols_estimator/
*
бути a +
? Крім того, чи не має бути замість b N, щоб розміри відповідали?
Можна оцінити лише один коефіцієнт у множинній регресії без оцінки інших.
Оцінка отримується шляхом видалення ефектів x 2 з інших змінних, а потім регресування залишків y відносно залишків x 1 . Це пояснено та проілюстровано. Як саме один елемент керує іншими змінними? і Як нормалізувати (а) коефіцієнт регресії? . Краса такого підходу полягає в тому, що він не вимагає обчислення, не має лінійної алгебри, не може бути візуалізований за допомогою просто двовимірної геометрії, чисельно стійкий і використовує лише одне фундаментальне уявлення про множину регресії: виведення (або "контроль за") ) наслідки однієї змінної.
У цьому випадку множинна регресія може бути здійснена за допомогою трьох звичайних етапів регресії:
Регресуйте на x 2 (без постійного члена!). Нехай відповідність y = α y , 2 x 2 + δ . Оцінка дорівнює α y , 2 = ∑ i y i x 2 i Тому залишкиδ=y-αy,2x2. Геометричноδ- те, що залишилося відyпісля його проекції наx2віднімається.
Регресуйте на x 2 (без постійного члена). Нехай відповідність буде x 1 = α 1 , 2 x 2 + γ . Оцінка дорівнює α 1 , 2 = ∑ i x 1 i x 2 iЗалишкиγ=x1-α1,2x2. Геометричноγ- те, що залишилося відx1післявідніманняйого проекції наx2.
Регресуємо на γ (без постійного члена). Оцінка β 1 = Σ я δ я γ яФорма будеδ= β 1γ+ε. Геометричний, & beta ; 1являє собою компонентб(який представляєусї2вивезено) вгамманапрямку (це може бутий1зї2виймає).
Зауважте, що не був оцінений. Він легко може бути витягнутий з того , що було отримано до сих пір (так само , як β 0 в звичайному випадку регресивного легко виходить з оцінки нахилу β 1 ). В ε є залишки для двовимірної регресії у по х 1 і х 2 .
Паралель зі звичайною регресією сильна: етапи (1) і (2) є аналогами віднімання засобів у звичайній формулі. Якщо ви дозволите, що є вектором одиниць, ви фактично відновите звичайну формулу.
Це узагальнюється очевидним чином до регресії з більш ніж двома змінними: для оцінки β 1 , регресу у і х 1 окремо від усіх інших змінних, то регрес їх залишки один проти одного. На той момент жоден з інших коефіцієнтів у множинній регресії у досі не був оцінений.
One small minor note on theory vs. practice. Mathematically can be estimated with the following formula:
where is the original input data and is the variable that we want to estimate. This follows from minimizing the error. I will proove this before making a small practical point.
Let be the error the linear regression makes at point . Then:
The total squared error we make is now:
Because we have a linear model we know that:
Which can be rewritten in matrix notation as:
We know that
We want to minimize the total square error, such that the following expression should be as small as possible
This is equal to:
The rewriting might seem confusing but it follows from linear algebra. Notice that the matrices behave similar to variables when we are multiplying them in some regards.
We want to find the values of such that this expression is as small as possible. We will need to differentiate and set the derivative equal to zero. We use the chain rule here.
This gives:
Such that finally:
So mathematically we seem to have found a solution. There is one problem though, and that is that is very hard to calculate if the matrix is very very large. This might give numerical accuracy issues. Another way to find the optimal values for in this situation is to use a gradient descent type of method. The function that we want to optimize is unbounded and convex so we would also use a gradient method in practice if need be.
Просте виведення можна здійснити просто за допомогою геометричної інтерпретації LR.
Лінійну регресію можна інтерпретувати як проекцію на простір стовпця . Таким чином, помилка, є ортогональним для простору стовпців .
Тому внутрішній продукт між і похибка повинна бути 0, тобто
Що означає, що
.
Тепер те ж саме можна зробити:
(1) Проектування на (помилка ), ,
(2) Проектування на (помилка ), ,
і, нарешті,
(3) Проектування на ,