Рідкість, відкидаючи коефіцієнт найменших квадратів


14

Припустимо, я хочу регресувати на нормалізованому , але я хотів би розріджене рішення. Після регресії, чому відкидання коефіцієнтів з найменшою величиною не допускається?YX

Для запису я чув і часто використовую методи ЛАРС та ЛАССО. Мені просто цікаво, чому вищезазначений підхід не застосовується.


2
+1 Ці прості питання можуть бути важкими - вони змушують задуматися над основними поняттями.
whuber

Відповіді:


14

Не було б жодної проблеми, якби була ортонормальною. Однак можливість сильної кореляції між пояснювальними змінними повинна дати нам паузу.X

Якщо врахувати геометричну інтерпретацію регресії найменших квадратів , контрприклади легко підійти. Візьміть щоб, скажімо, були майже нормально розподілені коефіцієнти, а майже паралельно йому. Нехай є ортогональним до площини, породженої та . Ми можемо передбачити який знаходиться в основному в напрямку , але він зміщений відносно невеликою кількістю від початку в площині . Оскільки і майже паралельні, то його компоненти в цій площині можуть мати великі коефіцієнти, що призводить до того, що ми падаємоX1X2X3X1X2YX3X1,X2X1X2X3 , що було б величезною помилкою.

Геометрію можна відтворити за допомогою моделювання, такого, як це здійснюється за допомогою цих Rобчислень:

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

Дисперсії досить близькі до щоб ми могли перевірити коефіцієнти пристосувань як проксі для стандартизованих коефіцієнтів. У повній моделі коефіцієнти дорівнюють 0,99, -0,99 і 0,1 (усі дуже значущі), причому найменший (на сьогоднішній день) пов'язаний з . Залишкова стандартна помилка 0,00498. У зменшеній ("розрідженій") моделі залишкова стандартна помилка, що становить 0,09803, в разів більша: величезне збільшення, що відображає втрату майже всієї інформації про від падіння змінної з найменшим стандартизованим коефіцієнтом. впала зXi1X320YR20.9975майже до нуля. Жоден коефіцієнт не є значущим на кращому рівні .0.38

Матриця розсіювання розкриває всі:

Матриця розсіювання x1, x2, x3 і y

Сильна кореляція між та зрозуміла з лінійних вирівнювань точок праворуч внизу. Погана кореляція між та та та однаково чітка з кругового розсіювання на інших панелях. Тим не менш, найменший стандартизований коефіцієнт належить до х 3, а не до х 1 або х 2 .x3yx1yx2yx3x1x2


2

Мені здається, що якщо розрахунковий коефіцієнт близький до 0 і дані нормалізуються, прогнозування не зашкодить, відкинувши змінну. Звичайно, якби коефіцієнт не був статистично значущим, здавалося б, не було б проблем. Але це потрібно робити обережно. IV можуть бути співвіднесені, а вилучення одного може змінити коефіцієнти інших. Це стає більш небезпечним, якщо ви почнете переробляти кілька змінних таким чином. Процедури вибору підмножини призначені для уникнення подібних проблем та використання розумних критеріїв включення та виключення змінних. Якщо ви запитаєте Френка Гаррелла, він буде проти поетапних процедур. Ви згадуєте ЛАРС та ЛАССО - два дуже сучасних методу. Але є й багато інших, включаючи інформаційні критерії, які стримують введення занадто багато змінних.

Якщо ви спробуєте процедуру вибору підмножини, яка була ретельно вивчена з великою кількістю літератури про неї, ви, ймовірно, виявите, що це призведе до рішення, яке відновить змінні з малими коефіцієнтами, особливо якщо вони не зможуть тест статистично істотно відрізнятися від 0.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.