Коли найменше квадратів буде поганою ідеєю?


11

Якщо у мене є модель регресії:

Y=Xβ+ε
де V[ε]=IdRn×n і E[ε]=(0,,0) ,

коли використання βOLS , звичайного оцінювача найменших квадратів β , буде поганим вибором для оцінки?

Я намагаюся з’ясувати приклад, чи мало квадратів працює погано. Тому я шукаю розподіл помилок, який задовольняє попередню гіпотезу, але дає погані результати. Якби сімейство розподілу визначалося середнім значенням та дисперсією, це було б чудово. Якщо ні, то це теж добре.

Я знаю, що "погані результати" трохи розпливчасті, але я думаю, що ідея є зрозумілою.

Просто щоб уникнути плутанини, я знаю, що найменші квадрати не є оптимальними, і що є кращі оцінки, такі як регресія хребта. Але це не те, на що я прагну. Я хочу, щоб приклад якнайменших квадратів був би неприродним.

Я можу собі уявити такі речі, як вектор помилки ϵ живе в непуклій області Rn , але я не впевнений у цьому.

Редагувати 1: Як ідея допомогти відповісти (що я не можу зрозуміти, як зробити далі). βOLS - СВІЙ. Тож це може допомогти подумати, коли лінійний неупереджений оцінювач не буде гарною ідеєю.

Редагування 2: Як зазначив Брайан, якщо XX погано обумовлений, то βOLS є поганою ідеєю, оскільки дисперсія занадто велика, а замість неї слід використовувати регрес хребта. Мені більше цікаво дізнатись, який розподіл повинен бути ε , щоб змусити роботу мінімум квадратів.

βOLSβ+(XX)1Xε Чи існує розподіл із матрицею дисперсії середнього нуля та тотожності дляε що робить цей оцінювач неефективним?


1
Я не хочу звучати суворо, але я не зовсім впевнений, що ти хочеш. Є багато способів, як щось може бути поганим вибором. Зазвичай ми оцінюємо оцінювачі в таких речах, як упередженість , дисперсія , стійкість та ефективність . Наприклад, як зазначаєте, Оцінювач OLS - БЛІТИЙ .
gung - Відновіть Моніку

1
ОТОН, дисперсія може бути настільки великою, що бути марною, що робить нижчу дисперсію, але упереджений оцінювач, як гребінь. Іншим прикладом є те, що OLS максимально використовує всю інформацію у ваших даних, але це робить її сприйнятливою до людей, що втратили досвід. Є багато альтернативних функцій втрат, які є більш надійними, намагаючись підтримувати ефективність. Можливо, буде зрозуміліше, якби ви могли переосмислити своє запитання в таких термінах. Я не знаю, що для оцінювача означає бути "неприродним".
gung - Відновіть Моніку

Дякую за ваш коментар, це змусило мене зрозуміти неоднозначність питання. Я сподіваюсь, що зараз зрозуміліше
Мануель

Дивіться регресію в цій відповіді . Коротше кажучи: впливові люди, що переживають, можуть бути проблемою.
Glen_b -Встановіть Моніку

Відповіді:


8

Відповідь Брайана Борчера є досить хорошою - дані, які містять дивні люди, які часто не є аналогічними, часто не аналізуються OLS. Я просто розширюю це питання, додавши зображення, Монте-Карло та деякий Rкод.

Розглянемо дуже просту модель регресії:

Yi=β1xi+ϵi ϵi={N(0,0.04)w.p.0.99931w.p.0.000531w.p.0.0005

Ця модель відповідає вашим налаштуванням з коефіцієнтом нахилу 1.

Вкладений графік показує набір даних, що складається з 100 спостережень за цією моделлю, при цьому змінна x працює від 0 до 1. У складеному наборі даних є один малюнок на помилку, яка виходить із значенням зовнішнього значення (+31 в цьому випадку) . Також нанесені лінії регресії OLS в синьому кольорі і найменш абсолютні відхилення відхилення в червоному кольорі. Зверніть увагу, як OLS, але не LAD спотворює аутлер:

OLS проти LAD з аутлером

xϵR

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

І OLS, і LAD дають неупереджені оцінки (нахили в середньому на 1 000 копій в середньому 1,00). OLS виробляє оцінку зі значно більшим стандартним відхиленням, однак, 0,34 проти 0,09. Таким чином, OLS тут не найкращий / найефективніший серед неупереджених оцінювачів. Це все-таки СВІТЕ, звичайно, але LAD не є лінійним, тому немає протиріччя. Зауважте, що динамічні помилки OLS можуть робити у стовпці "Min" та "Max". Не так ЛАД.

Ось код R як для графіка, так і для Монте-Карло:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)

@Manuel Спасибі Я помітив помилку в моїй програмі R --- там було 0,04, де мав бути sqrt (0,04). Це не змінило пориву відповіді. Це мало змінило результати. Однак якщо ви скопіювали код раніше, його слід скопіювати ще раз.
Білл

7

Одним із прикладів може бути те, коли ви не хочете оцінювати середнє значення. Це з'явилося в роботі, яку я робив там, де ми оцінювали кількість секс-партнерів, які були в рамках моделювання поширення ВІЛ / СНІДу. Інтерес до хвостів розповсюдження був більший: у кого багато партнерів?

У цьому випадку ви можете захотіти кількісну регресію; на мою думку, недостатньо використаний метод.


β

Y

Так, я мав на увазі середнє значення Y. Саме таким є регресія OLS.
Пітер Флом

(xa)2+(xb)2L1

6

X

ϵ

ϵβ


ε

1
Крім того, Гаусс-Марков гарантує, що найменші квадрати будуть мінімальною дисперсійною неупередженою оцінкою серед лінійних. Можливо, лінійні оцінювачі не піддаються певному розподілу. Це я хочу зрозуміти.
Мануель

ϵi=0ϵi=1000.00005ϵi=1000.00005X=Iβϵ

X=1β=0β^

Я вірю, що ваш другий коментар - це те, що я шукаю. Мене просто турбує низька ймовірність того, що станеться. Також із цього прикладу досить зрозуміло, як побудувати кращий оцінювач, коли знають розподіл помилок.
Мануель
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.