Коли упереджений оцінювач кращий перед неупередженим?


38

Очевидно, що багато разів віддають перевагу неупередженому оцінювачу. Але чи існують обставини, за яких ми могли б насправді віддавати перевагу упередженому оцінювачу перед неупередженим?



12
Насправді мені не очевидно, чому варто віддати перевагу об'єктивному оцінювачу. Упередженість - це як бугеман у статистичних книгах, що створює непотрібний страх серед студентів статистики. Насправді інформаційно-теоретичний підхід до навчання завжди призводить до упередженого оцінювання в малих вибірках і є узгодженим в межах межі.
Cagdas Ozgenc

4
У мене були клієнти (особливо у судових справах), які б сильно віддавали перевагу упередженим оцінювачам, за умови, що зміщення було систематично на їх користь!
whuber

2
Розділ 17.2 ("Об'єктивні оцінки") Теорії ймовірностей Джейнеса: Логіка науки - це дуже проникливе обговорення із прикладами того, чи є ухил оцінювача насправді чи не важливим, і чому упереджений може бути кращим (у рядок із чудовою відповіддю Chaconne нижче).
pglpm

1
Якщо я можу підсумувати відповідь Чаконе-Джейнеса: "неупереджений" оцінювач може помилитися праворуч або ліворуч від справжнього значення рівними сумами; "упереджений" може помилятися більше праворуч, ніж ліворуч або навпаки. Але похибка неупередженого, хоч і симетрична, але може бути набагато більшою, ніж упереджена. Дивіться першу фігуру Чакон. У багатьох ситуаціях набагато важливіше, щоб оцінювач мав невелику помилку, а не щоб ця помилка була симетричною.
pglpm

Відповіді:


51

Так. Часто буває так, що ми зацікавлені в мінімізації середньої помилки квадрата, яку можна розкласти на дисперсію + квадратичне зміщення . Це надзвичайно фундаментальна ідея в машинному навчанні та статистиці загалом. Часто ми бачимо, що невелике збільшення зміщення може спричинити досить велике зменшення дисперсії, яке зменшує загальний рівень ПДЧ.

Стандартний приклад - регресія хребта. Ми маємо β R = ( Х Т Х + λ I ) - 1 х Т У , який зміщений; але якщо Х погано обумовлена , то V в г ( β ) α ( Х Т Х ) - 1 може бути жахливо тоді V г ( β R ) може бути набагато скромнішими.β^R=(ХТХ+λЯ)-1ХТYХVаr(β^)(ХТХ)-1Vаr(β^R)

Інший приклад - класифікатор kNN . Подумайте про : ми призначимо нову точку своєму найближчому сусідові. Якщо у нас є тонна даних і лише кілька змінних, ми, ймовірно, можемо відновити істинну межу рішення, і наш класифікатор є неупередженим; але для будь-якого реалістичного випадку, ймовірно, що k = 1 буде набагато надто гнучким (тобто мати занадто велику дисперсію), і тому невеликий ухил не варто (тобто MSE більший, ніж більш упереджені, але менш змінні класифікатори).к=1к=1

Нарешті, ось малюнок. Припустимо, що це вибіркові розподіли двох оцінювачів, і ми намагаємося оцінити 0. Плоский один є неупередженим, але також набагато більш змінним. В цілому, я думаю, що я вважаю за краще скористатися упередженим, оскільки, хоча в середньому ми не будемо коректними, для будь-якого окремого примірника цього оцінювача ми будемо ближче.

зміщення-дисперсія

 
Оновлення

Я згадую числові проблеми, які трапляються, коли погано обумовлено, і як допомагає регресія хребта. Ось приклад.Х

Я створюю матрицю яка дорівнює 4 × 3, а третій стовпець майже весь 0, це означає, що це майже не повний ранг, а це означає, що X T X насправді близький до того, що він є єдиним.Х4×3ХТХ

x <- cbind(0:3, 2:5, runif(4, -.001, .001)) ## almost reduced rank

> x
     [,1] [,2]        [,3]
[1,]    0    2 0.000624715
[2,]    1    3 0.000248889
[3,]    2    4 0.000226021
[4,]    3    5 0.000795289

(xtx <- t(x) %*% x) ## the inverse of this is proportional to Var(beta.hat)

           [,1]        [,2]        [,3]
[1,] 14.0000000 26.00000000 3.08680e-03
[2,] 26.0000000 54.00000000 6.87663e-03
[3,]  0.0030868  0.00687663 1.13579e-06

eigen(xtx)$values ## all eigenvalues > 0 so it is PD, but not by much

[1] 6.68024e+01 1.19756e+00 2.26161e-07


solve(xtx) ## huge values

           [,1]        [,2]        [,3]
[1,]   0.776238   -0.458945     669.057
[2,]  -0.458945    0.352219    -885.211
[3,] 669.057303 -885.210847 4421628.936

solve(xtx + .5 * diag(3)) ## very reasonable values

             [,1]         [,2]         [,3]
[1,]  0.477024087 -0.227571147  0.000184889
[2,] -0.227571147  0.126914719 -0.000340557
[3,]  0.000184889 -0.000340557  1.999998999

Оновлення 2

Як було обіцяно, ось більш ретельний приклад.

Х1,...,Хн iiг N(мк,σ2)мк

Т1(Х1,...,Хн)=Х1мкнмкТ1

Т1Т2(Х1,...,Хн)=Х1+Х22Тн(Х1,...,Хн)=Х1+...+ХннVаr(Т1)=σ2Vаr(Т2)=σ22Vаr(Тн)=σ2нн>2 Тн

ТθМSЕ(Т)=Е((Т-θ)2)МSЕ(Т)=Vаr(Т)+Бiас(Т)2Бiас(Т)=Е(Т)-θ

ТМSЕ(Т)=Vаr(Т)=Бiас(Т)2=Vаr(Т)

Vаr(Т)+Бiас(Т)2Бiас(Т)=0Т

θТ1Т5Т1Т5Т1Т5θТ1Т5Т3Т1

VBtradeoff

Тλ(Х,Y)=(ХТХ+λЯ)-1ХТYλТλ


Малюнок - єдиний, який я зрозумів. У вас є легші приклади, які відповідають малюнку? Які оцінювачі мали б ці форми?
Стен Шунпік

Я опублікую більш детальний приклад завтра.
jld

@StanShunpike Я додав тривале оновлення. Будь ласка, дайте мені знати, якщо це допомагає з’ясувати речі.
jld

Напевно, найбільше зусиль хтось доклав, щоб відповісти на одне з моїх запитань. Дуже дякую.
Стен Шунпік

1
@olivia Я не можу придумати жодного нетривіального випадку, коли упередженість є єдиним критерієм, про який я хвилююсь (хоча можуть бути такі випадки, про які я просто не знаю!), хоча бувають випадки, коли відомі упередження бути домінуючим фактором (розглянемо, наприклад, REML, коли ухил досить серйозний, що варто щось зробити). Я думаю, що незалежно від того, чим ти займаєшся, ти просто хочеш, щоб твій конкретний оцінювач був близький до істини, і саме це робить MSE.
jld

2

Дві причини, окрім пояснення MSE (загальноприйнята відповідь на питання):

  • Управління ризиком
  • Ефективне тестування

Т(Х)=Х¯нХ¯нϵθ0θнна межі кулі він стає непослідовним випробуванням, він ніколи не знає, що відбувається, і ризик вибухає.

Γ(α,βн)

Тθ(Х)=ХiЯ(Хi<θ)/Я(Хi<θ)
систематично викидає високі точки важеля.

Ефективне тестування означає, що ви не оцінюєте те, що вас цікавить, а його наближення, оскільки це забезпечує більш потужний тест. Найкращий приклад, про який я можу придумати, - це логістична регресія. Люди завждиплутати логістичну регресію з відносною регресією ризику. Наприклад, коефіцієнт шансів 1,6 для раку, порівнюючи курців до некурящих, НЕ означає, що "курці мали ризик раку на 1,6". BZZT неправильний. Це коефіцієнт ризику. Технічно вони мали шанси на результат у 1,6 рази (нагадування: шанси = ймовірність / (1-ймовірність)). Однак для рідкісних подій коефіцієнт шансів наближається до коефіцієнта ризику. Існує відносна регресія ризику, але вона має багато проблем з конвергенцією і не така потужна, як логістична регресія. Таким чином, ми повідомляємо АБО як упереджену оцінку RR (для рідкісних подій) та обчислюємо більш ефективні ІС та p-значення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.