Чи використовується середня квадратична помилка для оцінки відносної переваги одного оцінника над іншим?


13

Припустимо, у нас є два оцінювачі та для деякого параметра x . Щоб визначити, який оцінювач "кращий", ми подивимось на MSE (середня квадратична помилка)? Іншими словами, ми дивимось на MSE = \ beta ^ 2 + \ sigma ^ 2, де \ beta - зміщення оцінки, а \ sigma ^ 2 - дисперсія оцінювача? Хто б не мав більший MSE, це гірший оцінювач?α 2 xα1α2x β σ 2

MSE=β2+σ2
βσ2

Відповіді:


10

Якщо у вас є два конкуруючі оцінки θ^1 та θ^2 , незалежно від того, чи ні

MSE(θ^1)<MSE(θ^2)
повідомляє вам, що θ^1 є кращий оцінювач повністю залежить від вашого визначення "найкращого". Наприклад, якщо ви порівнюєте неупереджені оцінки та під "кращим" ви маєте на увазі меншу дисперсію, то так, це означає, що θ^1 краще. MSE є популярним критерієм через його зв'язок із найменшими квадратами та гауссовою вірогідністю логарифмічних даних, але, як і багато статистичних критеріїв, слід уникати використання MSE сліпо як міра якості оцінки, не звертаючи уваги на додаток.

Існують певні ситуації, коли вибір оцінювача для мінімізації може бути не особливо розумним. На думку спадають два сценарії:MSE

  • Якщо в наборі даних є дуже великі видатки, вони можуть вплинути на MSE кардинально, і, таким чином, на оцінювач, що мінімізує MSE, можуть надмірно впливати такі люди. У таких ситуаціях той факт, що оцінювач мінімізує MSE, насправді не дуже розказує, оскільки, якщо ви видалили інші (-і) шрифти, ви можете отримати диво іншу оцінку. У цьому сенсі MSE не є "надійним" для людей, що вижили. У контексті регресії цей факт є тим, що мотивував M-оцінювача Хубера (про який я обговорюю у цій відповіді), який мінімізує різні функції критеріїв (тобто суміш між помилкою у квадраті та абсолютною помилкою), коли виникають довгохвості помилки .

  • Якщо ви оцінюєте обмежений параметр, порівняння s може виявитися недоцільним, оскільки воно в такому випадку карає по-різному і заниження. Наприклад, припустимо, що ви оцінюєте дисперсію . Тоді, якщо ви свідомо недооцінюєте кількість, ваш може бути не більше , тоді як завищена оцінка може призвести до що значно перевищує , можливо, навіть на необмежену кількість.σ 2 M S E σ 4 M S E σ 4MSEσ2MSEσ4MSEσ4

Щоб зробити ці недоліки більш зрозумілими, я наведу конкретний приклад того, коли через ці проблеми не може бути відповідним показником якості оцінки.MSE

Припустимо, у вас є зразок з розподілу з ступенями свободи, і ми намагаємося оцінити дисперсію, яка є . Розглянемо два конкуруючих оцінювача: і явно і факт, що які можна отримати за допомогою т ν > 2 ν / ( ν - 2 ) θ 1 : т ч е у п б я в и е D сек м р л е про р я н гр е & thetas ; 2 = 0 , г е g a r dX1,...,Xntν>2ν/(ν2)

θ^1:the unbiased sample variance
М З Е ( θ 2 ) = ν 2
θ^2=0, regardless of the data
МЗЕ( θ 1)={ ∞ , якщо  N , & le ; 4 N , 2MSE(θ^2)=ν2(ν2)2tMSEν<4(2
MSE(θ^1)={if ν4ν2(ν2)2(2n1+6n(ν4))if ν>4.
факт, що обговорюється в цій нитці, та властивості -розподілуt . Таким чином, наївний оцінювач перевершує показник незалежно від розміру вибірки кожного разуMSEν<4 , що досить непомітно. Він також перевершує, коли але це актуально лише для дуже малих розмірів вибірки. Вищезазначене трапляється через тривалий характер розподілу з малими ступенями свободи, що робить схильним до дуже великих значень, і сильно штрафує за завищення, тоді якт θ 2МЗЕ & thetas ; 1(2n1+6n(ν4))>1tθ^2MSEθ^1 не має цієї проблеми.

Підсумок тут полягає в тому, що не є відповідним показником оцінки вимірювання в цьому сценаріїMSE . Це зрозуміло, оскільки оцінювач, який домінує з точки зору є смішним (тим більше, що немає шансів, що він правильний, якщо є якась мінливість у спостережуваних даних). Можливо, більш підходящим підходом (на що вказували Казелла та Бергер) було б вибрати оцінку дисперсії що мінімізує втрату Штейна:θMSEθ^

S(θ^)=θ^ν/(ν2)1log(θ^ν/(ν2))

що карається заниженням однаковою мірою як завищення. Це також повертає нас до розуму, оскільки :)S(θ^1)=


(+1) Приємна дискусія. Для справедливості, мабуть, слід зазначити, що подібні аргументи можуть бути зроблені і для інших критеріїв (інших функцій збитків).
MånsT

2
Зазвичай оцінювачі оцінюються, переглядаючи їх функції ризику, які будують очікувані втрати порівняно з параметрами. Тут, фіксуючи параметри, можливо, ви зробили оманливий аналіз. Зрештою, завжди буває так, що дурний (постійний, невідомий) оцінювач може призвести до дуже низької очікуваної втрати: просто встановіть його рівним правильному параметру! Це не дивується, що насправді показало моделювання.
whuber

@whuber, я змінив цю відповідь, щоб дати приклад аналітично, що робить її більш зрозумілою. Я також запропонував альтернативну функцію втрат, яка може бути більш підходящою.
Макрос

+1 Набагато краще і дуже цікаво! Я думаю, що "неспокійний" аспект може бути в очах глядача. Для тих, хто схильний приклеїти деякого Байєса до , цей результат повинен бути тверезим. Крім того, для когось із нас вибір збитків є первинним і повинен заміняти більшість інших міркувань: цінності та цілі вашого клієнта визначають збитки, і це допомагає вибрати правильну процедуру оцінки. Уподобання процедури оцінки, а потім пропонування втрат, щоб зробити цю процедуру корисною практикою, але, безумовно, не може сприйматися як парадигма того, як можна вирішити статистичні проблеми! ν
whuber

2

MSE відповідає ризику (очікувана втрата) для функції втрати помилки в квадраті . Функція втрати помилок у квадраті дуже популярна, але лише один вибір із багатьох. Описана вами процедура є правильною при втраті помилок у квадраті; питання полягає в тому, чи підходить це у вашій проблемі чи ні.L(αi)=(αiα)2


2

Оскільки функція є диференційованою, це полегшує пошук мінімального MSE як з теоретичної, так і з чисельної точки зору. Наприклад, у звичайних найменших квадратах ви можете вирішити чіткість для встановленого схилу та перехоплення. З чисельної точки зору, у вас є більш ефективні рішення, коли у вас є похідна.f(x)=x2

Середня квадратична помилка, на мою думку, зазвичай переважає іншу людину. Ось чому часто більш надійно використовувати середню абсолютну помилку, тобто використовуватияк ваша помилка. Однак, оскільки це не диференціюється, це ускладнює роботу з рішеннями.f(x)=|x|

MSE, мабуть, хороший вибір, якщо умови помилки зазвичай розподіляються. Якщо у них жирніші хвости, переважніший більш надійний вибір, такий як абсолютна величина.


0

У випуску «Статистичні висновки Case & Berger» другого видання Сторінка 332 зазначається, що MSE штрафує однаково за завищення та заниження, що добре у випадку місцеположення. Однак у випадку масштабу 0 є природною нижньою межею, тому задача оцінки не є симетричною. Використання MSE в цьому випадку, як правило, прощає заниження.

Ви можете перевірити, який оцінювач відповідає властивостям UMVUE, що означає використання нижньої межі Cramer-Rao. Сторінка 341.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.