Чи завжди переважні непослідовні оцінки?


22

Послідовність, очевидно, є природним і важливим оцінювачем властивостей, але чи існують ситуації, коли може бути краще використовувати невідповідний оцінювач, а не послідовний?

Більш конкретно, чи є приклади непослідовного оцінювача, який перевершує розумний послідовний оцінювач для всіх кінцевих (стосовно якоїсь відповідної функції втрат)?n


1
Існує цікава компроміс у виконанні між послідовністю вибору моделі та узгодженістю параметрів у задачах оцінки з використанням ласо та його (безліч!) Варіантів. Це детально описано, наприклад, у недавньому тексті Бюльмана та Ван дер Гера.
кардинал

Чи не міг би аргумент у моїй, тепер уже видаленій, відповіді? А саме: у невеликих зразках краще мати неупереджений оцінювач із низькою дисперсією. Чи можна показати, що послідовний оцінювач завжди має меншу дисперсію, ніж будь-який інший неупереджений оцінювач?
Боб Янсен

Можливо, @Bootvis! Чи є у вас приклад непослідовного оцінювача з низьким рівнем MSE?
MånsT

3
@Bootvis: Якщо вам трапляється подивитися на широкі коментарі до відповіді на нещодавнє запитання про послідовність та неупередженість, ви побачите, що послідовний оцінювач може мати довільну дику поведінку як дисперсії, так і зміщення (навіть одночасно!) . Це повинно усунути всі сумніви щодо вашого коментаря.
кардинал

Я думав, що маю одну з двох книг, але, мабуть, я помилявся і про це! Прикладу ніде не знайти. @cardinal: Звучить цікаво, перевіримо це
Боб Янсен

Відповіді:


25

Ця відповідь описує реалістичну проблему, коли природний послідовний оцінювач переважає (перевершує всі можливі значення параметрів для всіх розмірів вибірки) непослідовним оцінювачем. Його мотивує думка про те, що послідовність найкраще підходить для квадратичних втрат, тому використання втрат, що сильно відходять від цієї (наприклад, асиметричної втрати), повинно зробити консистенцію майже марною при оцінці ефективності оцінювачів.


Припустимо, ваш клієнт бажає оцінити середнє значення змінної (припускається, що вона має симетричний розподіл) із зразка iid , але вони протилежні або (a) заниженню її, або (b) сильно завищенню це.(x1,,xn)

Щоб побачити, як це може вийти, скористаємося простою функцією збитків, розуміючи, що на практиці збитки можуть кількісно (але не якісно) відрізнятися від цієї. Виберіть одиниці вимірювання так, щоб була найбільшою допустимою завищенням, і встановіть втрату оцінки t, коли справжня середня величина μ дорівнює 0, коли μ t μ + 1 і дорівнює 1 в іншому випадку.1tμ0μtμ+11

Розрахунки особливо прості для звичайного сімейства розподілів із середнім та дисперсією σ 2 > 0 , оскільки тоді середнє значення вибірки ˉ x = 1μσ2>0має нормальне(μ,σ2/n)розподіл. Середнє значення вибірки - це послідовний оцінювачμ, як добре відомо (і очевидно). ЗаписФдля стандартного нормального КОРА, очікувана втрата зразка середнього значення одно1/2+Ф(-x¯=1nixi(μ,σ2/n)μΦ:1/2походить від 50% ймовірностіщо вибіркове середнє буде недооцінити справжнє середнє іФ(-1/2+Φ(n/σ)1/2походить від шансу переоцінити справжню середню більш ніж на1.Φ(n/σ)1

Losses

Очікувана втрата дорівнює синій області під цим стандартним нормальним PDF. Червона зона дає очікувані втрати альтернативного оцінювача нижче. Вони відрізняються заміною суцільної синьої області між - x¯і0меншою суцільною червоною зоною міжn/(2σ)0іn/(2σ). Ця різниця зростає зізбільшеннямn.n/σn

Альтернативна оцінка дається має очікувану втрату 2 Ф ( - x¯+1/22Φ(n/(2σ))1/20nnμ+1/2μ

Loss functions

Сині точки показують втрату для і червоні точки показують втрати для ··· х + 1 / 2 в залежності від обсягу вибірки п .x¯x¯+1/2n


2
L2L2

5
@Macro Мислення дещо опосередковане і не має на меті бути жорстким, але я вважаю, що це природно: квадратична втрата передбачає мінімізацію відхилення, що (через Чебишева) призводить до конвергенції у ймовірності. Отже, евристика для пошуку контрприкладу повинна зосереджуватися на втратах, настільки далеких від квадратичного, що такі маніпуляції не мають успіху.
whuber

1
1/2 тоді як коефіцієнт непослідовної оцінки зменшується (експоненціально) до 0: це, таким чином, експоненціально краще, ніж послідовне якнросте великим.
whuber

3
@Michael OK, thank you for explaining that. In this context, with a non-quadratic loss, an "advantage" is not expressed terms of bias. One might criticize this loss function, but I don't want to reject it outright: it models situations where, for instance, the data are measurements of an item manufactured to certain tolerances and it would be disastrous (as in Shuttle o-ring failure or business bankruptcy disastrous) for the true mean to fall outside those tolerances.
whuber

1
(+1) Great answer, @whuber! I particularly like that it doesn't feel too pathological - I can think of many situations where this type of loss would be applicable.
MånsT
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.