Інтуїція, чому парадокс Штейна застосовується лише в розмірах


46

Приклад Штейна показує, що максимальна оцінка ймовірності n нормально розподілених змінних із значеннями μ1,,μn та дисперсіями 1 є неприпустимою (за функцією квадратних втрат) iff n3 . Для чіткого доказу дивіться першу главу великомасштабного умовиводу: Емпіричні методи Байєса для оцінки, тестування та прогнозування Бредлі Ефрона.

xN(μ,1)Ex2μ2+n

Моє питання швидше: Якої властивості -вимірного простору (для ) не вистачає що полегшує приклад Штейна? Можливі відповіді можуть бути про викривлення -сфери або щось зовсім інше.nn3R2n

Іншими словами, чому MLE допустимий в ?R2


Редагувати 1: У відповідь на @mpiktas стурбовано приблизно 1.31 після 1.30:

Eμ(zμ^2)=Eμ(S(N2S)2)=Eμ((N2)2S).

μi^=(1N2S)zi
томуТому у нас є:
Eμ(μi^zi)=Eμ(1N2S+2zi2S2).

2i=1NEμ(μi^zi)=2N2Eμ(N(N2)S)+4Eμ((N2)S)=2NEμ2(N2)2S.

Редагувати 2 : У цій статті Штейн доводить, що MLE допустимий для .N=2


4
@mpiktas Це не так непридатно, як виглядає. Ситуація схожа на ANOVA після того, як ми застосуємо скорочення достатності. Це натякає на те, що звичайні оцінки ANOVA щодо групових засобів є неприпустимими, якщо ми намагаємось оцінити засоби більш ніж 3 груп (що виявляється правдивим). Я рекомендував би переглянути докази того, що MLE допустимий для і побачити, де вони не вдається при спробі поширити на а не просто дивитись на докази того, що оцінювач Штейна робить те, що він вимагає зробити, що легко один раз ви насправді маєте на увазі оцінювача. N=1,2N=3
хлопець

2
... і знайте, як використовувати лему Штейна. Я думаю, це насправді трохи менше прямого, ніж я, хоча 6 хвилин тому.
хлопець

2
Я згоден. Чи є у вас якісь хороші посилання на це (окрім оригіналу документа). Я знайшов оригінальний документ Штейна занадто обчислювальним і сподівався, що хтось розробив інший метод за останні п’ятдесят років.
Хар

2
Підтвердженням того, що мене вчили, - це Браун та Хван з 1983 року, який використовує метод, запропонований Блітом з початку 1950-х, я вважаю. Він досить загальний (більш загальний, ніж результат Штейна в тому, що він працює для експоненціальної родини) і, я вважаю, зовсім відрізняється від Штейна. Але це не банально.
хлопець

2
@Har велике запитання! (+1)
suncoolsu

Відповіді:


43

Дихотомія між випадками та для допустимості MLE середнього значення -вимірної багатоваріантної нормальної випадкової величини, безумовно, шокуюча.d<3d3d

Є ще один дуже відомий приклад вірогідності та статистики, в якому існує дихотомія між та випадками. Це повторення простої випадкової прогулянки по решітці . Тобто -вимірний простий випадковий хід повторюється в 1 або 2 вимірах, але є перехідним у вимірах. Аналог безперервного часу (у формі броунівського руху) також має місце.d<3d3Zddd3

Виявляється, ці два тісно пов'язані.

Ларрі Браун довів, що два питання по суті є рівнозначними. Тобто, кращий інваріант оцінювач про -мірному багатовимірного нормального вектора середньої допустимо тоді і тільки тоді , коли - мірне броунівський рух є поворотним.μ^μ^(X)=Xdd

Насправді його результати йдуть набагато далі. Для будь-якого розумного (тобто узагальненого Байєса) оцінки з обмеженим (узагальненим) ризиком , існує явна (!) Відповідна розмірна дифузія, така що Оцінювач допустимий тоді і лише тоді, коли його відповідна дифузія повторюється.μ~μ~(X)L2dμ~

Локальне середнє цієї дифузії, по суті , розбіжність між цими двома оцінками, тобто і ковариация дифузії . З цього легко зрозуміти, що для випадку MLE , ми відновлюємо (переосмислюємо) броунівський рух.μ~μ^2Iμ~=μ^=X

Тож у деякому сенсі ми можемо розглянути питання про прийнятність через лінзу стохастичних процесів і використовувати добре вивчені властивості дифузій, щоб дійти до бажаних висновків.

Список літератури

  1. Л. Браун (1971). Допустимі оцінки, періодичні дифузії та нерозв'язні граничні проблеми . Енн. Математика. Стат. , т. 42, ні. 3, с. 855–903.
  2. Р. Н. Бхаттачарія (1978). Критерії повторення та існування інваріантних заходів для багатовимірних дифузій . Енн. Проб. , т. 6, ні. 4, 541–553.

2
Власне, щось подібне - це те, на що я сподівався. Зв'язок з іншою галуззю математики (будь то диференціальна геометрія або стохастичні процеси), який показує, що допустимість не була простою задачею. Чудова відповідь! n=2
Хар

Надихнувшись вашою відповіддю, я надав деякі деталі, а також додав геометричне пояснення у відповідь на цю проблему в МО: mathoverflow.net/questions/93745/…
Henry.L

21

@cardinal дав чудову відповідь (+1), але все питання залишається таємничим, якщо хтось не знайомий з доказами (а я - ні). Тому я думаю, що питання залишається питанням, що є інтуїтивно зрозумілою причиною того, що парадокс Штейна не відображається в та .RR2

Я вважаю дуже корисною перспективу регресії, запропоновану в Стівена Стіглера, 1990, "Галтонівська перспектива на оцінювачі усадки" . Розглянемо незалежні вимірювання , кожен з яких вимірює деякі основні (непомічені) і відбирається з . Якби ми якось знали , ми могли б зробити графік розкидання пар :XiθiN(θi,1)θi(Xi,θi)

Парадокс Штейна: перспектива регресії

Діагональна лінія відповідає нульовому шуму і досконалій оцінці; насправді шум не нульовий, тому точки зміщуються від діагональної лінії в горизонтальному напрямку . Відповідно, можна розглядати як лінію регресії на . Ми, однак, знаємо і хочемо оцінити , тому слід скоріше розглянути лінію регресії на - яка матиме інший нахил, зсунутий по горизонталі , як показано на рисунку (пунктирна лінія).θ=Xθ=XXθXθθX

Цитуючи з статті Стиглера:

Ця галтонівська перспектива на парадокс Штейна робить його майже прозорим. "Звичайні" оцінки виведені з теоретичної лінії регресії на . Цей рядок був би корисним, якби нашою метою було передбачити від , але наша проблема полягає в зворотному, а саме передбачити від використовуючи суму квадратичних помилок як критерій. Для цього критерію оптимальні лінійні оцінювачі задаються лінією регресії найменших квадратів наθ^i0=XiXθXθθX(θiθ^i)2θX, і оцінки Джеймса-Штейна та Ефрона-Морріса самі є оцінками цього оптимального лінійного оцінювача. "Звичайні" оцінки виводяться з неправильної регресійної лінії, оцінки Джеймса-Штейна та Ефрона-Морріса виводяться з наближень до правої лінії регресії.

А тепер настає найважливіший біт (наголос додано):

Ми навіть можемо побачити, чому необхідний: якщо або , то найменші квадрати на повинні проходити через точки , а значить, для або , дві регресійні лінії ( на і на ) повинні узгоджуватися на кожному .k3k=12θX(Xi,θi)k=12XθθXXi

Я думаю, що це дає зрозуміти, що особливе в і .k = 2k=1k=2

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.