Чому ми повинні обговорювати поведінку конвергенції різних оцінювачів у різних топологіях?


14

У першому розділі книги « Алгебраїчна геометрія та теорія статистичного навчання», в якому йдеться про конвергенцію оцінок у різних функціональних просторах, згадується, що байєсова оцінка відповідає топології розподілу Шварца, тоді як оцінка максимальної вірогідності відповідає топології над норми (на сторінці 7):

Наприклад, над-норма, -норма, слабка топологія простору Гільберта L 2 , топологія розподілу Шварца тощо. Це сильно залежить від топології простору функції, чи має місце збіжність K n ( w ) K ( w ) чи ні. Оцінка Байєса відповідає топології розподілу Шварца, тоді як максимальна ймовірність або апостеріорний метод відповідає суп-нормі. Ця різниця сильно впливає на результати навчання в сингулярних моделях.LpL2Kn(w)K(w)

де і K ( w ) - відповідно емпірична KL-дивергенція (підсумовування за спостереженнями) та справжня KL-дивергенція (інтегральний wrt розподіл даних) між справжньою моделлю та параметричною моделлю (з параметром w ).Kn(w)K(w)w

Хтось може дати пояснення чи натякнути мені, яке місце в книзі має виправдання? Дякую.

Оновлення : вміст авторських прав видалено.


що таке і K n ? KKн
Тейлор

@Taylor Я додав необхідну інформацію.
ziyuang

Я відповім на ваше запитання пізніше, я знаю книгу Ватанабе відносно добре. Але я дуже не люблю те, як ви цитуєте книгу. Це може спричинити потенційну проблему з авторським правом, якщо ви розмістите тут розділи безпосередньо. Використання номерів сторінок та введення цитат за допомогою відповідного значка буде кращим вибором.
Генрі.Л

@ Henry.L Дякуємо, а вміст авторських прав видалено.
ziyuang

@ Генрі: Хоча я вважаю, що є корисним бути обережним і сумлінним у відтворенні частин авторських прав, я думаю, що в цьому випадку ziyuang не має нічого турбуватися. Використання ОП невеликих уривків для наукової критики дуже прямо входить в (США) доктрину "справедливого використання". Дійсно, точне відтворення іноді може бути особливо цінним, оскільки воно усуває будь-які неоднозначності, які можуть бути внесені перестановками вмісту. (Все, що говорив, IANAL.)
кардинал

Відповіді:


2

Щоб зрозуміти дискусію Ватанабе, важливо усвідомити, що він мав на увазі під «сингулярністю». (Сувора) сингулярність збігається з геометричним поняттям сингулярної метрики в його теорії.

с.10 [Ватанабе]: "Статистична модель як кажуть, є регулярною, якщо вона ідентифікована і має позитивну певну метрику. Якщо статистична модель не є регулярною, то вона називається строго єдиною."p(хш)

На практиці сингулярність зазвичай виникає тоді, коли метрика інформації Фішера, індукована моделлю, вироджується на колекторі, визначеному моделлю, як низький ранг або рідкісні випадки в «машинному навчанні».

Те, що Ватанабе сказав про конвергенцію емпіричного розбіжності KL до його теоретичного значення, можна зрозуміти наступним чином. Одне походження поняття розбіжності походить із надійної статистики. M-оцінки, які включають MLE як особливий випадок із контрастною функцією , зазвичай обговорюються з використанням слабкої топології. Доцільно обговорити поведінку конвергенції, використовуючи слабку топологію над простором M ( X ) (різноманітність усіх можливих заходів, визначених у польському просторі Xρ(θ,δ(Х))=-журналp(Хθ)М(Х)Х) тому що ми хочемо вивчити стійкість поведінки MLE. Класична теорема в [Губер] заявила, що при добре відокремленій дивергенційній функції θ 0 ) | ) > 0 . інф | θ - θ 0 | ϵ ( | D ( θ 0 , θ ) - D ( θ 0 , хороша емпірична апроксимація функції контрасту до дивергенції, sup θD(θ0,θ)=Еθ0ρ(θ,δ)

інф|θ-θ0|ϵ(|D(θ0,θ)-D(θ0,θ0)|)>0
поряд з регулярністю ми можемо отримати послідовність у сенсі ^ θ n :=arg
супθ|1нiρ(θ,δ(Хi))-D(θ0,θ)|0,н
сходиться до θ 0 при ймовірності P θ 0 . Цей результат вимагає набагато більш точних умов, якщо порівняти з результатом Doob [Doob] у слабкій послідовності байєсівський оцінювач.
θn^:=argminθρ(θ,δ(Xn))
θ0Pθ0

Тож тут байєсівські оцінки та MLE розходяться. Якщо ми все ще використовуємо слабку топологію для обговорення послідовності байєсівських оцінювачів, це безглуздо, оскільки байєсівські оцінки завжди (з вірогідністю одного) будуть узгоджені з Doob. Тому більш прийнятною топологією є топологія розподілу Шварца, яка дозволяє слабким похідним і втілилася теорія фон Мізеса. У Баррона був дуже хороший технічний звіт на цю тему, як ми могли використовувати теорему Шварца для отримання послідовності.

D

На "сингулярний результат навчання" впливає, оскільки, як ми бачимо, теорема послідовності Дуба гарантує, що Байєсові оцінювачі слабо узгоджуються (навіть у сингулярній моделі) у слабкій топології, тоді як MLE повинен відповідати певним вимогам тієї ж топології.

Лише одне слово [Ватанабе] не для початківців. Це має глибокі наслідки для реальних аналітичних наборів, що вимагає більшої математичної зрілості, ніж більшість статистиків, тому, мабуть, не годиться читати це без відповідних вказівок.

Список літератури

[Ватанабе] Ватанабе, Суміо. Алгебраїчна геометрія та теорія статистичного навчання. Вип. 25. Cambridge University Press, 2009.

[Хубер] Хубер, Пітер Дж. "Поведінка максимальної оцінки ймовірності в нестандартних умовах". Праці п’ятого симпозіуму Берклі з математичної статистики та ймовірності. Вип. 1. № 1. 1967.

[Doob] Doob, Joseph L. "Застосування теорії мартингалів". Le calcul des Probabilites et ses заявки (1949): 23-27.


Я намагаюся дати деяку інтуїцію частинам відповіді, щоб виправити мене, якщо я помиляюся. Оцінювач Байєса є послідовним, якщо ми бачимо його як точковий оцінювач (ПДЧ, а не імовірнісний розподіл). Це вимагає менших умов для його консистенції, ніж MLE інтуїтивно через попереднє дію як регуляризація. З іншого боку, топологія розподілу Шварца є ​​більш підходящою, коли ми бачимо оцінку Байєса як розподіл, вона також допомагає побудувати тісніший зв’язок між послідовністю MLE та Байесом, так що випадок, коли один розходиться, а інший сходить, не відбудеться .
ziyuang

Вибачте, але я не думаю, що ваше пояснення є правильним. Попередня функціонує як регуляризація, але це не обов'язково контролює швидкість конвергенції. Насправді плоскі пріори фактично сповільнюють конвергенцію. Вони просто дві різні топології.
Генрі.Л
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.