Щоб зрозуміти дискусію Ватанабе, важливо усвідомити, що він мав на увазі під «сингулярністю». (Сувора) сингулярність збігається з геометричним поняттям сингулярної метрики в його теорії.
с.10 [Ватанабе]: "Статистична модель як кажуть, є регулярною, якщо вона ідентифікована і має позитивну певну метрику. Якщо статистична модель не є регулярною, то вона називається строго єдиною."p ( x ∣ w )
На практиці сингулярність зазвичай виникає тоді, коли метрика інформації Фішера, індукована моделлю, вироджується на колекторі, визначеному моделлю, як низький ранг або рідкісні випадки в «машинному навчанні».
Те, що Ватанабе сказав про конвергенцію емпіричного розбіжності KL до його теоретичного значення, можна зрозуміти наступним чином. Одне походження поняття розбіжності походить із надійної статистики. M-оцінки, які включають MLE як особливий випадок із контрастною функцією , зазвичай обговорюються з використанням слабкої топології. Доцільно обговорити поведінку конвергенції, використовуючи слабку топологію над простором M ( X ) (різноманітність усіх можливих заходів, визначених у польському просторі Xρ ( θ , δ( X) ) = - журналр ( X∣ θ )М( X)Х) тому що ми хочемо вивчити стійкість поведінки MLE. Класична теорема в [Губер] заявила, що при добре відокремленій дивергенційній функції θ 0 ) | ) > 0 . інф | θ - θ 0 | ≥ ϵ ( | D ( θ 0 , θ ) - D ( θ 0 ,
хороша емпірична апроксимація функції контрасту до дивергенції,
sup θD ( θ0, θ ) = Eθ0ρ ( θ , δ)
інф| θ- θ0| ≥ϵ( | D ( θ)0, θ ) - D ( θ0, θ0) | ) > 0
поряд з регулярністю ми можемо отримати послідовність у сенсі
^ θ n :=argсупθ∣∣∣1н∑iρ ( θ , δ( Xi) ) - D ( θ0, θ ) ∣∣∣→ 0 , n → ∞
сходиться до
θ 0 при ймовірності
P θ 0 . Цей результат вимагає набагато більш точних умов, якщо порівняти з результатом Doob [Doob] у слабкій послідовності байєсівський оцінювач.
θн^: = a r gminθρ(θ,δ(Xn))
θ0Pθ0
Тож тут байєсівські оцінки та MLE розходяться. Якщо ми все ще використовуємо слабку топологію для обговорення послідовності байєсівських оцінювачів, це безглуздо, оскільки байєсівські оцінки завжди (з вірогідністю одного) будуть узгоджені з Doob. Тому більш прийнятною топологією є топологія розподілу Шварца, яка дозволяє слабким похідним і втілилася теорія фон Мізеса. У Баррона був дуже хороший технічний звіт на цю тему, як ми могли використовувати теорему Шварца для отримання послідовності.
D
На "сингулярний результат навчання" впливає, оскільки, як ми бачимо, теорема послідовності Дуба гарантує, що Байєсові оцінювачі слабо узгоджуються (навіть у сингулярній моделі) у слабкій топології, тоді як MLE повинен відповідати певним вимогам тієї ж топології.
Лише одне слово [Ватанабе] не для початківців. Це має глибокі наслідки для реальних аналітичних наборів, що вимагає більшої математичної зрілості, ніж більшість статистиків, тому, мабуть, не годиться читати це без відповідних вказівок.
■ Список літератури
[Ватанабе] Ватанабе, Суміо. Алгебраїчна геометрія та теорія статистичного навчання. Вип. 25. Cambridge University Press, 2009.
[Хубер] Хубер, Пітер Дж. "Поведінка максимальної оцінки ймовірності в нестандартних умовах". Праці п’ятого симпозіуму Берклі з математичної статистики та ймовірності. Вип. 1. № 1. 1967.
[Doob] Doob, Joseph L. "Застосування теорії мартингалів". Le calcul des Probabilites et ses заявки (1949): 23-27.