Приклад того, як Баєсова статистика може оцінити параметри, які дуже складно оцінити за допомогою частотистських методів


9

Байєсівські статистики стверджують, що "Байєсова статистика може оцінити параметри, які дуже складно оцінити за допомогою частотистських методів". Чи йдеться про те, що цитата, взята з цієї документації SAS, це те саме?

Він надає умовиводи, які є умовними для даних і точні, без опори на асимптотичне наближення. Невеликий висновок вибірки проходить так само, як якщо б у нього був великий зразок. Байєсівський аналіз також може оцінювати будь-які функції параметрів безпосередньо, не використовуючи метод "плагін" (спосіб оцінки функціоналу шляхом включення оцінених параметрів у функціонали).

Я бачив подібне твердження в якомусь підручнику, але не пригадую, де. Чи може хто-небудь пояснити це мені прикладом?


Яка ймовірність того, що завтра сонце встане? en.wikipedia.org/wiki/Sunrise_problem Цей приклад може бути більш тривіальним, ніж ви сподівалися
Х'ю

Чи можете ви поставити цитату прямо у своє запитання? Заголовок здається не пов'язаним із другою точкою кулі.
Х'ю

1
Заява в цій цитаті не є великою в тому, що (a) "точне" нічого не означає, і (b) критика плагіну застосовується лише тоді, коли враховується повна задня, а не інша оцінка, плюс залежно від обраної функції втрати для оцінки. Дивіться на це інше запитання, щоб отримати відповіді .
Сіань

Відповіді:


8

У мене є заперечення з цією цитатою:

  1. "Частотність" - це підхід до висновку, який базується на частотних властивостях обраних оцінок. Це розпливчасте поняття в тому, що воно навіть не говорить про те, що оцінювачі повинні сходитися, і якщо вони роблять, як вони повинні сходитися. Наприклад, неупередженість - це частість поняття, але воно не може утримувати будь-яку функцію [цього параметраθ] представляє інтерес з моменту збору перетворень θякі дозволяють об'єктивний оцінювач дуже обмежений. Крім того, частофілістський оцінювач не формується парадигмою, а його слід вибирати перед оцінкою. У цьому сенсі байєсівський оцінювач - це частістський оцінювач, якщо він задовольняє деяким властивостям.
  2. Висновок, що виробляється байєсівським підходом, заснований на задньому розподілі, представленому його щільністю π(θ|D). Я не розумію, як можна приєднати термін "точний"π(θ|D). Це однозначно пов'язане з попереднім розповсюдженнямπ(θ)і вона точно виведена теоремою Байєса. Але він не повертає точного висновку в тому, що оцінка точки не є справжнім значенням параметраθі він створює точні твердження про ймовірність лише в рамках, передбачених парою до x імовірності . Зміна одного терміна в парі змінює задні і умовиводи, в той час як немає загального аргументу для захисту одного попереднього або ймовірного.
  3. Аналогічно, інші твердження про ймовірність, такі як "істинний параметр має ймовірність 0,95 падіння в 95% достовірний інтервал", знайдені на тій же сторінці цієї документації SAS, мають значення щодо рамки заднього розподілу, але не мають абсолютного значення.
  4. З обчислювальної точки зору, правда, байєсівський підхід часто може повертати точні або приблизні відповіді у випадках, коли стандартний класичний підхід не вдається. Наприклад, це стосується прихованих [або відсутніх] змінних моделей
    f(x|θ)=g(x,z|θ)dz
    де g(x,z|θ) - щільність суглоба для пари (X,Z) і де Z не спостерігається, виробляючи оцінки θ і його заднього за допомогою симуляції пари (θ,Z)може виявитись набагато простіше, ніж отримання максимальної ймовірності [частотистський?] оцінювач. Практичним прикладом цієї установки є коалесцентна модель Кінгмена в генетиці популяції , де еволюція популяцій від загального предка передбачає приховані події на бінарних деревах. Цією моделлю можна керувати [приблизним] байєсівським висновком за допомогою алгоритму під назвою ABC, навіть якщо існують і програмні рішення, що не є баєсами .
  5. Однак навіть у таких випадках я не думаю, що байєсівський висновок є єдино можливим рішенням. Технології машинного навчання, такі як нейронні мережі, випадкові ліси, глибоке навчання, можна класифікувати як методи частості, оскільки вони тренуються за зразком шляхом перехресної перевірки, мінімізуючи критерій помилок або відстань, який можна розглядати як очікування [за справжньою моделлю] апробована середньою вибіркою. Наприклад, коалесцентною моделлю Кінгмена можна також керувати не-байесівські програмні рішення .
  6. Кінцевим моментом є те, що для оцінки байєсівського підходу цілком можна дати оцінки додатків. Для деяких функцій втрат, які я назвав внутрішніми втратами , оцінка Баєса перетворенняh(θ) є перетворення h(θ^) оцінки Байєса θ.

Відповідь хороша, наскільки вона йде. Я заперечую проти пункту №5, оскільки він присвоює методам ML найкращі показники, які ще не повинні бути виправдані теорією. Також що навіть означає "... справжня модель ..."? Без сумніву, ці методи є популярними, але ця популярність, як правило, виправдовується їх здатністю "масштабувати". На жаль, багато діагностичних висновків, пропонованих байєсівськими та частолістськими методами, що не належать до ML, втрачаються при використанні таких підходів. Зокрема, перехресне підтвердження може призвести до більш високих показників помилок, ніж інші методи Див. Efron, 1983, 1986, JASA.
Ян Гальковський

Дякую. Насправді, я не наділяю методи ML з "чудовими" силами, просто згадую, що деякі складні відповіді можуть бути запропоновані для складних моделей. Під "справжніми моделями" я маю на увазі оцінку ефективності методу, припускаючи (помилково), що дані виробляються за вказаною моделлю. Що є дефектом більшості статистичних аналізів imo.
Сіань
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.