Чи правда, що байєсівські методи не переборщують?


25

Чи правда, що байєсівські методи не переборщують? (Я бачив деякі документи та навчальні посібники, які заявляють про це)

Наприклад, якщо ми застосуємо Гауссовий процес до MNIST (рукописна класифікація), але покажемо йому єдиний зразок, чи повернеться він до попереднього розподілу для будь-яких входів, відмінних від цього єдиного зразка, як би невелика різниця?


просто думав - чи є математично точний спосіб, який можна визначити "над пристосуванням"? якщо ви можете, ймовірно, ви також можете вбудувати функції в функцію ймовірності або до того, щоб уникнути цього. моє думка полягає в тому, що це поняття звучить схоже на "чужих".
ймовірністьлогічного

Відповіді:


25

Ні, це неправда. Байєсівські методи, безумовно, переповнюють дані. Є кілька речей, які роблять байєсівські методи більш стійкими щодо перенапруження, і ви також можете зробити їх більш крихкими.

Комбінаторичний характер гіпотез Байєса, а не бінарних гіпотез, дозволяє проводити багаторазове порівняння, коли комусь не вистачає «справжньої» моделі для нульових методів гіпотези. Баєсівський задник ефективно скасовує збільшення структури моделі, наприклад додавання змінних, при цьому нагороджуючи поліпшення придатності. Штрафи та виграші - це не оптимізація, як це було б у випадку не байесівських методів, а зміщення ймовірностей з нової інформації.

Хоча це загалом дає більш надійну методологію, існує важливе обмеження, і це використання належних попередніх розподілів. Незважаючи на те, що є тенденція бажати наслідувати методи частості, використовуючи плоскі пріори, це не гарантує правильного рішення. У байєсівських методах є статті про пристосування, і мені здається, що гріх, як видається, полягає в спробі бути "справедливим" до не-баєсівських методів, починаючи із строго плоских пріорів. Складність полягає в тому, що пріоритет важливий для нормалізації ймовірності.

Байєсові моделі - це принципово оптимальні моделі у сенсі цього слова про прийнятність Вальда, але в ньому є прихований шахрай. Уолд припускає, що пріоритет - це ваш справжній пріоритет, а не якийсь попередній, який ви використовуєте, щоб редактори не занурили вас за те, що ви вкладаєте в нього занадто багато інформації. Вони не є оптимальними в тому ж сенсі, що і моделі часто. Методи частого лікування починаються з оптимізації мінімізації дисперсії, залишаючись неупередженою.

Це дорога оптимізація, оскільки вона відкидає інформацію та не є суттєво допустимою у розумінні Вальда, хоча часто є допустимою. Таким чином, моделі Frequentist забезпечують оптимальне пристосування до даних з урахуванням об'єктивності. Байєсівські моделі не є ні об'єктивними, ні оптимальними для даних. Це торгівля, яку ви здійснюєте, щоб мінімізувати перевитрати.

Байєсові моделі - це внутрішньо упереджені моделі, якщо не буде вжито спеціальних заходів для їх об'єктивності, які зазвичай гірше підходять до даних. Їх чеснота полягає в тому, що вони ніколи не використовують менше інформації, ніж альтернативний метод, щоб знайти "справжню модель", і ця додаткова інформація робить байєсівські моделі ніколи не менш ризикованими, ніж альтернативні моделі, особливо при розробці вибірки. Однак, завжди знайдеться зразок, який можна було б отримати випадковим чином, який би систематично "обманював" байєсівський метод.

Що стосується другої частини вашого запитання, якби ви аналізували один зразок, задня частина назавжди буде змінена у всіх її частинах і не повернеться до попередньої, якщо б не був другий зразок, який би точно скасував усю інформацію в перший зразок. Принаймні теоретично це правда. На практиці, якщо попередній рівень є достатньо інформативним і спостереження є недостатньо інформативним, то вплив може бути таким малим, що комп'ютер не міг би виміряти різниці через обмеження кількості значущих цифр. Можливо, що для комп’ютера ефект буде занадто малим, щоб обробити зміну задньої частини.

Отже, у відповіді "так" ви можете доповнити зразок за допомогою байєсівського методу, особливо якщо у вас невеликий розмір вибірки та неправильні пріори. Друга відповідь - «ні» теорема Байєса ніколи не забуває про вплив попередніх даних, хоча ефект може бути таким малим, що ви його пропустите обчислювально.


2
У Починають з оптимізацією мінімізації дисперсії, залишаючись безстороннім. , що вони ?
Річард Харді

Лише небагато моделей (по суті, набір з мірою нуля) дозволяють формувати неупереджені оцінки. Наприклад, у звичайній моделі немає об'єктивного оцінювача . Дійсно, більшість випадків, коли ми максимізуємо ймовірність, ми закінчуємо упередженим оцінником. σN(θ,σ2)σ
Ендрю М

1
@AndrewM: Там є несмещенной оцінкою в нормальної моделі - stats.stackexchange.com/a/251128/17230 . σ
Scortchi

11

Що слід пам’ятати, це те, що, як і практично скрізь, важливою проблемою в байєсівських методах може бути неправильне визначення моделі.

Це очевидний момент, але я думав, що все-таки поділюсь історією.

Віньєтка зі спини в недограді ...

Класичне застосування байєсівської фільтрації частинок - це відстеження розташування робота під час переміщення по кімнаті. Рух розширює невизначеність, тоді як показання датчиків зменшують невизначеність.

Я пам'ятаю кодування деяких процедур, щоб зробити це. Я виписав розумну, теоретично вмотивовану модель для ймовірності спостерігати за різними показаннями сонару з урахуванням справжніх значень. Все було точно виведено та зашифровано красиво. Тоді я йду перевірити це ...

Що сталося? Тотальний збій! Чому? Мій фільтр для частинок швидко подумав, що показання датчиків усунули майже всю невизначеність. Моя хмара точок обвалилася до точки, але мій робот не був обов’язково в цій точці!

В основному, моя вірогідність була поганою; показання мого датчика були не такими інформативними, як я вважав. Я був надмірний. Вирішення? Я змішав тонну більше гауссового шуму (досить спеціально), точкова хмара перестала руйнуватися, і тоді фільтрація працювала досить гарно.

Мораль?

Як виразно казав Box, "всі моделі помиляються, але деякі корисні". Майже напевно, ви не будете мати справжню функцію вірогідності, і якщо вона буде достатньо вимкнена, ваш байєсівський метод може стати жахливо неправдивим і непоганим.

Додавання попереднього не магічно вирішує проблеми, що виникають із припущення, що спостереження є IID, якщо їх немає, припускаючи, що ймовірність має більшу кривизну, ніж це і т.д. ...


3
"Віньєтка ззаду в недограді ... Класичне застосування баєсівської фільтрації частинок - це відстежувати місце роботи, коли він рухається по кімнаті" ... що, де був ваш недоградок? :)
Cliff AB
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.