Порівняння між MaxEnt, ML, Bayes та іншими методами статистичних висновків


21

Я жодним чином не є статистиком (я пройшов курс математичної статистики, але не більше того), і нещодавно, вивчаючи теорію інформації та статистичну механіку, я зустрів цю річ під назвою "міра невизначеності" / "ентропія". Я читав виведення цього Хінчіна як міру невизначеності, і це мало для мене сенс. Інша річ, яка мала сенс - опис Джейнеса MaxEnt, щоб отримати статистику, коли ви знаєте середнє арифметичне однієї або декількох функцій / с на вибірці (якщо припустити, що ви приймаєте як міру невизначеності, звичайно). -pilnpi

Тож я шукав в мережі, щоб знайти зв’язок з іншими методами статистичного висновку, і Бог був збентежений. Наприклад, цей документ пропонує, припускаючи, що я правильно зрозумів, що ви просто отримали оцінювач ML під відповідним переформулюванням проблеми; У своїй книзі Маккі каже, що MaxEnt може дати вам дивні речі, і ви не повинні використовувати це навіть для початкової оцінки байєсівського висновку; і т. д. У мене виникають труднощі в пошуку хороших порівнянь.

Моє запитання полягає в тому, чи можете ви надати пояснення та / або хороші затримки слабких та сильних сторін MaxEnt як методу статистичного виводу з кількісним порівнянням з іншими методами (наприклад, якщо застосовувати їх до моделей іграшок)?

Відповіді:


19

Методи висновку MaxEnt та Bayesian відповідають різним способам включення інформації у вашу процедуру моделювання. І те й інше можна поставити на аксіоматичну основу ( "Аксіоми максимальної ентропії" Джона Скіллінга та "Алгебра ймовірного виводу" Кокса ).

Байєсівський підхід легко застосувати, якщо ваші попередні знання надходять у формі вимірюваної функції, що реально оцінюється, у вашому просторі гіпотез, так званого "попереднього". MaxEnt відвертий, коли інформація надходить як сукупність жорстких обмежень у вашому просторі гіпотез. У реальному житті знання не надходять ні в "попередній" формі, ні в "обмежувальній" формі, тому успіх вашого методу залежить від вашої здатності представляти свої знання у відповідній формі.

Що стосується проблеми з іграшками, усереднення моделей Bayesian дасть вам найнижчі середні втрати журналу (усереднені на багатьох малюнках), коли попередній збіг відповідає справжньому розподілу гіпотез. Підхід MaxEnt дасть вам найнижчий найгірший випадок втрати журналу, коли його обмеження будуть задоволені (найгірший за всіх можливих пріоритетів)

ETJaynes, вважається батьком методів "MaxEnt", також покладався на байєсівські методи. На сторінці 1412 своєї книги він наводить приклад, коли баєсовський підхід спричинив вдале рішення, а потім приклад, коли підхід MaxEnt є більш природним.

Максимальна ймовірність, по суті, змушує модель лежати в певному заздалегідь визначеному просторі моделі і намагається вкласти її "якомога сильніше" в сенсі, що вона буде мати найбільшу чутливість до даних із усіх методів вибору моделі, обмежених такою моделлю простір. Тоді як MaxEnt та Bayesian є рамками, ML є конкретним методом підгонки моделі, і для деяких конкретних варіантів дизайну ML може закінчити метод, що виходить із байєсівського або MaxEnt підходу. Наприклад, MaxEnt з обмеженнями рівності еквівалентний максимальній вірогідності відповідності певній експоненціальній родині. Аналогічно, наближення до байєсівського висновку може призвести до регульованого рішення максимальної ймовірності. Якщо ви обираєте свій попередній висновок, щоб зробити свої висновки максимально чутливими до даних, результат байєсівського висновку відповідатиме максимальній вірогідності. Наприклад,p

Успіхи машинного навчання в реальному житті часто є поєднанням різних філософій. Наприклад, "Випадкові поля" отримані з принципів MaxEnt. Найпопулярніша реалізація ідеї, регульована CRF, передбачає додавання "попередніх" параметрів. Як результат, метод насправді не є Максентом чи Байезіаном, але під впливом обох шкіл думки.

Я зібрав кілька посилань на філософські основи байєсівського та максентового підходів тут і тут .

Примітка щодо термінології: іноді люди називають їх метод Байесіаном просто, якщо він в якийсь момент використовує правило Байєса. Так само "MaxEnt" іноді використовується для певного методу, який надає перевагу рішенням з високою ентропією. Це не те саме, що "Максент-умовивід" або "Байєсівський висновок", як описано вище


1
Спасибі. Я не думав, що "Логіка науки" теж говорила про цей матеріал, я обов'язково буду читати цю книгу.
Франческо

19

Для розважальної критики методів максимальної ентропії я б рекомендував прочитати кілька старих публікацій групи новин на sci.stat.math та sci.stat.consult, зокрема ті, які від Radford Neal:

Мені невідомі будь-які порівняння між maxent та іншими методами: частина проблеми, здається, полягає в тому, що maxent насправді не є рамкою, а неоднозначною директивою ("стикаючись з невідомим, просто максимізуйте ентропію"), що є трактуються по-різному різними людьми.


4
(+1) Ця нитка 2002 року - це пекельний обмін ідеями.
whuber

1
Зауважимо, що "виведення стін" максимуму, що дане Едвіном Джейнсом в "Теорії ймовірностей: Логіка науки" дає "експериментальне" обґрунтування для максимізації ентропії. У дискретних розподілах, якщо ми починаємо з принципу байдужості (PID), а в основному виконуємо вибірку відхилення на ймовірності, використовуючи обмеження для прийняття або відхилення випадкових рівномірних вибірок. Отримана ймовірність потім довільно близька до (дискретного) максимального розподілу.
ймовірністьілогічний

3

Це правда, що в минулому MaxEnt і Bayes мали справу з різними типами або формами інформації. Я б сказав, що Байєс також використовує "жорсткі" обмеження, але ймовірність.

У будь-якому випадку, це вже не проблема, оскільки Правило Байєса (не правило про товар) можна отримати від Максимальної відносної ентропії (MrE), а не неоднозначно:

Це новий світ ...

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.