Методи висновку MaxEnt та Bayesian відповідають різним способам включення інформації у вашу процедуру моделювання. І те й інше можна поставити на аксіоматичну основу ( "Аксіоми максимальної ентропії" Джона Скіллінга та "Алгебра ймовірного виводу" Кокса ).
Байєсівський підхід легко застосувати, якщо ваші попередні знання надходять у формі вимірюваної функції, що реально оцінюється, у вашому просторі гіпотез, так званого "попереднього". MaxEnt відвертий, коли інформація надходить як сукупність жорстких обмежень у вашому просторі гіпотез. У реальному житті знання не надходять ні в "попередній" формі, ні в "обмежувальній" формі, тому успіх вашого методу залежить від вашої здатності представляти свої знання у відповідній формі.
Що стосується проблеми з іграшками, усереднення моделей Bayesian дасть вам найнижчі середні втрати журналу (усереднені на багатьох малюнках), коли попередній збіг відповідає справжньому розподілу гіпотез. Підхід MaxEnt дасть вам найнижчий найгірший випадок втрати журналу, коли його обмеження будуть задоволені (найгірший за всіх можливих пріоритетів)
ETJaynes, вважається батьком методів "MaxEnt", також покладався на байєсівські методи. На сторінці 1412 своєї книги він наводить приклад, коли баєсовський підхід спричинив вдале рішення, а потім приклад, коли підхід MaxEnt є більш природним.
Максимальна ймовірність, по суті, змушує модель лежати в певному заздалегідь визначеному просторі моделі і намагається вкласти її "якомога сильніше" в сенсі, що вона буде мати найбільшу чутливість до даних із усіх методів вибору моделі, обмежених такою моделлю простір. Тоді як MaxEnt та Bayesian є рамками, ML є конкретним методом підгонки моделі, і для деяких конкретних варіантів дизайну ML може закінчити метод, що виходить із байєсівського або MaxEnt підходу. Наприклад, MaxEnt з обмеженнями рівності еквівалентний максимальній вірогідності відповідності певній експоненціальній родині. Аналогічно, наближення до байєсівського висновку може призвести до регульованого рішення максимальної ймовірності. Якщо ви обираєте свій попередній висновок, щоб зробити свої висновки максимально чутливими до даних, результат байєсівського висновку відповідатиме максимальній вірогідності. Наприклад,p
Успіхи машинного навчання в реальному житті часто є поєднанням різних філософій. Наприклад, "Випадкові поля" отримані з принципів MaxEnt. Найпопулярніша реалізація ідеї, регульована CRF, передбачає додавання "попередніх" параметрів. Як результат, метод насправді не є Максентом чи Байезіаном, але під впливом обох шкіл думки.
Я зібрав кілька посилань на філософські основи байєсівського та максентового підходів тут і тут .
Примітка щодо термінології: іноді люди називають їх метод Байесіаном просто, якщо він в якийсь момент використовує правило Байєса. Так само "MaxEnt" іноді використовується для певного методу, який надає перевагу рішенням з високою ентропією. Це не те саме, що "Максент-умовивід" або "Байєсівський висновок", як описано вище