Стосовно коментаря Робі Маккілліама: я думаю, що труднощі, які виникають у частоліста, пов'язані з цим, полягають у визначенні "попереднього знання", а не в можливості включення попередніх знань у модель. Наприклад, розглянемо оцінку ймовірності того, що дана монета придумає голову. Припустимо, що мої попередні знання, по суті, були експериментом, коли ця монета була перевернута 10 разів і придумала 5 голів, або, можливо, форми "фабрика зробила 1 мільйон монет, а dist'n , як визначається величезними експериментами, є β ( a , b )pβ(a,b)". Усі користуються правилом Байєса, коли у вас дійсно є попередня інформація такого типу (Правило Байєса просто визначає умовну ймовірність, це не є лише баєсівською річчю), тому в реальному житті частофіліст і байєсівці використовуватимуть однаковий підхід, і включіть інформацію в модель за допомогою Правила Байєса. (Caveat: якщо розмір вибірки не є достатньо великим, ви впевнені, що попередня інформація не вплине на результати). Однак інтерпретація результатів звичайно, різні.
Складність виникає, особливо з філософської точки зору, оскільки знання стають менш об'єктивними / експериментальними та більш суб'єктивними. Як це станеться, частість, швидше за все, стане менш схильною включати цю інформацію до моделі взагалі, тоді як у байесівців все ще є деякі більш-менш формальні механізми для цього, труднощі з вилученням суб'єктивного попереднього незважаючи на це.
Щодо регуляризації: Розглянемо ймовірність та попереднього p ( θ ) . Ніщо не заважає, принаймні не технічно, частолюбиві використовувати максимальну оцінку ймовірності, "регульовану" журналом p ( θ ) , як у:l(θ;x)p(θ)logp(θ)
θ~=maxθ{logl(θ;x)+logp(θ)}
Для Гаусса це означає, що квадратичне покарання скорочується θ до середнього рівня гаусса і так далі для інших розподілів. ˜ θ дорівнює максимальній оцінці післяорі (МАР) байєсів, використовуючи ту саму функцію ймовірності та попередню. Звичайно, знову ж таки, інтерпретація частофілістських та баєсівських оцінок буде відрізнятися. Байєсівський також не обмежений у використанні оцінки точки MAP, маючи доступ до повного розподілу задніх частин, але тоді, частофіліст не повинен максимізувати ймовірність регульованого журналу, не маючи змоги використовувати різні надійні оцінки чи метод -моменти тощо, якщо вони є.p(θ)θθ~
Знову ж таки, складність виникає з філософської точки зору. Чому вибирають одну функцію регуляризації над іншою? Байєсиець може це зробити - перейшовши на попередній погляд - шляхом оцінки попередньої інформації. У частофіліста було б важче (не в змозі?) Виправдовувати вибір з цих причин, але натомість, швидше за все, це зробить багато в чому, виходячи з властивостей функції регуляризації, застосованої до його / її типу проблеми, як дізналися з спільної роботи робота / досвід багатьох статистиків. ОТО, (прагматичні) байєси теж роблять це з пріорами - якби у мене було 100 доларів за кожний документ про пріори за варіанти, які я читав ...
Інші "думки": Я пропустив всю проблему вибору функції ймовірності, вважаючи, що на неї не впливає частолістська / байєсівська точка зору. Я впевнений, що в більшості випадків це так, але я можу уявити, що в незвичних ситуаціях це було б, наприклад, з обчислювальних причин.
θθ