Частотність і пріори


17

У коментарі до цього повідомлення Робі Маккіліам говорить :

Слід зазначити, що, з точки зору відвідувачів, немає причин, щоб ви не могли включити попередні знання до моделі. У цьому сенсі частофілістський погляд простіший, у вас є лише модель та деякі дані. Немає необхідності відокремлювати попередню інформацію від моделі

Також тут @jbowman каже, що часто відвідувачі використовують регуляризацію за допомогою вартості / штрафу, тоді як байєси можуть зробити це попереднім:

Часті фахівці зрозуміли, що регуляризація - це добре, і вживають її досить часто в наші дні - і байесовські пріори можна легко інтерпретувати як регуляризацію.

Отже, моє запитання: чи можуть взагалі лікарі-лікарі включати у свої моделі те, що баєси визначають як пріори? Взявши за приклад регуляризацію, чи реально інтегрована в модель функція витрат / штрафу чи це суто штучний засіб коригування рішення (а також зробити його унікальним)?


Чи міг модератор сповістити jbowman та Robby, щоб вони могли розробитись? Або це не підходить?
Патрік

1
Патріку, ви можете повідомити про це будь-якого учасника цього веб-сайту за допомогою конструкції "@". Я проілюстрував це крихітною редакцією.
whuber

Працює в обох місцях :-).
whuber

Боже, @whuber, я не отримував сповіщення ... можливо, редагування цього не робить? Зараз мені цікаво.
jbowman

1
Гаразд, виявляється, я помилявся : механізм "@" працює в коментарях, а не в питаннях. (Але все-таки jbowman знайшов це питання.)
whuber

Відповіді:


8

Стосовно коментаря Робі Маккілліама: я думаю, що труднощі, які виникають у частоліста, пов'язані з цим, полягають у визначенні "попереднього знання", а не в можливості включення попередніх знань у модель. Наприклад, розглянемо оцінку ймовірності того, що дана монета придумає голову. Припустимо, що мої попередні знання, по суті, були експериментом, коли ця монета була перевернута 10 разів і придумала 5 голів, або, можливо, форми "фабрика зробила 1 мільйон монет, а dist'n , як визначається величезними експериментами, є β ( a , b )pβ(a,b)". Усі користуються правилом Байєса, коли у вас дійсно є попередня інформація такого типу (Правило Байєса просто визначає умовну ймовірність, це не є лише баєсівською річчю), тому в реальному житті частофіліст і байєсівці використовуватимуть однаковий підхід, і включіть інформацію в модель за допомогою Правила Байєса. (Caveat: якщо розмір вибірки не є достатньо великим, ви впевнені, що попередня інформація не вплине на результати). Однак інтерпретація результатів звичайно, різні.

Складність виникає, особливо з філософської точки зору, оскільки знання стають менш об'єктивними / експериментальними та більш суб'єктивними. Як це станеться, частість, швидше за все, стане менш схильною включати цю інформацію до моделі взагалі, тоді як у байесівців все ще є деякі більш-менш формальні механізми для цього, труднощі з вилученням суб'єктивного попереднього незважаючи на це.

Щодо регуляризації: Розглянемо ймовірність та попереднього p ( θ ) . Ніщо не заважає, принаймні не технічно, частолюбиві використовувати максимальну оцінку ймовірності, "регульовану" журналом p ( θ ) , як у:l(θ;x)p(θ)logp(θ)

θ~=maxθ{logl(θ;x)+logp(θ)}

Для Гаусса це означає, що квадратичне покарання скорочується θ до середнього рівня гаусса і так далі для інших розподілів. ˜ θ дорівнює максимальній оцінці післяорі (МАР) байєсів, використовуючи ту саму функцію ймовірності та попередню. Звичайно, знову ж таки, інтерпретація частофілістських та баєсівських оцінок буде відрізнятися. Байєсівський також не обмежений у використанні оцінки точки MAP, маючи доступ до повного розподілу задніх частин, але тоді, частофіліст не повинен максимізувати ймовірність регульованого журналу, не маючи змоги використовувати різні надійні оцінки чи метод -моменти тощо, якщо вони є.p(θ)θθ~

Знову ж таки, складність виникає з філософської точки зору. Чому вибирають одну функцію регуляризації над іншою? Байєсиець може це зробити - перейшовши на попередній погляд - шляхом оцінки попередньої інформації. У частофіліста було б важче (не в змозі?) Виправдовувати вибір з цих причин, але натомість, швидше за все, це зробить багато в чому, виходячи з властивостей функції регуляризації, застосованої до його / її типу проблеми, як дізналися з спільної роботи робота / досвід багатьох статистиків. ОТО, (прагматичні) байєси теж роблять це з пріорами - якби у мене було 100 доларів за кожний документ про пріори за варіанти, які я читав ...

Інші "думки": Я пропустив всю проблему вибору функції ймовірності, вважаючи, що на неї не впливає частолістська / байєсівська точка зору. Я впевнений, що в більшості випадків це так, але я можу уявити, що в незвичних ситуаціях це було б, наприклад, з обчислювальних причин.

θθ


Тож, якщо я правильно вас розумію: технічно, формально, частофіліст може регулювати те, скільки йому подобається, але у нього виникнуть проблеми з виправданням. У байєсівців все ще можуть виникнути проблеми з кількісною оцінкою його регуляризації, але якісно (і) він має послідовний спосіб включити його.
Патріку

Байєсівський також не обмежений у використанні оцінки точки MAP, маючи доступ до повного розподілу задніх частин - але тоді, частофілісту не потрібно максимізувати ймовірність регульованого журналу, не маючи змоги використовувати різні надійні оцінки чи метод -моменти тощо, якщо вони є. Частоту не потрібно максимізувати. Але це все-таки метод, доступний частотаністам, якщо вони вирішили так, чи не так? Моя думка полягає в тому, що з історичних причин (без комп’ютерів!) У частотантів багато розумних оцінювачів, які вони використовують, замість того, щоб обчислити функцію повного вірогідності.
Патрік

5

Для відповіді на це питання корисно визначити частолізм як "інтерес до властивостей вибіркового розподілу функцій даних". Такі функції можуть бути точковими оцінками, p-значеннями тестової статистики, довірчими інтервалами, результатами тесту Неймана-Пірсона або взагалі будь-що інше, про що ви можете придумати. Честота не вказує, як конструювати оцінки, p-значення тощо, у повній загальності, хоча існують деякі вказівки, наприклад, використовувати достатню статистику, якщо вони є, використовувати основні статистичні дані, якщо вони доступні тощо. з точки зору, попередня інформація не включена в модель сама по собі , а скоріше у дані відображення функції до виводу функції.

Згаданий вище "інтерес" полягає у властивостях, які вважаються важливими для висновку, такі як відсутність зміщення, асимптотична консистенція, дисперсія, середня квадратична помилка, середня абсолютна помилка, довірче покриття (особливо номінальне проти фактичного), контроль помилок типу I та будь-що інше інше, що має очевидне або інтуїтивне значення для вивчення даних. Ці властивості можна оцінити (за допомогою моделювання, якщо нічого іншого), чи функція містить попередню інформацію.

Особливий інтерес зосереджується на властивостях, які, як відомо, зберігають незалежно від фактичних значень параметрів, що лежать в основі процесу генерації даних. Наприклад, у звичайній моделі iid з відомою дисперсією середнє значення даних є неупередженим та асимптотично послідовним для середнього розподілу незалежно від того, що це є. На противагу цьому, оцінювач усадки (середньозважене середнє значення даних та попередня здогадка про середнє значення розподілу) має нижчу середню квадратичну помилку, якщо середнє значення розподілу близька до попередньої здогадки, але вищу середню помилку квадрата в іншому випадку, хоча вона " успадковує "асимптотичну консистенцію від середнього значення даних.

Тому я б сказав, що попередній відомості можна вводити в метод висновку, але він не входить у модель. Дійсно чудова ілюстрація понять, які я окреслив у контексті довірчих інтервалів для фізичних властивостей, які обов'язково є негативними, - це Фельдман і Кузенс, Єдиний підхід до класичного статистичного аналізу малих сигналів .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.