Чи є якась різниця між частотологом і байесівським щодо визначення ймовірності?


21

Деякі джерела кажуть, що ймовірність функції не є умовною ймовірністю, деякі кажуть, що вона є. Це дуже бентежить мене.

Згідно з більшістю джерел, які я бачив, вірогідність розподілу з параметром θ повинна бути добутком функцій масової ймовірності, заданих n зразками xi :

L(θ)=L(x1,x2,...,xn;θ)=i=1np(xi;θ)

Наприклад, у логістичній регресії ми використовуємо алгоритм оптимізації для максимізації функції ймовірності (максимальна оцінка ймовірності) для отримання оптимальних параметрів і, отже, остаточної моделі LR. Враховуючи n навчальних зразків, які ми вважаємо незалежними один від одного, ми хочемо максимально добути добуток ймовірностей (або спільних функцій маси ймовірностей). Це здається мені цілком очевидним.

Відповідно до відносин між: ймовірність, умовна ймовірність та рівень відмови , "ймовірність не є ймовірністю і не є умовною ймовірністю". Він також зазначав, що "ймовірність є умовною ймовірністю лише в байєсівському розумінні ймовірності, тобто, якщо припустити, що θ - випадкова величина".

Я читав про різні перспективи вирішення проблеми навчання між частопеціалістами та баєсами.

Згідно з джерелом, для байєсівського умовиводу маємо апріорі , ймовірність P ( X | θ ) , і ми хочемо отримати задній P ( θ | X ) , використовуючи байєсівську теорему:P(θ)P(X|θ)P(θ|X)

P(θ|X)=P(X|θ)×P(θ)P(X)

Я не знайомий з байєсівським висновком. Як так ( який обумовлений розподілом спостережуваних даних за його параметрами, також називається ймовірністю? У Вікіпедії сказано, що іноді пишеться L ( θ | X ) = p ( X | θ ) . Що це означає?P(X|θ)L(θ|X)=p(X|θ)

чи є різниця між визначеннями частопеніста і баєсіана щодо ймовірності ??

Спасибі.


Редагувати:

Існують різні способи інтерпретації теореми Байєса - байєсівська інтерпретація та частота інтерпретація (Див .: теорема Байєса - Вікіпедія ).


2
Дві ключові властивості ймовірності полягають у тому, що (a) що це функція для певного X, а не навпаки, і (b) вона може бути відома лише до позитивної постійної пропорційності. Це не вірогідність (умовна чи інша), тому що її не потрібно підсумовувати чи інтегрувати до 1 над усіма θθX1θ
Генрі

Відповіді:


24

У визначенні немає різниці - в обох випадках функцією ймовірності є будь-яка функція параметра, пропорційна щільності вибірки. Власне кажучи, ми не вимагаємо, щоб ймовірність дорівнювала щільності вибірки; він повинен бути лише пропорційним, що дозволяє видаляти мультиплікативні частини, що не залежать від параметрів.

Якщо щільність вибірки інтерпретується як функція даних, що обумовлюється заданим значенням параметра, функція ймовірності інтерпретується як функція параметра для фіксованого вектора даних. Отже, у стандартному випадку даних IID у вас є:

Lx(θ)i=1np(xi|θ).

У статистиці Байєса ми зазвичай виражаємо теорему Байєса в найпростішому вигляді як:

π(θ|x)π(θ)Lx(θ).

Це вираження теореми Байєса підкреслює, що обидва його багатоактивні елементи є функціями параметра, який є об'єктом інтересу задньої щільності. (Цей результат пропорційності повністю визначає правило, оскільки задній - це щільність, і тому існує унікальна множинна константа, яка змушує її інтегруватися до одиниці.) Як ви вказуєте у своєму оновлення, байєсівська та частолістська філософія мають різні інтерпретаційні структури. У парадигмі часто-періодизму параметр, як правило, трактується як "фіксована константа", і тому йому не приписують міру ймовірності. Тому часто часто відкидають приписування параметри попереднього або заднього розподілу (детальніше про ці філософські та інтерпретаційні відмінності див., Наприклад, O'Neill 2009 ).


14

Функція правдоподібності визначається незалежно один від або до - статистичної парадигми, яка використовується для виведення, як функція, L ( & thetas ; ; х ) (або L ( & thetas ; | х ) ), параметр & thetas , функція, що залежить від - або індексуються - оглядового (с) х доступні для цього логічного висновку. А також неявно залежно від сімейства імовірнісних моделей, обраних для відображення змінності чи випадковості даних. Для заданого значення пари ( θ ,L(θ;x)L(θ|x)θxЩо часто грубо перекладається як "ймовірність даних". , значення цієї функції точноідентичне значенню щільності моделі при х, коли індексується параметром θ .(θ,x)xθ

Цитувати більш авторитетні та історичні джерела, ніж попередні відповіді на цьому форумі,

"Ми можемо обговорити ймовірність появи величин, які можна спостерігати ... стосовно будь-яких гіпотез, які можуть бути запропоновані для пояснення цих спостережень. Ми не можемо нічого знати про ймовірність гіпотез ... [Ми] можемо встановити ймовірність. гіпотез… шляхом обчислення за спостереженнями:… говорити про ймовірність… спостережуваної величини не має сенсу ”. Р. А. Фішер, Про `` ймовірну помилку '' коефіцієнта кореляції, виведеного з невеликої вибірки . Метрон 1, 1921, с.25

і

"Те, що ми можемо знайти з вибірки, - це ймовірність будь-якого конкретного значення r, якщо ми визначимо ймовірність як величину, пропорційну ймовірності того, що з популяції, яка має конкретне значення r, вибірка, що має спостережуване значення r , слід отримати ". Р. А. Фішер, Про `` ймовірну помилку '' коефіцієнта кореляції, виведеного з невеликої вибірки . Метрон 1, 1921, с.24

яка згадує про пропорційність, яку Джеффріс (і я) вважають зайвою:

"... ймовірність, це зручний термін, введений професором Р.А. Фішером, хоча його використання іноді помножується на постійний коефіцієнт. Це ймовірність спостережень за даними вихідної інформації та обговорюваної гіпотези". Х. Джеффріс, Теорія ймовірності , 1939, с.28

Цитую лише одне речення з чудового історичного запису до теми Джона Олдріха (Статистична наука, 1997):

"Фішер (1921, с. 24) переробив те, що він написав у 1912 р. Про зворотну ймовірність, розрізняючи математичні операції, які можна виконати на щільності ймовірності: ймовірність не є" диференціальним елементом ", вона не може бути інтегрована . " Дж. Олдріч, Р. А. Фішер та створення максимальної ймовірності 1912 - 1922 , 1997 , с.9

xθθxθθθπ()XxL(θ|)θ(θ,x)

π(θ)×L(θ|x)
θθx
π(θ|x)π(θ)×L(θ|x)
posteriorprior×likelihood

Примітка. Я знаходжу розрізнення у вступі на сторінці Вікіпедії щодо ймовірності функцій частолістських та байєсівських імовірностей заплутаною та непотрібною, або просто помилковою, оскільки велика більшість нинішніх байєсівських статистиків не використовує ймовірність як заміну задньої ймовірності. Аналогічно, "різниця", зазначена на сторінці Вікіпедії про теорему Байєса, звучить більш заплутано, ніж будь-що інше, оскільки ця теорема є твердженням про ймовірність зміни кондиції, незалежної від парадигми або від значення твердження про ймовірність. ( На мою думку , це швидше визначення, ніж теорема!)


1

Як невеликий додаток:

Назва "Ймовірність" цілком вводить в оману, оскільки існує дуже багато різних можливих значень. Не лише в "нормальній мові", а й у статистиці. Я можу придумати щонайменше три різні, але навіть споріднені вирази, які всі називають вірогідністю; навіть у підручниках.

Однак, якщо приймати мультипликативне визначення ймовірності, в ньому немає нічого, що перетворить його на якусь імовірність у сенсі його (наприклад, аксіоматичного) визначення. Це число в реальному значенні. Ви можете зробити багато речей, щоб обчислити або пов’язати це з ймовірністю (беручи коефіцієнти, обчислюючи пріори та постеріори тощо) - але саме по собі це не має значення з точки зору ймовірності.

Відповідь була більш-менш застаріла набагато більш інформативною та всебічною відповіддю Сіань. Але на запит, деякі текстові книги визначення вірогідності:

  • L(x;θ)
  • θ
  • співвідношення значень правдоподібності для різних пріорів (наприклад, у задачі класифікації) ... і крім того, різні значення, які можна спробувати віднести до (ab) використання вищезгаданих елементів.

1
Це було б набагато кращою відповіддю, якби ви могли додати приклади / посилання на те, що я можу придумати щонайменше три різні, але навіть споріднені вирази, які всі називають вірогідністю; навіть у підручниках .
kjetil b halvorsen
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.