Чому слід розбити знаменник у теоремі Байєса?


23

(Я новачок у статистиці. Я математик і програміст, і намагаюся створити щось на кшталт наївного байєсівського фільтра спаму.)

Я помітив у багатьох місцях, що люди, як правило, розбивають знаменник у рівнянні з теореми Байєса. Тож замість цього:

P(A|B)P(B)P(A)

Нам представлено таке:

P(A|B)P(B)P(A|B)P(B)+P(A|¬B)P(¬B)

Ви можете бачити, що ця конвенція використовується в цій статті Вікіпедії та в цій проникливій публікації Тіма Пітерса.

Мене це бентежить. Чому знаменник розбивається так? Як це взагалі допомагає? Що так складного в обчисленні , що у випадку зі спам-фільтрами було б ?P(A)The probability that the word "cheese" appears in an email, regardless of whether it's spam or not


Я підозрюю, що відповідь є доменним (тобто специфічним для фільтрів спаму). Якщо ви можете обчислити компоненти P (A | B) тощо, ви повинні мати можливість обчислити простіший P (A), як ви заявили. Або, можливо, відповідь пов’язана з педагогікою, щоб читачі зрозуміли взаємозв'язок між P (A) та її розкладанням через P (A | B), P (B) тощо

1
Я не маю чіткої відповіді, але можу сказати, що я зробив дурні помилки на тестах, де я міг просто включити дату в явний знаменник, але я подумав, що знаю P (A) і помилявся.
Уейн

Відповіді:


16

Коротка відповідь на ваше запитання полягає в тому, що "більшість часу ми не знаємо, що таке Р (сир), і його часто (відносно) важко обчислити".

Більш довга відповідь, чому правило / теорема Байєса, як правило, викладено так, як ви написали, тому що в байесівських проблемах у нас - сидячи на колінах - попередній розподіл (P (B) вище) та ймовірність (P (A | B), P (A | notB) вище), і обчислити задню (P (B | A)) порівняно просто. Проблема з повторним вираженням P (A) в узагальненому вигляді - це зусилля, які можна витратити в іншому місці.

Це може здатися не таким складним у контексті електронного листа, оскільки, як ви правильно зазначали, це просто P (сир), правда? Проблема полягає в тому, що при більш задіяних байєсівських проблемах на полі бою знаменник є непривабливим інтегралом, який може мати або не мати рішення закритої форми. Насправді іноді нам потрібні складні методи Монте-Карло лише для наближення інтеграл, а числення чисел може бути справжнім болем у тилу.

Але до речі, нас зазвичай навіть не хвилює, що таке P (сир). Майте на увазі, ми намагаємося відточити нашу думку щодо того, чи є електронний лист спамом чи ні , і ми не можемо менше дбати про граничний розподіл даних (P (A) вище). Це все одно лише константа нормалізації, яка не залежить від параметра; акт підсумовування вимиває будь-яку інформацію, яку ми мали про параметр. Константа - це неприємність для обчислення, і в кінцевому рахунку не має значення, коли мова йде про занулення наших переконань щодо того, спам електронної пошти чи ні. Іноді ми зобов’язані його обчислити, і в цьому випадку найшвидший спосіб це зробити з інформацією, яку ми вже маємо: попередньою та ймовірною.


Чи може хтось навести та приклад "непривабливого інтегралу, який може мати, а може і не мати рішення закритої форми", який би використовувався в якійсь проблемі?
PaulG

8

Однією з причин використання правила загальної ймовірності є те, що ми часто маємо справу з ймовірностями компонентів у цьому виразі, і граничну ймовірність просто знайти просто, підключивши значення. Для ілюстрації цього див. Наступний приклад у Вікіпедії:

Ще одна причина - визнання рівнозначних форм Правила Байєса шляхом маніпулювання цим виразом. Наприклад:

P(B|A)=P(A|B)P(B)P(A|B)P(B)+P(A|¬B)P(¬B)

Розділіть через РЗС чисельник:

P(B|A)=11+P(A|¬B)P(A|B)P(¬B)P(B)

Що є приємною еквівалентною формою для Правила Байєса, зробленим ще зручнішим, віднімаючи це від початкового виразу, щоб отримати:

P(¬B|A)P(B|A)=P(A|¬B)P(A|B)P(¬B)P(B)

Це правило Байєса, зазначене в перерахунку на коефіцієнти, тобто задні шанси проти B = коефіцієнт Байєса проти B, більший за попередній коефіцієнт проти B. співвідношення ймовірностей ваших моделей. Зважаючи на те, що ми не впевнені в основі механізму генерації даних, ми спостерігаємо дані та оновлюємо свої переконання.

Я не впевнений, чи вважаєте ви це корисним, але, сподіваємось, це не збентежує; ви, очевидно, повинні працювати з виразом, який найкраще підходить для вашого сценарію. Можливо, хтось інший може зв'язатись з ще кращими причинами.


Можна піти ще на крок і взяти журнали. Тоді у вас є коефіцієнт log-posterior = коефіцієнт log-пріоритет + коефіцієнт
імовірності

6

P(A)

P(A)P(A|B)Бє репрезентативним для шинки ), ви можете точно сказати багато. Принаймні в моєму випадку я не отримую багато спаму, який містить сир, тому в моєму випадкуП(А|Б)буде високим (скажімо, 90%). АналогічноП(А|¬Б)в моєму випадку буде низьким, оскільки не так багато спамів містять слово сир. В основному ми намагаємось розглянути подію інтересу (тут A ), розділену на дві непересічні події,Б і ¬Б. Якщо ми розділимо A на два окремих події, ми можемо краще сказати про умовні ймовірностіП(А|Б) і П(А|¬Б). Для отримання загальної ймовірності нам також слід зважити умовні ймовірності настання подій, за якими ми обумовлюємо, тобтоП(Б) і П(¬Б). Тому заключний вираз

П(А)=П(А|Б)П(Б)+П(А|¬Б)П(¬Б)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.