Коефіцієнт вірогідності журналу при узагальненні документів


9

Я спочатку запитав це про переповнення стека і був спрямований на цей сайт, тож ось:

Я впроваджую кілька непідконтрольних методів підбору вмісту / вибору вмісту / вилучення вмісту документів, і я збентежений тим, що мій підручник називає "коефіцієнт вірогідності журналу". Книга " Обробка мови та мови " Юрафського та Мартіна коротко описує її як таку:

LLR для слова, загалом називається лямбда (w), - це співвідношення між ймовірністю спостереження w як вхідного, так і у фоновому корпусі, припускаючи однакові ймовірності в обох корпусах, та ймовірністю спостереження w в обох, якщо припускати різні ймовірності для w у вхідному і фоновому корпусі.

Розбиваючи це вниз, у нас є чисельник: "ймовірність спостереження w як у вхідному, так і у фоновому корпусі, припускаючи однакові ймовірності в обох корпусах" - Як я обчислюю, яку ймовірність використовувати тут?

і знаменник: "ймовірність дотримання w як при допущенні різних ймовірностей для w у вхідному, так і у фоновому корпусі". - це так просто, як ймовірність появи слова у вхідні рази ймовірності того, що слово трапляється в корпусі? колишній:

(кількість (слово, введення) / загальна кількість слів у введенні) * (кількість (слово, корпус) / загальна кількість слів у корпусі)

Я переглядав документ, в якому згадуються мої книги, " Точні методи статистики сюрпризу та випадковості" (Dunning 1993), але мені важко пов'язатись із проблемою обчислення значень LLR для окремих слів під час узагальнення на основі вилучення. Будь-яке уточнення тут було б дуже вдячне.


1
Чи можете ви сказати нам, що таке підручник?
onestop

Обробка мови та мови Jurafsky & Martin
Річард

Відповіді:


1

Маючи свої обмежені знання, я думаю:

  1. "ймовірність спостереження w на вході" вимагає розподілу для обчислення значення
  2. "ймовірність спостереження w як вхідного, так і у фоновому корпусі, припускаючи однакові ймовірності в обох корпусах" означає "ймовірність дотримання w ... враховуючи, що ймовірність w є однаковою для обох корпорацій".

Ось моя рецептура для цього:


Трохи сформулювавши проблему:

  1. Гіпотеза 1: P (w у вході) = P (w у фоновому режимі) = p
  2. Гіпотеза 2: P (w на вході) = p1 і P (w у фоновому режимі) = p2 і p1 р2

Критична частина полягає в тому, що вам потрібно буде припустити розподіл тут. Спрощено, ми припускаємо біноміальний розподіл для генерації w у тексті. З огляду на вибіркові дані, ми можемо використовувати максимальну оцінку ймовірності для обчислення значень p, p1 та p2, і ось вони:

  1. p = (count-of-w-in-input + count-of-w-in-background) / (input-size + background-size) = (c1 + c2) / (N1 + N2)
  2. p1 = c1 / N1
  3. p2 = c2 / N2

Ми хочемо знати, яка гіпотеза є більш вірогідною. Тому ми обчислюємо ймовірність кожної гіпотези і порівнюємо одна з одною (що в основному є тим, що має відношення ймовірності).

Оскільки ми припускаємо біноміальний розподіл , ми можемо обчислити ймовірність наявності c1 та c2.

Для гіпотези 1:

L (c1) = Ймовірність спостереження w у вході = ймовірність досягнення c1, коли є слова N1, припускаючи ймовірність p (або, іншими словами, вибір w для c1 разів з N1 разів) є b (N1, c1 , p) - див. формулу ймовірності бінома тут

L (c2) = Ймовірність дотримання w у фоновому режимі = ймовірність досягнення c2, якщо є слова N2, припускаючи, що ймовірність p дорівнює b (N2, c2, p)

Для гіпотези 2 замість цього можна використовувати p1 і p2.

Тепер ми хочемо знати, яка гіпотеза є більш вірогідною; нам знадобиться дещо порівняти вихідне значення з кожної гіпотези.

Але кожна гіпотеза має 2 значення, L (c1) і L (c2). Як можна порівняти, яка гіпотеза є більш вірогідною? --- Ми вирішуємо множити їх разом для досягнення однозначного результату. (тому що це аналог геометрії)


у ваших елементах p, p1 і p2 - це оцінки p, p1 та p2, правда?
Сіань

Так, це правильно. Статистично кажучи, вони є максимальною оцінкою ймовірності з огляду на вибіркові дані та біноміальний розподіл.
Танін

Дякую, що вказали на це, btw. Я вдосконалив відповідь.
Танін
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.