Я спочатку запитав це про переповнення стека і був спрямований на цей сайт, тож ось:
Я впроваджую кілька непідконтрольних методів підбору вмісту / вибору вмісту / вилучення вмісту документів, і я збентежений тим, що мій підручник називає "коефіцієнт вірогідності журналу". Книга " Обробка мови та мови " Юрафського та Мартіна коротко описує її як таку:
LLR для слова, загалом називається лямбда (w), - це співвідношення між ймовірністю спостереження w як вхідного, так і у фоновому корпусі, припускаючи однакові ймовірності в обох корпусах, та ймовірністю спостереження w в обох, якщо припускати різні ймовірності для w у вхідному і фоновому корпусі.
Розбиваючи це вниз, у нас є чисельник: "ймовірність спостереження w як у вхідному, так і у фоновому корпусі, припускаючи однакові ймовірності в обох корпусах" - Як я обчислюю, яку ймовірність використовувати тут?
і знаменник: "ймовірність дотримання w як при допущенні різних ймовірностей для w у вхідному, так і у фоновому корпусі". - це так просто, як ймовірність появи слова у вхідні рази ймовірності того, що слово трапляється в корпусі? колишній:
(кількість (слово, введення) / загальна кількість слів у введенні) * (кількість (слово, корпус) / загальна кількість слів у корпусі)
Я переглядав документ, в якому згадуються мої книги, " Точні методи статистики сюрпризу та випадковості" (Dunning 1993), але мені важко пов'язатись із проблемою обчислення значень LLR для окремих слів під час узагальнення на основі вилучення. Будь-яке уточнення тут було б дуже вдячне.