Я прототипував свою власну модель Naive Bayes o 'слова слів, і у мене виникло питання щодо обчислення ймовірностей функції.
Скажімо, у мене два класи, я буду просто використовувати спам та не-спам, оскільки саме цим користуються всі. І візьмемо для прикладу слово "віагра". У мене в навчальному наборі 10 електронних листів, 5 спаму та 5 неспам. "viagra" відображається у всіх 5 спам-документах. В одному з навчальних документів це відображається 3 рази (саме про це моє питання), тож це 7 виступів у спамі. У навчальному наборі без спаму це відображається 1 раз.
Якщо я хочу оцінити p (viagra | spam), це просто:
p (viagra | spam) = 5 спам-документів містять viagra / 5 спам-документів усього = 1
Іншими словами, чи не має значення той факт, що один документ, згаданий про віагру 3 рази замість одного, насправді не має значення?
Редагувати: Ось повідомлення в блозі, де автор використовує підхід, який я тільки що виклав: http://ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/
І ось запис у блозі, де автор каже: p (viagra | spam) = 7 згадок про спаму viagra / 8 загальних згадок http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply -naive-bayes-класифікатори-до-документа-класифікація-проблеми
І тоді одна з відповідей нижче говорить, що це повинно бути: p (viagra | спам) = 7 віагра згадується у спамі / загальний підрахунок терміну у спамі
Чи може хтось посилатися на джерело, яке дає думку з цього приводу?