Контекст: Я програміст з деяким (напівзабутим) досвідом статистики з університетських курсів. Нещодавно я натрапив на http://akinator.com і провів деякий час, намагаючись зробити це невдалим. А хто не був? :)
Я вирішив з’ясувати, як це може працювати. Після гуглінгу та читання пов’язаних публікацій блогу та додавання деяких моїх (обмежених) знань у отриману суміш, я придумав таку модель (я впевнений, що я буду використовувати неправильні позначення, будь ласка, не вбивайте мене за це):
Є Предмети (S) та Питання (Q). Завдання прогнозувача полягає у виборі суб'єкта S, який має найбільшу задню вірогідність бути суб'єктом, про який користувач думає, з урахуванням зібраних до цього питань та відповідей.
Нехай гра G - це набір заданих запитань і відповідей, заданих: .
Тоді предиктор шукає .
До предметів ( ) могло бути лише кількість вгаданих предметів, поділене на загальну кількість ігор.
Зробивши припущення, що всі відповіді незалежні, ми могли б обчислити ймовірність випробування S, враховуючи гру G так, як:
якщо ми будемо відслідковувати, які запитання та відповіді були надані, коли використані мають хоч дану тему:
Я підозрюю, що просто обрав неправильну модель, обмежуючись межами своїх знань. Або, може, в математиці є помилка. Будь ласка, просвітліть мене: з чим я повинен ознайомитись, або як змінити передбачувача, щоб він міг впоратися з мільйонами предметів і тисячами питань?