Чому система рейтингу Elo використовує неправильне правило оновлення?


10

Система рейтингів Elo використовує алгоритм мінімізації градієнта спуску функції перехресної ентропії втрат між очікуваною та спостережуваною ймовірністю результату в парних порівняннях. Ми можемо записати загальні функції втрат як

E=n,ipiLog(qi)

де сума виконується за всіма результатами та всіма противниками n . p i - спостережувана частота події i і q i очікувана частота.inpiiqi

У випадку лише двох можливих результатів (виграш або програш) і одного суперника у нас є

E=pLog(q)(1p)Log(1q)

Якщо - це рейтинг гравця i, а π j - рейтинг гравця j, ми можемо побудувати очікувану ймовірність як q i = e π iπiiπjj qj=e π j

qi=eπieπi+eπj
тоді правило оновлення спуску градієнта підкаже використання
qj=eπjeπi+eπj

πi=πiη(qipi)

πj=πjη(qjpj)

де і p i - очікувана і спостережувана ймовірність виграшу гравця i проти гравця j . Це правила оновлення.qipiijtwo outcomes

За наявності жеребкувань ми можемо узагальнити описану вище модель, включаючи і третій результат з вірогідністю

qi(w)=eπi

q(d)=νeπi+πj2eπi+eπj+νeπi+πj2
qj(w)=eπj
qi(ш)=еπiеπi+еπj+νеπi+πj2
qj(ш)=еπjеπi+еπj+νеπi+πj2

І ми можемо побудувати функцію Loss як

Е=-p(ш)Lог(q(ш))-(1-p(ш)-p(г))Lог(q(л))-p(г)Lог(q(г))

p(ш),p(л),p(г)winloosedrawq(ш),q(л),q(г)winloosedraw

πi'=πi-η(qi(ш)+qi(г)2-pi(ш)-pi(г)2)

πj'=πj-η(qj(ш)+qj(г)2-pj(ш)-pj(г)2)

qj(ш)qj(г)ijpi(ш)pi(г)ijthree outcome

Питання в тому, чому система рейтингів Elo використовує two outcomesправила оновлення навіть за наявності нічиїх?

Відповіді:


3

Імовірність розіграшу, на відміну від вирішального результату, не визначена в системі Ело. Натомість вважається нічия - як у очікуваному виконанні, так і в результаті матчу - половина виграші та половина програшу.

Приклад зі сторінки Elo у Вікіпедії : "Очікуваний бал гравця - це його ймовірність виграти плюс половина його ймовірності жеребкування. Таким чином, очікуваний бал 0,75 може означати 75% шансу на перемогу, 25% шансу програти та 0% шансу. На іншій крайності це може означати 50% шансу на перемогу, 0% шансу програти та 50% шансу на розіграш ".

two outcomeRА'=RА+К(SА-ЕА)SА=1(нш+0,5нг)+0(0,5нг+нл)SА=1SА=0,5SА=0

Як і Elo, система Glicko не моделює нічиї, але вона робить оновлення як середнє значення виграшу та програшу (на гравця). Натомість у системі ранжування TrueSkill "нічия моделюються, припускаючи, що різниця в продуктивності в певній грі невелика. Отже, шанс натягнути залежить лише від різниці ігрових сил двох гравців. Однак, емпіричні результати в грі з шахів показують, що нічия швидше між професійними гравцями, ніж у початківців. Отже, шанс жеребкування також залежить від рівня майстерності ".

Цей підхід вимагає різного конкретного моделювання для кожної гри (а TrueSkill застосовується до декількох ігор Microsoft Xbox), тому він підходить в Elo та Glicko (призначений лише для шахів), і це не для ранжирування , нашої багатоцільової системи ранжирування.


"Очікуваний бал гравця - це його ймовірність виграти плюс половина його ймовірності жеребкування". саме те, що я знайшов у формулі вище. У будь-якому випадку у формулі оновлення Elo половина ймовірності нічиї не вказана, як ви вказуєте. Залишається питання, чому в системі ранжування Elo нас не цікавлять нічиї?
emanuele

1
Ви завжди можете виражати очікуваний бал як шанс на перемогу та шанс програти (і нульовий шанс жеребкування - див. Перший приклад з Вікіпедії). У цьому випадку "очікуваний рахунок гравця - це його ймовірність перемоги" (і нічого іншого, тому що половина ймовірності жеребкування дорівнює нулю). Після одного матчу результат - це виграш, або програш, або половина виграшу. Навіть якщо у вас є гра, в якій дозволено нічия, ви можете оновити рахунок Elo, використовуючи лише комбінацію виграшу та програшу, ніби нічия не мають шансів.
Томашо Нері
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.