Чому система рейтингу Elo використовує неправильне правило оновлення?

Система рейтингів Elo використовує алгоритм мінімізації градієнта спуску функції перехресної ентропії втрат між очікуваною та спостережуваною ймовірністю результату в парних порівняннях. Ми можемо записати загальні функції втрат як

E = - \sum_{n, i} p_{i} L o g (q_{i})

$E=-\sum_{n,i} p_i Log (q_i)$

де сума виконується за всіма результатами та всіма противниками . - спостережувана частота події і очікувана частота. $i$ $n$ $p_i$ $_i$ $q_i$

У випадку лише двох можливих результатів (виграш або програш) і одного суперника у нас є

E = - p L o g (q) - (1 - p) L o g (1 - q)

$E=-p Log (q)-(1-p)Log(1-q)$

Якщо - це рейтинг гравця а - рейтинг гравця ми можемо побудувати очікувану ймовірність як $\pi_i$ $i$ $\pi_j$ $j$

q_{i} = \frac{e^{π_{i}}}{e^{π_{i}} + e^{π_{j}}}

$q_i=\frac{e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}}$

тоді правило оновлення спуску градієнта підкаже використання

q_{j} = \frac{e^{π_{j}}}{e^{π_{i}} + e^{π_{j}}}

$q_j=\frac{e^{\pi_j}}{e^{\pi_i}+e^{\pi_j}}$

π_{i}^{'} = π_{i} - η (q_{i} - p_{i})

$\pi_i'=\pi_i-\eta (q_i-p_i)$

π_{j}^{'} = π_{j} - η (q_{j} - p_{j})

$\pi_j'=\pi_j-\eta (q_j-p_j)$

де і - очікувана і спостережувана ймовірність виграшу гравця проти гравця . Це правила оновлення. $q_i$ $p_i$ $i$ $j$ two outcomes

За наявності жеребкувань ми можемо узагальнити описану вище модель, включаючи і третій результат з вірогідністю

q (d) = \frac{ν e^{\frac{π_{i} + π_{j}}{2}}}{e^{π_{i}} + e^{π_{j}} + ν e^{\frac{π_{i} + π_{j}}{2}}}

$q(d)=\frac{\nu e^{\frac{\pi_i+\pi_j}{2}}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

q_{i} (ш) = \frac{е^{π_{i}}}{е^{π_{i}} + е^{π_{j}} + ν е^{\frac{π_{i} + π_{j}}{2}}}

$q_i(w)=\frac{ e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

q_{j} (ш) = \frac{е^{π_{j}}}{е^{π_{i}} + е^{π_{j}} + ν е^{\frac{π_{i} + π_{j}}{2}}}

$q_j(w)=\frac{ e^{\pi_j}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

І ми можемо побудувати функцію Loss як

Е = - p (ш) L о г (q (ш)) - (1 - p (ш) - p (г)) L о г (q (л)) - p (г) L о г (q (г))

$E=-p(w)Log(q(w))-(1-p(w)-p(d))Log(q(l))-p(d)Log(q(d))$

$p(w),p(l),p(d)$ winloosedraw $q(w),q(l),q(d)$ winloosedraw

π_{i}^{'} = π_{i} - η (q_{i} (ш) + \frac{q_{i} (г)}{2} - p_{i} (ш) - \frac{p_{i} (г)}{2})

$\pi_i'=\pi_i-\eta (q_i(w)+\frac{q_i(d)}{2}-p_i(w)-\frac{p_i(d)}{2})$

π_{j}^{'} = π_{j} - η (q_{j} (ш) + \frac{q_{j} (г)}{2} - p_{j} (ш) - \frac{p_{j} (г)}{2})

$\pi_j'=\pi_j-\eta (q_j(w)+\frac{q_j(d)}{2}-p_j(w)-\frac{p_j(d)}{2})$

$q_j(w)$ $q_j(d)$ $i$ $j$ $p_i(w)$ $p_i(d)$ $i$ $j$ three outcome

Питання в тому, чому система рейтингів Elo використовує two outcomesправила оновлення навіть за наявності нічиїх?

regression optimization rating

— emanuele
джерело

Імовірність розіграшу, на відміну від вирішального результату, не визначена в системі Ело. Натомість вважається нічия - як у очікуваному виконанні, так і в результаті матчу - половина виграші та половина програшу.

Приклад зі сторінки Elo у Вікіпедії : "Очікуваний бал гравця - це його ймовірність виграти плюс половина його ймовірності жеребкування. Таким чином, очікуваний бал 0,75 може означати 75% шансу на перемогу, 25% шансу програти та 0% шансу. На іншій крайності це може означати 50% шансу на перемогу, 0% шансу програти та 50% шансу на розіграш ".

two outcome $R_A^\prime = R_A + K(S_A - E_A)$ $S_A=1 \cdot (n_w + 0.5 \cdot n_d ) + 0 \cdot (0.5 \cdot n_d + n_l)$ $S_A=1$ $S_A=0.5$ $S_A=0$

Як і Elo, система Glicko не моделює нічиї, але вона робить оновлення як середнє значення виграшу та програшу (на гравця). Натомість у системі ранжування TrueSkill "нічия моделюються, припускаючи, що різниця в продуктивності в певній грі невелика. Отже, шанс натягнути залежить лише від різниці ігрових сил двох гравців. Однак, емпіричні результати в грі з шахів показують, що нічия швидше між професійними гравцями, ніж у початківців. Отже, шанс жеребкування також залежить від рівня майстерності ".

Цей підхід вимагає різного конкретного моделювання для кожної гри (а TrueSkill застосовується до декількох ігор Microsoft Xbox), тому він підходить в Elo та Glicko (призначений лише для шахів), і це не для ранжирування , нашої багатоцільової системи ранжирування.

— Томашо Нері
джерело

"Очікуваний бал гравця - це його ймовірність виграти плюс половина його ймовірності жеребкування". саме те, що я знайшов у формулі вище. У будь-якому випадку у формулі оновлення Elo половина ймовірності нічиї не вказана, як ви вказуєте. Залишається питання, чому в системі ранжування Elo нас не цікавлять нічиї?

— emanuele

Ви завжди можете виражати очікуваний бал як шанс на перемогу та шанс програти (і нульовий шанс жеребкування - див. Перший приклад з Вікіпедії). У цьому випадку "очікуваний рахунок гравця - це його ймовірність перемоги" (і нічого іншого, тому що половина ймовірності жеребкування дорівнює нулю). Після одного матчу результат - це виграш, або програш, або половина виграшу. Навіть якщо у вас є гра, в якій дозволено нічия, ви можете оновити рахунок Elo, використовуючи лише комбінацію виграшу та програшу, ніби нічия не мають шансів.

— Томашо Нері