Чи проводилось багато досліджень щодо рейтингової інфляції?


24

Малюс Карлсен у вчорашньому раунді Лондонської шахової класики 2012 року запевнив, що його рейтинг у наступному опублікованому рейтинговому списку FIDE перевищить попередній рекорд Каспарова за 2851 рік. Я бачив / чув, як пристрасні шахові вболівальники обговорюють відносні достоїнства досягнення рейтингів Карлсена порівняно з Каспаровим проти, скажімо, Фішера. Щоб було зрозуміло, це не те, що я тут говорю.

Одним з найважливіших елементів таких дискусій є уявлення про те, чи піддалися рейтинги Ело взагалі інфляцією з часом: чи сьогодні так багато 2700+ гросмейстерів, ніж 20 років тому через загальний підйом силових сил чи просто через деякі загальна інфляційна тенденція чисельності? Я також не намагаюся вимагати голих думок щодо того, чи так це. Що мені цікаво знати:

Які серйозні спроби дослідження були зроблені, щоб відповісти на емпіричне питання щодо того, чи природні рейтинги FIDE Elo з часом зросли через щось інше, ніж зростання загальної сили в пулі гравців?

Запис Вікіпедії в рейтинговій системі Elo має трохи сказати про це, а також вказує на статтю Джеффа Сонаса з Chessmetrics . Окрім будь-яких покажчиків на роботу інших, я, наприклад, також вітаю відповідь, яка дає чіткий, стислий підсумок основних положень Сонаса.


Інша річ, про яку слід задуматися, - це інфляція в рейтингах USCF. Було, і періодично USCF сильно коригує жах гравців. Оскільки USCF та FIDE використовують одну і ту ж систему, я в основному здивуюся, якщо інфляція може вплинути на USCF, а не на FIDE.
Тоні Енніс

2
Системи неоднакові, наприклад, у USCF є рейтингові етапи, які явно є інфляційним фактором.
RemcoGerlich

Відповіді:


19

Я здивований, що стаття «Внутрішні шахові рейтинги» Кена Регана та Гая Гаворта ще не розміщена. Саме про це вимагають серйозні дослідження рейтингової інфляції. PDF

В основному вони отримували ігри з трьох періодів (1976-1979, 1991-1994, 2006-2009), в декількох рейтингових діапазонах (наприклад, обидва гравці в межах 10 очок 2200, в межах 10 балів від 2300 і т.д.), і виключали типи ігор, які може бути аномальним, як командні матчі. Прочитайте папір, це виглядає досить ретельно.

Потім вони систематично порівнювали ігри з Rybka 3.

Деякі речення із висновку:

Ми робимо висновок, що існує чітка взаємозв'язок між реальними рейтингами гравців Elo та внутрішньою якістю вибору ходу, виміряною шаховою програмою та підходом агента. Більше того, отримані кінцеві значення sfit майже однакові для відповідних записів усіх трьох часових періодів.

На мою думку, це досить вагомі докази проти існування рейтингової інфляції.


1
Дякую за публікацію, я також прийшов поділитися цим. Це єдиний напрямок досліджень, який порівняв гравців з об'єктивним рівнем. Усі аргументи, які я бачив щодо інфляції рейтингу, є суб'єктивними та загалом анекдотичними. З особистої ноти, я не думаю, що той факт, що Морфі, ймовірно, був 2300, віднімає мою оцінку його ігор або його майстерності щодо своїх конкурентів у той час.
Сем Коупленд

12

Я ткнув навколо деяких. Напевно, ви бачили ці сторінки, але я все одно опублікую їх:

а. Ця сторінка вас зацікавить . Сюди входить фотокопія листа від самого Ело із зазначенням можливості:

Таким чином, з часом рейтингова шкала може змінитися, якщо не буде вжито певних заходів для її стабілізації.

Далі він зазначає, що шкала рейтингів не має ні якоря, ні фіксованої точки. Порівняйте зі спортсменом, який пробігає гонку за годину; годину зараз те саме, що годину 50 років тому. Час - це така фіксована точка.

б. Також, чи не відповіли на питання "інфляції" нещодавні виявлення високих рейтингів, що виходять із ізольованих районів? Дивіться розділ "Басейн гравців" на цій сторінці, щоб дізнатися про проблему. Додаткова підтримка , хоча вона не є науковою чи особливо інформативною. Шукати "isol". Ось ще один анекдот, що показує, що відбувається з поодинокими групами населення (та ще одним кандидатом на тему "чому шахісти божевільні"!) Я не підтверджував це, але це має бути досить легко.

c. Стаття Вікі Elo розповідає про інфляцію, ніби це прийнятий факт.

г. Ось німецька стаття про інфляцію та подальші дії . Подивіться на той курильний пістолет 1986 року!


Я не бачив сторінку з а., Спасибі за це. Щодо б., Я не знаю про те, що ви маєте на увазі; чи можете ви докладно?
ETD

2
Я б стверджував, що без фактичного якоря неможливо точно налаштувати; Врешті-решт, ми просто анекдотично налаштовуємось на якесь довільне значення.
Даніель В

Можливо. Але коригування рейтингів для отримання подібної кривої розподілу було б, мабуть, хорошим початком. Наприклад, кілька років тому USCF коригує рейтинги, так що середній клубний гравець становив 1500. Я не знаю, чи все ще вони так роблять.
Тоні Енніс

1
@TonyEnnis Звичайно, і я думаю, що це, мабуть, так добре, як це вийде, поки що. Я маю на увазі: я маю на увазі: що станеться, якщо "середній клубний гравець" сьогодні насправді кращий, ніж 50 років тому? Це не так, як ми можемо змусити їх грати проти гравців минулого ... Тож ми залишаємо якось оцінити силу гравця і налаштовувати. Можливо, за допомогою комп’ютерних програм (які працюють на стандартній, призначеній платформі) ми могли б мати якийсь неупереджений, тривалий якір. Але навіть у цьому виникнуть проблеми, такі як відкриття стратегій, які добре працюють проти базової програми тощо.
Даніель Б

5

В абсолютному відношенні Карлсен 2012 напевно є сильнішим гравцем, ніж Каспаров 1985 року.

Якби Карлсен 2012, який подорожував у часі, зіграв матч з Каспаровим 1986 року, Карлсен переміг би Каспарова. Це просто тому, що технологічна підготовка набагато ефективніша, і Карлсен також має перевагу в теорії відкриття, оскільки він має накопичені знання 1987-2012 років, яких Каспаров не має.

Однак Каспаров, мабуть, сильніший гравець, ніж Карлсен. Якщо взяти список топ-100 FIDE за червень 2000 року (найдавніший з них, який можна отримати), ми побачимо, що Каспаров з 2849 Elo конкурує в середньому 2641 за 99 послідовників (Elo відстань 208 балів), а Calsen у Fide Top 100 за грудень 2012 року з 2848 Elo конкурує в середньому 2702 для своїх 99 підписників (Elo відстань 146 балів).

Elo - це різниця очок, а не абсолютні значення (100 балів різниці для Elo означають, що гравець A в 2 рази кращий за гравця B, 200 балів - це в 4 рази краще тощо). Так що з цим списком це означало, що Каспаров був у середньому більше ніж у 4 рази кращий за всіх своїх 99 послідовників, тоді як Карлсен, мабуть, менше лише у 3 рази кращий за середній показник своїх 99 підписників.

Якщо взяти список, якщо Каспаров мав максимальну відстань зі своїми 99 підписниками і порівняв цю відстань з найкращою для Карлсена, ми зможемо визначити, який гравець був насправді найбільшим, бо з 99 очками даних, люди, що залишилися (як інший геній) пом'якшити це.

Мені цікаво, однак, чи Карлсен чи Каспаров дійсно переймаються тим, хто був кращим.


3
Ваші аргументи про те, що Каспаров є сильнішим гравцем, ніж Карлсен, спирається на порівняння кожного з 99 найкращих гравців. Ви правильно зазначаєте, що рейтинги Ело є відносними, але ваш аргумент дає друге, невстановлене припущення, а саме, що наступні 99 гравців сьогодні мають таку ж середню ігрову силу, як і наступні 99 в період розквіту Каспарова. Якщо це друге припущення не відповідає дійсності, ви порівнюєте Каспарова та Карлсена з різними стандартами. Вам потрібно знайти пул людей, які сьогодні такі ж, як і в день Каспарова. Цей басейн, мабуть, ваш середній початківець, а не супер-гросмайстри.
Тукідід411

4

Система Ело мала дві складові. Один був незалежним від історії, інший - ні. Його система створення "рейтингу ефективності" протягом події чи періоду часу не мала для нього історичної складової; це був просто показник продуктивності протягом зазначеного часу. (З цього моменту пам'ять не вдається, але я думаю коли він розраховував рейтинги для FIDE, це був метод, який він використовував.)

Однак система Elo, якою користуються федерації по всьому світу, має історичну складову, оскільки рейтинги обчислюються шляхом обчислення дельти, зміни від попереднього рейтингу.

Історично заснована система має природну тенденцію до дефляції. Система - це закрита система, без створення нових точок. Тож приходять нові гравці, беруть очки у встановлених гравців, а потім виходять (через смерть або на пенсію), перш ніж повернути всі ці очки до наступної партії гравців, що піднімаються.

Багато ідей намагалися компенсувати це, деякі працюють краще, ніж інші. Додайте до цього комерційний тиск у USCF початку 70-х, щоб рейтинги зростали швидше (досить цинічна думка полягала в тому, що гравці купуватимуть книгу у USCF та гратимуть на турнірах; їхній рейтинг збільшиться, спонукаючи їх придбати ще один книга тощо) та інфляція була справжньою справою в певні моменти історії.

Оскільки система Ело базувалася на нормальній (дзвіновій) кривій, дурно намагатися оцінювати інфляцію, вимірюючи будь-яку крайність; на крайнощі скоріше впливатиме загальна кількість оцінюваних гравців, ніж зміни фактичної сили чи будь-яка інфляція.


1

У мене проста ідея. Візьмемо шаховий комп’ютер (апаратне забезпечення та програмне забезпечення), у якого його рейтинг вимірювався 20 років тому, за допомогою гри з іншими шаховими комп'ютерами з відомими рейтингами, які вони мали 20 років тому. Тепер давайте виміряємо його рейтинг зараз (точно таке ж обладнання та точно таке ж програмне забезпечення) за допомогою гри з сучасними шаховими комп’ютерами, з відомим сьогоднішнім рейтингом. Різниця в двох вимірах склала б рейтинг інфляції за останні 20 років. Досить просто?


Він би більш-менш обчислював інфляцію рейтингу для комп'ютерів , а не для гравців людини. Люди грають по-різному проти комп’ютерів, ніж між собою.
Глорфіндель

1

Висновки допису Регана-Хаворта слід робити із зерном солі, оскільки це, здається, суперечить іншим комп'ютерним аналізам ігор, щодо кращого програмного та апаратного забезпечення та більш досконалих математичних методів. Там вони роблять висновок (див. Табл. 9), наприклад, що Карпов у 1977 р. Грав на трохи нижчому рівні, ніж Каспаров у 2001 р., А Ананд у 2008 р. (Очікувалося, що він набере близько 47% балів), а насправді кращий за Топалова у 2005 р. Та Пономарьова у 2011. Оскільки Каспаров-2001 на 150 очок вище, ніж у Карпова-1977, то рейтинг очікував би, що він набере 70% балів. Я не бачу, як це погодити з твердженням про відсутність рейтингової інфляції.

Зауважте, що також, всупереч неявній заяві у питанні, не існує механізму, за допомогою якого рейтинг відображав би зміну загальної сили в пулі гравців . Емпірично може бути випадок, що типова сила гравця 2600 не змінювалася протягом певного періоду часу, але це було б просто збігом, а не відображенням основних властивостей системи ELO, і, звичайно, не узагальнювальним.

Якщо ми швидше наївно визначаємо інфляцію і просто вимірюємо середній рейтинг топ-100 гравців, то, як видно з цього посилання , до 2012 року спостерігалася стійка інфляція, а з тих пір немає інфляції - середній рейтинг середніх 100 коливався між 2700 та 2705 за останні 7 років .


0

По-перше, ви повинні визначити, що ви маєте на увазі найкраще. Наприклад, чи найкраще означає, що ви є найбільш домінуючим гравцем своєї епохи? Або це означає, що якість вашого гравця перевершує всіх інших гравців. І якщо якість - це те, що ви маєте на увазі, то як ви визначаєте якість?

Пол Морфі був, мабуть, найбільш домінуючим гравцем. Наприклад, коли йому було 12 років, він переміг десятку найкращих гравців (Лоуентал) у матчі 3: 0. За словами Едо та шахометрії, він, мабуть, уже був одним з найкращих гравців у світі у віці 12 років! У віці 21 року він грав одночасно проти 5 кращих футболістів (Птах, Барнс, Боден, Де Рев'єр та Лоуентал) і забив 3: 2.

Однак більшість заперечує, що домінування - це поганий показник того, хто найкращий. Зрештою, Морфі описаний як перший сучасний шахіст. Його конкуренція була слабкою порівняно з наступними чемпіонами.

Ще одне визначення, яке було використано, - це якість гри. Однак це визначення також має чимало проблем. У сотнях 1900 р. Ряд людей стверджував, що Штейніц або Ласкер - найкращі гравці усіх часів, стверджуючи, що їх знання про відкриття та сучасна теорія зробить їх вищими за гравців минулого. Однак Луї Полсен висунув кілька дуже розумних аргументів проти цієї гіпотези. Він стверджував, що Морфі (який мав фотографічну пам’ять і запам’ятав штрих-код Луїзани до 19 років), якщо повернути його до життя, вивчить відкриття та сучасну теорію протягом року та зможе успішно змагатися проти сучасних шахістів.

Реган стверджує, що сучасні шахісти, які мають доступ до шахових комп’ютерів та сучасних методів навчання, грають більше, ніж комп'ютери, ніж гравці минулого. Це не дивно, адже вони були навчені комп'ютерами, але чи це означає, що сучасні гравці справді кращі? Це задає питання, що б зробили Фішер чи Капабланка, якби вони мали доступ до сучасних комп'ютерів?

Крім того, комп'ютер з аналізу професора Регана вважає мене досить неповним, оскільки він включає лише кілька п'ятирічних періодів, а гравці, що входять до аналізу, не згадуються. Більш ретельний комп'ютерний аналіз професорів Матей Гід та Іван Братко виявив, що насправді Капабланка грала більше як комп’ютер, ніж сучасні плеєри! https://en.chessbase.com/post/computers-choose-who-was-the-strongest-player-. Однак Гід і Братко відзначили, що існує проблема з висновком, що Капабланка був кращим гравцем. Можливо, його досить влучний стиль призвів до меншої кількості позицій, де він, швидше за все, помилявся. Тому його відсоток помилок був меншим, але він також чинив менший тиск на своїх опонентів, ніж більш агресивні гравці. Насправді Капабланка мав високий відсоток нічиїх порівняно з сучасниками.

Навпаки, такий тактичний гравець, як Каспаров, може бути покараний своїм стилем гри, який, швидше за все, призведе до високо тактичних позицій, де комп'ютери особливо добре знаходять помилки. Насправді комп'ютери мають більшу ефективність проти тактичних гравців, ніж позиційні або, зокрема, гравці із закритою позицією, де тактика грає меншу роль. Таким чином, комп'ютерний аналіз, який спирається на кількість виявлених на комп’ютері помилок, швидше за все, сприятиме спокійним гравцям із закритою позицією. Навпаки, такий агресивний гравець, як Каспаров, може робити більше тактичних помилок, ніж деякі інші гравці, оскільки він шукав дуже складні позиції, але його опоненти зроблять ще більше!

Тому вам потрібна система зважування помилок, яка не просто розраховує відсоток помилок на 100 рухів (що в основному те, що робили Реган і Гід та Братко). Натомість вам потрібно обчислити різницю між вашим коефіцієнтом помилок та вашим опонентом. Зрештою, у шахах йдеться про допущення меншої кількості помилок, ніж ваш опонент. Натискання на опонента, щоб викликати більше помилок, вважається хорошою якістю.

Однак мій переглянутий метод розрахунку призводить до іншої проблеми, яка полягає в тому, що ці комп'ютерні аналізи не враховують сили вашого опонента. Наприклад, можливо, Ларсон досягає дуже високого рейтингу шахметрії, оскільки його агресивний (оптимістичний) стиль призвів до домінування над гравцями нижчого рейтингу. Однак у нього виникли проблеми в іграх проти гравців рівного рейтингу. Інші гравці часто стверджували, що він був надто оптимістичним у своїй грі проти інших гравців з високим рейтингом. Щоб уникнути цієї проблеми, аналіз перевірки помилок на комп’ютері повинен дивитись лише на ігри проти сильних конкурентів (наприклад, топ-10, 20 або 100 гравців). Однак це все ще не вирішує проблему посилення конкуренції з часом.

Чи можна виправити проблему підвищення якості гри, переглядаючи рейтинги, такі як «Шахметрія»? Насправді я віддаю перевагу системі рейтингів Edo назад http://www.edochess.ca/тому що статистичні припущення кращі. Наприклад, Chessmetrics припускає, що найвищий рейтинг рейтингу гравця настає у віці 40 років. Я сумніваюсь, що це стосується всіх, і багато гравців відмовлялися від шахів до цього віку, або їх гра була лише першокласною протягом кількох років (наприклад, Гаррі Нельсон Піллсбері, Чарусек, Фішер, Морфі, Рубінштейн, Файн). На жаль, Едо порівнює лише рейтинги гравців з 1811 по 1920 рік. За Едо, Капабланка та Морфі оцінюються двома найвищими гравцями цієї епохи. За даними Chessmetrics, Капабланка та Ласкер були двома найкращими гравцями (Морфі навіть не входить до першої десятки). Дурас, Тейхман, Нойман, Відмар, Гунсберг, Рубінштейн і Берн були кращими за Морфі.

Якщо інновація призводить до домінування в певну епоху шахів з часом і стає все складніше впроваджувати інновації з часом, оскільки сила конкуренції збільшується, ви не можете виміряти справжнє домінування, просто подивившись на записи матчів кращих 30 гравців. Тобто Магнусу Карлсену набагато важче домінувати над опонентами, ніж це було для минулих чемпіонів. Якщо ви подивитесь на рейтинги задніх сторін, то легко помітити, що величина різниці між рейтингами кращих гравців з часом зменшується. Тож я вважаю, що статистична модель типу Едо, яка враховує труднощі домінування у часі, буде кращим підходом, ніж те, що було випробувано раніше. Наприклад, Фішер був досить домінуючим гравцем своєї епохи, оскільки вигравав 20 ігор поспіль. Яка у Каспарова чи Карпова найдовша переможна серія порівняно з цією переможною серією? За словами Серавана, їх найдовшими переможними смугами були сім ігор.

Звичайно, я не стверджую, що виграшні смуги - це хороший показник. Я просто стверджую, що домінування рейтингів або в окремих матчах проти інших найкращих гравців є корисною метрикою, яка явно не враховується в сучасних системах рейтингових рейтингів.

Тож аналіз моєї мрії полягає в тому, що ви використовуєте рейтинги Edo, засновані на базі даних, що включає лише 20 найкращих та 30 гравців кожні п'ять років. Після завершення цього аналізу ви збільшуєте вагу своїх результатів за фактором домінування. Тобто новітні гравці отримують бонусний коефіцієнт, який обчислюється шляхом оцінки траєкторії складності домінування у часі (зниження рейтингових розбіжностей між топ-30 гравцями з часом). Далі, ви б підтвердили цей аналіз, порівнюючи відсоток гравців у шахових комп’ютерах, розрахованих помилками, які їх опоненти роблять за мінусом власних помилок. Якщо це скасовує вищесказане, тоді вам потрібно перетягнути рейтинг відповідно до аналізу перевірки помилок на комп’ютері, якщо він показує, що є тенденція, щоб новіші топ-гравці грали точніше навіть після врахування мого коефіцієнта домінування.

Моя здогадка, що базується на моєму очному оку, полягає в тому, що Каспаров зробив би дуже добре. Але це лише здогадка.


2
Здається, це не відповідає на питання.
Герб Вулф

Моя думка, ви не можете відповісти на питання щодо рейтингової інфляції, поки не визначите шахові здібності. Я розглянув дослідження, спрямовані на коригування рейтингової інфляції або намагання визначити, наскільки змінюються здібності шахових чемпіонів (з чого залежить інфляція рейтингу). Я вважаю, що проблема полягає в тому, що дослідники насправді не виявили своїх припущень щодо того, що вони вважають шаховими здібностями. На мою думку, не визначаючи шахових здібностей, ви не зможете відповісти на питання, чи змінюється шахова здатність з часом чи щось сказати про рейтингову інфляцію.
ToddM
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.