Чи сильні гравці рухають свої фігури з різною відносною частотою, ніж слабкі гравці?


24

Це питання є відрізком попереднього Рамона Сніра про те, як часто різні типи творів переміщуються, в середньому, у шахову гру. Моє запитання:

Чи відрізняються відносна кількість ходів для заданих типів фігур, якщо дивитися на ігри сильніших гравців на відміну від ігор слабших гравців? (Наприклад, можливо, слабкі гравці, як правило, роблять більше ходів пішаків за рахунок штучних рухів, або вони роблять занадто багато кроків королеви. Я не знаю.)

Я зміг дати відповідь на попереднє запитання, використовуючи необроблені дані, які були вилучені з великої бази даних кимось іншим . Ці дані походять від вибірки 4M + ігор, починаючи від гросмейстерської гри до слабкої аматорської гри, і сукупне число підсумків переміщення, яке надається там, не розмежовує гру за ознакою сили гравця. Відповідь на моє запитання потребує отримання окремих даних для ігор між сильними гравцями та ігор між слабкими гравцями, і я шукаю відповіді, підкріплені даними, а не анекдотами .

Ось більш конкретна форма мого питання:

Чи є якийсь поріг Elo рейтингу N такий, що при перегляді середньої кількості ходів у грі, розбитих за типом фігури, є істотна різниця між тим, що можна знайти в іграх із участю гравців вище N, і тим, що можна знайти в іграх із участю гравців нижче N.

Було б цікаво, якби можна було знайти і більше подібних речей, тобто конкретні відмінності між сильнішими та слабшими гравцями, які можна виявити за допомогою даних. Такі висновки можуть вказувати на конкретні форми поведінки, які стримують гравців, або, навпаки, ті, хто їх рухає вперед. Зараз, можливо, подібних відмінностей не можна знайти, лише переглянувши такі дані, але мені також цікаво це знати.


Я трохи підозріло ставляться до таких узагальнених даних, оскільки це може пропустити суть. Деякі ігри вирішуються грою з частинами, інші натисканням пішаків. Частота переміщення шматка нічого не говорить про якість рухів. Існує правило, в якому сказано, що ви не повинні часто переміщувати жоден шматочок у отворі. Однак сильні гравці іноді приймають цю тактику, якщо це виправдано позицією.
Майкл

@Michael, я цілком погоджуюся з тим, що такий фактор, як той, про якого я запитую, сам по собі не був би свідченням доброї гри; якщо я переміщу свої типи творів на тій же відносній частоті, що й Ароніан, скажімо, це, звичайно, не означає, що я граю так добре, як він. Але саме тому може бути, що вище, скажімо, Elo 1800, різниці в цих відносних частотах немає (хоча існує величезний діапазон здібностей вище 1800), тоді як нижче 1800 - це значно перекошено. Цей висновок в даних може вказувати на один фактор, який стоїть за тим, щоб гравець знаходився нижче цього порогу сили.
ETD

1
Майте на увазі, що дані будуть показувати вам, що грають гросмейстери, коли вони стикаються з іншими гросмейстерами , а також з меншими гравцями. В ідеалі ви хочете порівняти, що краще та гірше гравців роблять на однакових позиціях , але це, мабуть, не вдасться за допомогою даних, за винятком першого відкриття.
Еван Харпер

@EdDean - це досить цікава тема. Будь-яка ідея, де саме він взяв ігри 4M +? Чи є місце, де ми могли б отримати щось із значних розмірів (скажімо, 100K + ігри) з надійного, але безкоштовного джерела? Я конкретно думаю про джерело, що легко завантажується, на відміну від "пошуку в Інтернеті".
Даніель Б

1
Щоб продовжити, у Вікіпедії є приємна сторінка про колекції шахових ігор . З них перше посилання здавалося напевно найбільш перспективним (відносно невелика кількість завантажених PGN-файлів для завантаження), але відсутні великі розділи (ECO-коди від B до E), що зробило б аналіз однобічним та досить марним.
Даніель Б

Відповіді:


29

Ось швидкий брудний аналіз, заснований на базі даних PGN "Мільйонна база". Я зробив це трохи поспіхом, тому в моєму програмуванні чи логіці цілком може виникнути помилки. Будь ласка, не використовуйте його для чогось надто серйозного. Оновлення - Примітка. Насправді я щойно помітив, що помилився з набором даних і обмежив його першими мільйонами записів. Я опублікую оновлення, коли отримаю трохи вільного часу, щоб запустити його знову на повну роботу. Тим часом ці цифри все-таки повинні бути цікавими.

Отримання даних:

Я отримав файл з цієї URL-адреси мільйонної бази 1,74 , оскільки сайт top-5000.nl здається 404, коли ви насправді намагаєтесь завантажити його. У файлі міститься трохи більше 1 мільйона ігор у форматі експорту PGN (тобто простий для розбору).

На жаль, більш ніж 60% ігор бракувало будь-якої рейтингової інформації (я шукав теги "WhiteELO" та "BlackELO"), а ще менше рейтингів мали обидва гравці. Зрештою, я вирішив отримати максимальний розмір вибірки, і я порахував кроки гравця, якщо його рейтинг був відомий, незалежно від рейтингу іншого гравця.

Процес:

Ігри були розібрані одна за одною, і якби був відомий рейтинг гравця, всі їх кроки за цю гру будуть додані до сукупності для рейтингової групи гравця. Я вирішив розділити рейтинги на групи по 100, тому, наприклад, 1600 до 1699 було однією групою.

Оскільки фактичний рухомий текст у PGN - це SAN, я використовував наступний ярлик для підрахунку кроків: Knight (N), Bishop (B), Rook (R), Queen (Q) та King (K) - всі починаються з літери твору . Заливки (OO та OOO) розглядалися окремо, як окремий випадок. Усі решта ходи рахувалися пішаками пішаків без подальшого вивчення.

Очищення даних не проводилося. Не було спроб визначити людей, що вижили, та видалити їх (наприклад, надзвичайно короткі та довгі ігри тощо). Я зберігав, але не включав у наступний аналіз результати результатів оцінок нижче 1600 - розмір вибірки для цих ігор був значно нижче 100, що призводило до великих варіацій результатів. Сирі дані надаються в кінці цієї публікації.

Деякі недоліки інформації: на даний момент я зібрав лише дуже базові підсумки та надав середні показники. Я майже впевнений, що в цілому дані НЕ нормально поширюються, але не зможуть сказати більше без фактичного виведення необроблених підрахунків та запуску їх за допомогою статистичної програми. Я можу це зробити, якщо є інтерес. На даний момент це означає відсутність довірчих інтервалів чи іншої інформації про розподіл чисел, які представляють ці середні показники. Я також не перевіряв, скільки років триває набір даних - якщо він представляє багато років, можливо, буде корисно спробувати виправити загальну силу поля.

Деякі тенденції:

Слово про рейтинги гравців - найбільш часто зустрічаються рейтингові групи були в порядку: 2400 до 2500, 2500 до 2600 та 2300 до 2400. Ці рейтингові групи забезпечували 72% відлічених ігор.

Дивлячись на фактичні результати, середня тривалість гри була трохи несподіванкою:

Середня кількість ходів за рейтинговою групою

Усі рейтингові групи до 2000 року мали значно коротші ігри, ніж вищі групи. Це цілком може бути пояснено можливістю, що вони грали сильніших опонентів (див. Середній рейтинг вище), і що вони зазнали поразки за менший хід. Це, мабуть, суперечить дещо коротшим іграм, які грають у кращій рейтинговій групі, хоча це може сприяти меншому розміру вибірки.

Відносно великі відмінності середньої тривалості гри означали, що забезпечення частоти переміщення певного твору, а не загальної кількості переміщень твору, є, можливо, більш справедливим порівнянням. Обчислення частот призводить до наступного графіка:

Переміщайте частоти за штукою

Здається, такі тенденції:

  • Здається, частота руху рицарів дещо знижується з рейтингом.
  • Бішоп рухає тенденцію донизу приблизно до 2000 року, потім повільно тренд вгору.
  • Рук рухає тенденцію різко вгору приблизно в тій же точці, і залишайтеся частіше, ніж Бішоп рухається в грі на високому рівні.
  • Рухи пішаків, здається, трохи зменшуються вниз із збільшенням рейтингу. Великим винятком є ​​найвища категорія, 2800 до 2900. Це приводить нас до наступного моменту:
  • Найвища рейтингова категорія надає випереджаючі чи контр-тренди в цілій кількості вимірювань. Це можна пояснити різними способами - 1) розмір вибірки досить низький - 363, не крихітний, але 10% наступного найменшого розміру вибірки. 2) Оскільки вони на вершині рейтингових груп, вони ніколи не грають "сильніших" супротивників, ніж вони самі. 3) Або просто на цьому рівні їх стиль гри вийшов за рамки нижче рівня. Моя здогадка була б комбінацією 1) та 2).
  • Відмінності у рухах королеви та ходах у ролях дуже малі без реальних тенденцій, окрім крихітної тенденції вниз в обох випадках.
  • Частота переміщення короля має деякі найбільші відмінності. Чіткої тенденції не видно, і, здається, змінюється напрямок 3 або 4 рази.

Подальший аналіз

Деякі ідеї для подальшого аналізу:

  • Основні статистичні виправлення: Я вважаю, що надзвичайно короткі та довгі ігри, мабуть, повинні бути виключені. Також розподіл фактичних підрахунків може бути дуже показовим.
  • Подальше розщеплення аналізу також може дати цікаві результати. Наприклад, мені було б цікаво дізнатися, як співпадають частоти чорно-білих (вони однакові чи різні? Чому?).
  • Класифікація за різницею в рейтингу також може бути цікавою, чи грають гравці, які грають набагато сильнішого суперника (скажімо, 200 рейтингів над ними), граючи з різною частотою руху? На жаль, для цього потрібно знати ELO обох гравців, що є рідкісним у цьому наборі даних.
  • Схильність до коротких та довгих замків також може змінюватися залежно від рейтингу.
  • Ознайомлення зі статистикою просування, деякий легкий структурний аналіз (наприклад, частота подвійних пішаків, прохідних, шпильок, вилок, показаних за рейтингом) може бути зрозумілою.
  • "Теплові карти" розміщення штук на фактичній дошці, показані рейтингом, також можуть бути досить цікавими.

Зведені дані у форматі CSV

Для тих, хто хоче пограти з даними, не соромтеся.

Діапазон оцінок, розмір вибірки, середня тривалість гри, середні ходи пішаків, середні ходи лицарів, середні рухи єпископа, середні ходи гравців, середні ходи королеви, середні рухи короля, середні ролі

1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857

Приємно! Дякуємо, що тут запустили номери. До речі, якщо ви вважаєте, що будь-яка з ідей у ​​вашому розділі "подальший аналіз" дозріла, про це вам слід запитати, будь ласка, не соромтеся робити це.
ETD

1
@EdDean дякую, і я, мабуть, зробить якийсь подальший аналіз, коли дозволить час. Я також помітив деякі подальші вдосконалення (наприклад, відфільтрування бліц-ігор та одночасних ігор та, можливо, інших), тому це, мабуть, буде трохи попрацювати. Я буду створювати оновлення, коли у мене щось з’явиться.
Даніель Б

1
Ого. Це була цілком відповідь. Фантастичний.
Джеймс Томасіно

3
Я не був би здивований, якщо, скажімо, збільшена кількість ходів граків серед сильних гравців просто означає, що вони швидше потрапляють у довгі закінчення, а не в тому, що вони частіше переміщають граків на подібні позиції.
dfan

3
@dfan Я погоджуюся, ці цифри можуть мати більше спільного з різними ефектами другого порядку, наприклад, гравці з нижчим рейтингом на ранньому етапі промахуються і не потрапляють у довгі ігри, і т.д. на жаль, немає часу на їх реалізацію.
Даніель Б
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.