Ось швидкий брудний аналіз, заснований на базі даних PGN "Мільйонна база". Я зробив це трохи поспіхом, тому в моєму програмуванні чи логіці цілком може виникнути помилки. Будь ласка, не використовуйте його для чогось надто серйозного. Оновлення - Примітка. Насправді я щойно помітив, що помилився з набором даних і обмежив його першими мільйонами записів. Я опублікую оновлення, коли отримаю трохи вільного часу, щоб запустити його знову на повну роботу. Тим часом ці цифри все-таки повинні бути цікавими.
Отримання даних:
Я отримав файл з цієї URL-адреси мільйонної бази 1,74 , оскільки сайт top-5000.nl здається 404, коли ви насправді намагаєтесь завантажити його. У файлі міститься трохи більше 1 мільйона ігор у форматі експорту PGN (тобто простий для розбору).
На жаль, більш ніж 60% ігор бракувало будь-якої рейтингової інформації (я шукав теги "WhiteELO" та "BlackELO"), а ще менше рейтингів мали обидва гравці. Зрештою, я вирішив отримати максимальний розмір вибірки, і я порахував кроки гравця, якщо його рейтинг був відомий, незалежно від рейтингу іншого гравця.
Процес:
Ігри були розібрані одна за одною, і якби був відомий рейтинг гравця, всі їх кроки за цю гру будуть додані до сукупності для рейтингової групи гравця. Я вирішив розділити рейтинги на групи по 100, тому, наприклад, 1600 до 1699 було однією групою.
Оскільки фактичний рухомий текст у PGN - це SAN, я використовував наступний ярлик для підрахунку кроків: Knight (N), Bishop (B), Rook (R), Queen (Q) та King (K) - всі починаються з літери твору . Заливки (OO та OOO) розглядалися окремо, як окремий випадок. Усі решта ходи рахувалися пішаками пішаків без подальшого вивчення.
Очищення даних не проводилося. Не було спроб визначити людей, що вижили, та видалити їх (наприклад, надзвичайно короткі та довгі ігри тощо). Я зберігав, але не включав у наступний аналіз результати результатів оцінок нижче 1600 - розмір вибірки для цих ігор був значно нижче 100, що призводило до великих варіацій результатів. Сирі дані надаються в кінці цієї публікації.
Деякі недоліки інформації: на даний момент я зібрав лише дуже базові підсумки та надав середні показники. Я майже впевнений, що в цілому дані НЕ нормально поширюються, але не зможуть сказати більше без фактичного виведення необроблених підрахунків та запуску їх за допомогою статистичної програми. Я можу це зробити, якщо є інтерес. На даний момент це означає відсутність довірчих інтервалів чи іншої інформації про розподіл чисел, які представляють ці середні показники. Я також не перевіряв, скільки років триває набір даних - якщо він представляє багато років, можливо, буде корисно спробувати виправити загальну силу поля.
Деякі тенденції:
Слово про рейтинги гравців - найбільш часто зустрічаються рейтингові групи були в порядку: 2400 до 2500, 2500 до 2600 та 2300 до 2400. Ці рейтингові групи забезпечували 72% відлічених ігор.
Дивлячись на фактичні результати, середня тривалість гри була трохи несподіванкою:
Усі рейтингові групи до 2000 року мали значно коротші ігри, ніж вищі групи. Це цілком може бути пояснено можливістю, що вони грали сильніших опонентів (див. Середній рейтинг вище), і що вони зазнали поразки за менший хід. Це, мабуть, суперечить дещо коротшим іграм, які грають у кращій рейтинговій групі, хоча це може сприяти меншому розміру вибірки.
Відносно великі відмінності середньої тривалості гри означали, що забезпечення частоти переміщення певного твору, а не загальної кількості переміщень твору, є, можливо, більш справедливим порівнянням. Обчислення частот призводить до наступного графіка:
Здається, такі тенденції:
- Здається, частота руху рицарів дещо знижується з рейтингом.
- Бішоп рухає тенденцію донизу приблизно до 2000 року, потім повільно тренд вгору.
- Рук рухає тенденцію різко вгору приблизно в тій же точці, і залишайтеся частіше, ніж Бішоп рухається в грі на високому рівні.
- Рухи пішаків, здається, трохи зменшуються вниз із збільшенням рейтингу. Великим винятком є найвища категорія, 2800 до 2900. Це приводить нас до наступного моменту:
- Найвища рейтингова категорія надає випереджаючі чи контр-тренди в цілій кількості вимірювань. Це можна пояснити різними способами - 1) розмір вибірки досить низький - 363, не крихітний, але 10% наступного найменшого розміру вибірки. 2) Оскільки вони на вершині рейтингових груп, вони ніколи не грають "сильніших" супротивників, ніж вони самі. 3) Або просто на цьому рівні їх стиль гри вийшов за рамки нижче рівня. Моя здогадка була б комбінацією 1) та 2).
- Відмінності у рухах королеви та ходах у ролях дуже малі без реальних тенденцій, окрім крихітної тенденції вниз в обох випадках.
- Частота переміщення короля має деякі найбільші відмінності. Чіткої тенденції не видно, і, здається, змінюється напрямок 3 або 4 рази.
Подальший аналіз
Деякі ідеї для подальшого аналізу:
- Основні статистичні виправлення: Я вважаю, що надзвичайно короткі та довгі ігри, мабуть, повинні бути виключені. Також розподіл фактичних підрахунків може бути дуже показовим.
- Подальше розщеплення аналізу також може дати цікаві результати. Наприклад, мені було б цікаво дізнатися, як співпадають частоти чорно-білих (вони однакові чи різні? Чому?).
- Класифікація за різницею в рейтингу також може бути цікавою, чи грають гравці, які грають набагато сильнішого суперника (скажімо, 200 рейтингів над ними), граючи з різною частотою руху? На жаль, для цього потрібно знати ELO обох гравців, що є рідкісним у цьому наборі даних.
- Схильність до коротких та довгих замків також може змінюватися залежно від рейтингу.
- Ознайомлення зі статистикою просування, деякий легкий структурний аналіз (наприклад, частота подвійних пішаків, прохідних, шпильок, вилок, показаних за рейтингом) може бути зрозумілою.
- "Теплові карти" розміщення штук на фактичній дошці, показані рейтингом, також можуть бути досить цікавими.
Зведені дані у форматі CSV
Для тих, хто хоче пограти з даними, не соромтеся.
Діапазон оцінок, розмір вибірки, середня тривалість гри, середні ходи пішаків, середні ходи лицарів, середні рухи єпископа, середні ходи гравців, середні ходи королеви, середні рухи короля, середні ролі
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857