Комп'ютерні оцінки: наскільки вони надійні?


14

Fritz 12 з Rybka дали моєму другові оцінку +3 для білого в цій позиції ендгра ,

Білий рухатися

який виявився нічиєю. Але я чув, що +3 від комп'ютера означає гарантовану перемогу при ідеальній грі. Я просто почув неправильно? Як слід інтерпретувати комп'ютерні оцінки загалом? Що означають переваги відкриття <.5?


3
Я б оскаржив коментар "гарантованого виграшу". Оцінювальне число - це евристичний показник, в основному "відчуття", яке має комп'ютер для позиції. Кінцеві ігри можуть мати "дивовижні" результати, і якщо комп'ютер не запрограмований на виявлення всіх можливих шаблонів (або він може обчислити весь шлях), деякі з них пропустять. Подивитись на це по-іншому, якби +3 дійсно гарантовано, це не було б +3, це було б + нескінченність.
Даніель В

Для запису я перевірив це за допомогою 7-х частинних таблиць Lichess, і це, дійсно, нічия.
PhishMaster

Відповіді:


8

Тут є кілька речей.

По-перше, у кожної програми буде свій власний спосіб оцінювання позицій, тому оцінки не можна безпосередньо порівняти. Наприклад, нещодавно я бігав StockFish проти Rybka і виявив, що показники Stockfish приблизно вдвічі перевищують показники Rybka. Мене це здивувало, але цілком зрозуміло, що оцінка 1 не завжди означає «1 пішак». Я думаю, що ми повинні дивитись, як змінюється оцінка. Ще одна цікавість, яку я бачив вчора (відповідаючи випадково на одне з ваших інших питань), полягав у тому, що алгоритм оцінки Stockfish не дуже любить непарні числа. Насправді більшість балів були кратними .04. Зважаючи на те, що величина значення довільна, я не вважаю, що якесь певне значення означає "впевнений виграш", якщо машина не стверджує, що знайшла собі товариша.

По-друге, основні таблиці ігор були створені, оскільки для вирішення кінцевих ігор потрібна велика глибина пошуку. Комп'ютери, що грають на турнірній швидкості, просто не роблять це добре. Я кілька днів тому працював над різною грою і на цьому сайті оголосив, що одна сторона має перевагу. Ед використовував базу таблиць, щоб показати, що в цій позиції не залишилося жодної таємниці - це було теоретично намальовано. Звичайно, існує величезна різниця між намальованою ідеальною грою та намальованою; гравці повинні знайти правильні рухи.


Невелике значення, яке зазвичай надається Білому на ранніх стадіях гри, в основному означає, що білий може вимагати більш цінну нерухомість. Наприклад, у ході 1 Білий може претендувати на e4 та атакувати e5 та f5. Чорний може протидіяти. Але тоді Білий може грати в Nc3 та атакувати / підсилювати a4, b5, d5 та e4. Але Чорний може протидіяти. Тож це означає дуже мало.


Нарешті, щоб відповісти на запитання у вашій темі - оцінки дуже достовірні, оскільки ґрунтуються на грубих фактах та вражаючій глибині пошуку. Звичайно, машини не є безпогрішними. Але ми b-гравці повинні пам’ятати, що Stockfish (або Rybka) грають на GM сили на скромному обладнання. За найкращим загальним обладнанням вони оцінюють свої показники за FIDE 3200. Це настільки високо, що лише найкращі люди мають незначний шанс не програти.

Поміркуйте, що це означає; Я (USCF 1650-ish) не маю шансів проти людини (скажімо, USCF 2050), яка не має шансів проти людини (скажімо, USCF 2450), яка не має шансів проти людини (скажімо, USCF 2850), яка має повзунок з шансів проти першокласної комерційної програми (FIDE 3200).

Таким чином, коли Stockfish каже, що один хід кращий за інший, я зазвичай приймаю це за номінал. Коли я підключу основи для ендграйдів, ця річ почне оголошувати товаришів у 30-х, хаха.


1
Дуже приємна відповідь. Я завжди вважав, що оцінка 1 означає значення 1 пішака. Крім того, chesstempo каже, що найкращі кроки (-и) в його проблемах - це ті, які виграють щонайменше 2 пішаків вартістю матеріалу, тому я вважав, що оцінка двигуна +2 і більше є виграшною незалежно від етапу в грі. Однак я виявив, що аналіз поголів’я був несправним раніше, і я побачив, як він не може правильно оцінити кінцеві ігри. На цій замітці, чи знаєте ви, де я можу знайти таблицю базових ігор?
кругленькартосета

Ось онлайн-таблиця для 6-ти чоловік Ed опублікувала: k4it.de/index.php?topic=egtb&lang=en
Тоні Енніс

+1 для "Я б не вважав, що якесь значення означає" впевнений виграш ", якщо машина не стверджує, що знайшла товариша".
ferit

14

Різні двигуни мають різні "шкали" для їх чисельних оцінок. Наприклад, у типовій позиції середнього гравця з великою кількістю гри, коли Гудіні каже +2,00 або вище, велика ймовірність, що Білий має виграшну перевагу (хоча навіть тут я включив кваліфікацію з причини). Але врахуйте: можна змінити вихідний код Худіні та подвоїти абсолютні значення всіх чисел, що беруть участь в оцінках; кожен отримує двигун однакової сили, який створює однакову гру, але зараз +4.00 означає, що означало +2.00. Це ілюструє, що не слід очікувати рівномірного числового порогу для двигунів, що зазвичай вказує на виграшну перевагу.

Більше цього, однак, важливо розуміти, що числова оцінка двигуна позиції (на відміну від прямого оголошення про неминучого товариша) ніколи не суворо перекладається на "виграну гру" навіть для одного, нерухомого двигуна. Ключовим моментом є те, що числові оцінки не мають чітко вираженого "значення" в широких шахових термінах, і є скоріше лише заміною розумній думці, яка використовується для механічного спрямування двигуна до загально бажаних результатів, впливаючи на те, який рух він вибирає в кожній точці у грі; у цьому світлі, що в кінцевому рахунку найважливіше для гри двигуна - це лише різниця в оцінці, присвоєній потенційним рухам, а не що-небудь про абсолютні значеннязалучений. Цифри корисні для самого двигуна, який потребує чогось конкретного для того, щоб прийняти рішення про один крок над іншим, але ми, люди, не повинні надто швидко читати більше значення в масштабах, пов'язаних з думками типу "+ X означає виграш ».

Зокрема, чим далі і далі ми добігаємо до ендгра, на відміну від середньої гри, тим менше ми можемо використовувати правило (наприклад, мій +2,00 для Худіні в середніх іграх вище) про те, що певний поріг буде достатнім для виграшу. Однією з ключових причин цього є складність, що двигуни розпізнають фортеці, де достатньо зайвого матеріалу все ще недостатньо для виграшу. Наприклад, коли я годую Stockfish цією посадою,

NN - NN

через пару хвилин подумав, що це дає оцінку приблизно +7,00, і в типовому положенні, коли Stockfish каже це, у вас майже напевно виграш на руках. Тим не менш, це мертва нічия, і людина може це легко побачити, як тільки зрозуміє факт, що Чорний може просто перемістити грак між f6 і h6, і так (1) h-піша марний, а (2) білий король ніколи не зможе допомогти нападі білої королеви. Врешті-решт , Stockfish також визнає нічию і тут, як тільки зіткнеться проти 50 ходів, скажімо, або, нарешті, закінчиться різний хід, щоб спробувати, і нарешті не вдасться уникнути повторення, але ці події знаходяться внизу лінії пошуку глибини.

Позиція в кінцевій грі з попереднього питання, з яким ви пов’язані, схожа на цю фортецю, оскільки додаткові з'єднані пішачні пішаки у Білого є приємними і всіма, але в кінцевому підсумку недостатньо достатньо, щоб виграти на цій посаді. Якщо двигун повинен був обчислити достатньо часу, щоб побачити стільки інформації, скільки міститься в таблицях, то його оцінка знизиться до 0, але тим часом алгоритм його оцінювання не має нічого кращого, ніж дати + для цього зайвий матеріал (який він ще не знає, безглуздо).


+1 за «Більше , ніж це, хоча, це важливо розуміти , що чисельна оцінка двигуна позиції (на відміну від прямого заяви про неминуче мате) ніколи строго не призводить до виграним ігор»
FERIT

8

Я думаю, що ця картина досить добре описує ситуацію. Він був створений з 400k ігор і розглядає лише звичайний штучний матеріал.

Перемога на ймовірність / Перевага пішаків

Джерело: Перевага пішака, відсоток виграшу та ELO


1
Приємний внесок! +1
ferit

@Thomas Ahle: Графік цікавий. Але оригінальна стаття більше не доступна, посилання на вікі-простори сумно знизилося. Ви пам’ятаєте точний зміст W = Вірогідність виграшу? Виграв чи програв, ігноруючи нічию? Або це "очікуваний бал" з урахуванням нічиїх?
Дідрш

@Diedrsch Я оновив посилання
Thomas Ahle
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.