Zeigt Stockfish oder LC0 öfters die realistischere Bewertung an?

By Andreas Kuntze Date 2022-01-16 17:34

Eigentlich ist die Frage falsch gestellt, denn es gibt ja nur 3 wirklich korrekte Bewertungen - Gewinn, Remis, Verlust. Und da liegen beide Engines außer z.B. bei einer Mattansage immer falsch.

Aber vermutlich meinst Du etwas anderes...

By Thomas Zipproth Date 2022-01-16 17:41

Die Bewertung sollte mit der Gewinnwahrscheinlichkeit korrelieren, was bei Stockfish inzwischen sehr gut funktioniert.

https://github.com/official-stockfish/Stockfish/pull/3582

z.B. ergibt eine Bewertung von +2.0 eine Gewinnwahrscheinlichkeit von 90%, wie man aus den Diagrammen ablesen kann.

By Andreas Kuntze Date 2022-01-16 18:01

Wobei sich die Gewinnwahrscheinlichkeiten letztlich auch nur durch eine hohe Zahl von Partien mit sehr kurzer Bedenkzeit ergeben. Und diese Partien sind objektiv natürlich voll von Fehlern, denn sonst gäbe es ja auch hier bei gegebener Stellung immer nur drei Ergebnisse.

Bitte nicht falsch verstehen: Ich orientiere mich bei meinen Fernschachpartien durchaus auch an den Gewinnwahrscheinlichkeiten, aber das ändert nichts daran, dass ab einem bestimmten Niveau fast alle Partien Remis ausgehen.

Interessant sind die Gewinnwahrscheinlichkeiten bei der Suche nach Eröffnungsneuerungen, weil sie das Fehlerpotential ganz gut beschreiben können.

By Thomas Zipproth Date 2022-01-16 18:50 Upvotes 1

Das ist korrekt denke ich.
Allerdings kommt man bei hohem Niveau / langer Bedenkzeit auch so gut wie nie auf eine Bewertung von 2.0.
Ein Test von mir mit 1.g4 Varianten ergab mal, das die Gewinnwahrscheinlichkeit auch bei relativ langen Bedenkzeiten noch recht gut paßt.
Bei 4 Threads, 480s + 30s wurden von Stockfish von 20 Partien 18 gewonnen.

Mit einer perfekten Stellungsbewertung von Matt in n Zügen oder Remis würde man wohl in der Praxis auch keine Partien spielen können, da die Engine dann z.B. nicht mehr in der Lage wäre zwischen 1. a3 oder 1. e4 zu unterscheiden.
Beide Züge hätten vermutlich diesselbe Bewertung von 0.0.

By Olaf Jenkner Date 2022-01-16 19:03

Thomas Zipproth schrieb:

Allerdings kommt man bei hohem Niveau / langer Bedenkzeit auch so gut wie nie auf eine Bewertung von 2.0.

Was bedeutet eine Bewertung 2.0 ?
Doch nur, daß noch nicht lange genug gerechnet wurde. Beim längerem Rechnen geht die Bewertung hoch oder gegen 0 und in ganz seltenen Fällen marschiert sie weit ins Negative.

By Thomas Zipproth Date 2022-01-16 19:29

Olaf Jenkner schrieb:

Das ist theoretisch schon korrekt, nur ist es halt nicht in allen Stellungen möglich so lange rechnen zu lassen, sonst wäre Schach ja schon gelöst.
Ein Beispiel:

Vor einiger Zeit versuchte ich herauszufinden, ob Stockfish für 1.g4 schon berechnen kann, ob dieser Zug evtl. (mit sehr hoher Wahrscheinlichkeit) verliert (Das wurde auch auf Talkchess diskutiert).
Nach einer Sekunde Bedenkzeit zeigte Stockfish eine Bewertung +1.78 an.
Nach 24 Stunden Rechenzeit mit 12 Threads und 32GB Hash war die Bewertung nahezu unverändert bei +1.76.

D.h. die ursprüngliche Bewertung nach 1 Sekunde war schon erstaunlich genau, das neuronale Netz funktioniert hier sehr gut hinsichtlich der positionellen Bewertung.
Aber die Verzweigungsbreite und Tiefe des Suchbaums ist hier halt noch viel zu hoch für eine endgültige Bewertung, das heißt die finale Bewertung von 1.g4 liegt noch ausserhalb der Fähigkeiten von Stockfish.

By Max Siegfried Date 2022-01-16 20:38

Thomas Zipproth schrieb:

LC0 bewertet doch schon die Grundstellung mit ungefähr +0,08.
Wenn die LC0 Version und die Netze besser werden und die RTX 4000 Generation erscheint, dann geht die Bewertung wahrscheinlich noch mehr Richtung 0,00.

By Hauke Lutz Date 2022-01-16 18:50

Ich kann mit den sehr extremen Bewertungen von Stockfish wenig anfangen.
Meinem Gefühl nach ist die nicht mehr "nur" 50% zu hoch sondern schon 100% zu hoch...

By Thomas Zipproth Date 2022-01-16 19:08

Hauke Lutz schrieb:

Ich kann mit den sehr extremen Bewertungen von Stockfish wenig anfangen.
Meinem Gefühl nach ist die nicht mehr "nur" 50% zu hoch sondern schon 100% zu hoch...

Liegt das aber nicht eher an dem riesigen Elo Abstand zwischen Stockfish und normalen Schachspielern?
Ich erinnere mich an eine Schachsendung aus den USA, wo 3 Großmeister eine Stellung als ausgeglichen bewerteten, und Stockfish +3.1 ausgab.
Die Stellung war halt letzlich gewonnen, was zu beurteilen aber ausserhalb der schachlichen Fähigkeiten diese GM's mit ca. 800 ELO weniger lag.

Eine Gewinnwahrscheinlichkeit von 90% für +2.0 und ca. 40% für +1.0 (aus statistischen Ergebnissen) scheint mir ganz gut zu passen.

By Max Siegfried Date 2022-01-17 14:52 Edited 2022-01-17 15:08

Bis jetzt haben wir ein Kopf an Kopf rennen.

LC0 zeigt manchmal eine Bewertung wie +0,20 an und eine WDL von ungefähr 300 / 550 / 150.
Nun ist aber offensichtlich die Gewinnwahrscheinlichkeit doppelt so hoch für weiß wie für schwarz.
In der gleichen Stellung zeigt Stockfish +0,60 an und das finde ich, wenn man sich die WDL von LC0 anschaut, realistischer.

Ich finde das beide Engines oft die realistischere Bewertung zeigen, wenn sie eine Stellung vor sich haben, welche ihren Stärken entspricht.

Natürlich mag ich auch keine Stellungen die Stockfish mit -0,85 im Mittelspiel für sich Bewertet und LC0 als auch der Mensch erkennen sofort maximal -0,15.

By Max Siegfried Date 2022-01-22 21:57

Anscheinend gewinnt Stockfish mit offensichtlichen Vorsprung.

By Michael Scheidl Date 2022-01-24 13:23

Die altmodische bewertung in bauerneinheiten ist schon ok, bzw. sehr wichtig denn praktische schachspieler denken in dieser kategorie. Wieviel hab ich? Das in BE. ausgedrückt leuchtet ein. Somit ist die frage wie gut NN-engines das in "plakative" BE. umrechnen... Es geht eh immer um stellungen die -zig züge von der brettstelllung entfernt sind.

Die üblichen bewertungen durch gewinnwahrscheinlichkeiten zu ersetzen, ist diskutabel aber schwer durchsetzbar.