Gewinnwahrscheinlichkeit bei Fritz/CB

By Tommy Tulpe Date 2024-03-25 17:59

Zu deinem Beispiel:
49% + 1% =95% -4%
verstehe ich so, dass die aktuelle Enginebewertung die Siegchancen für Weiß mit nur 1% einschätzt, die Verlustwahrscheinlichkeit mit mit 4%, dass es aber zu 95% remis ausgehen wird.
Eigentlich klar. Oder wolltest du etwas anderes wissen?

Schöne Grüße von Ulrich

By Tommy Tulpe Date 2024-03-26 14:03 Upvotes 1

So wie ich es verstehe, wird die Bewertung, z.B. + 0.25, stur in Wahrscheinlichkeiten umgerechnet. Und dies wäre ziemlich qualitätsarm, denn
* Es gibt Stellungen, die objektiv ausgeglichen sind und sozusagen totremis. Dann wäre zu 0.00 die Umrechnung +1% =98% -1% vertretbar und sinnvoll.
* Es gibat aber auch Stellungen mit ausgeglichener Bewertung, bei denen das Brett in Flammen steht und eine Bewertung wie +30% = 40% -30% viel passender wäre.

By Max Siegfried Date 2024-03-26 16:01

Tommy Tulpe schrieb:

Hat schon jemand getestet ob ChessBase die WDL Bewertung mit Stockfish 16.1 genauso anzeigt wie BanksiaGUI oder doch anders?

By Frank Rahde (Mod.) Date 2024-03-26 19:20

Danke, das hat mir geholfen. Ich muss zugeben, ich hatte es irrtümlich als eine Art Gleichung mit Addition und Subtraktion verstanden

Also als x+y=z-w. Wie dumm von mir.
Jetzt fiel der Groschen, nachdem ich begriff, was +, - und = bedeuten, nämlich Sieg, Niederlage und Remis bedeuten.

By Andreas Matthies Date 2024-03-25 18:03

Im Screenshot wird die -0.13 Bewertung umgerechnet in eine Wahrscheinlichkeit für einen Sieg für Weiß von 1%, einen Sieg für Schwarz von 4% und für ein Remis von 95%.

By Max Siegfried Date 2024-03-25 18:59 Edited 2024-03-25 19:12

50% bedeutet: die Stellung ist für beide Seiten ausgeglichen.
Dies ist quasi eine zusätzliche Angabe, unabhängig von der normalen WDL Bewertung.

49% bedeutet: die Stellung befindet sich in einem (aus weißer Sicht) 49% zu 51% Verhältnis.

Ich bin froh das ChessBase endlich auf mich gehört hat.
Nur brauche ich das auch im 1 Variante Modus und nicht ausschließlich im Multi PV.

By Kurt Utzinger Date 2024-03-26 08:29

Max Siegfried schrieb:

Hallo Max
Die Einführung dieser Bewertung bei CB hat mich gefreut. Auf diese Weise bekomme ich
ein besseres Gefühl für die Stellung als die üblichen Werte. Man kann sich übrigens auch
beide Bewertungen anzeigen lassen, z.B.

23: MCGE ARM CORTEX M7 - 300 MHZ - Mephisto Phönix Tasc R30 V 2.2 0-1 24.0, Turnier 40 / 120 2024
6Nr/7p/6p1/6b1/1P2k1n1/1B1p4/P5KP/6R1 w - - 0 1

Analysis by Light 26.3-avx2:

37.a4 Ne3+ 38.Kh1 d2 39.a5 Bd8 40.Nh6 Be7 41.b5 Rb8 42.Ba4 Kf4 43.Nf7 Rf8 44.Bb3 Rxf7 45.Bxf7 d1Q 46.Rxd1 Nxd1 47.b6 Bc5 48.Bg8 h6 49.Bc4 Ne3 50.Be2 g5 51.Bb5 Bd4 52.Bd3 g4 53.Be2 Bc5 54.Bb5 
 -+ (-2.68) (0% +0% =0% -100%)   Depth: 29/52   00:00:47  118MN, tb=43458
 Black has a decisive advantage
(,  26.03.2024)

Gruss
Kurt

By Max Siegfried Date 2024-03-26 09:00

Das freut mich. Danke.
Es ist schön zu sehen, dass Stockfish ARM Verbesserungen von den Stockfish Entwicklern erhalten hat und auf dem Mephisto Phönix auch in Zukunft immer schneller laufen wird.

By Jörg Oster Date 2024-03-26 12:06

Ich finde diese einfache Umrechnung relativ nichtssagend.
Bei gleicher Bewertung erhälst du nämlich immer die gleichen Gewinnwahrscheinlichkeiten,
unabhängig von der Stellung.
Hat Weiß in dieser Position etwa gar keine Aussichten auf wenigstens ein Remis?

Zum Vergleich hier mal die Gewinnwahrscheinlichkeiten nach 1 min Analyse
mit einer sehr alten Version von Stockfish-MOJO:

Code:

info depth 30 seldepth 49 multipv 1 score cp -240 wdl 74 388 538 nodes 43164418 nps 719394 hashfull 573 tbhits 0 time 60001 pv a2a4
bestmove a2a4 ponder g5e3

By Max Siegfried Date 2024-03-26 12:43

Jörg Oster schrieb:

Code:

info depth 30 seldepth 49 multipv 1 score cp -240 wdl 74 388 538 nodes 43164418 nps 719394 hashfull 573 tbhits 0 time 60001 pv a2a4
bestmove a2a4 ponder g5e3

Ich traue mir zu diese Stellung gegen Stockfish 16.1 zu gewinnen.
Der Vorteil von Schwarz ist viel zu groß.
Wahrscheinlich würde ich von 10 Stellungen dieser Art 9 gewinnen und 1 würde Remis ausgehen. Das wäre dann bestenfalls 10% Remis 90% gewonnen.
Da dürfte Stockfish bzw. Leptir definitiv immer 100% holen.
wdl 74 388 538 bedeutet gerundet: 7% 39% 54%
7% auf den gegnerischen Sieg und 39% Remiswahrscheinlichkeit sind einfach nur lächerlich.
Natürlich wäre es etwas anderen wenn da zwei 1200er gegeneinander spielen würden.

By Peter Martan Date 2024-03-26 13:03 Upvotes 1

Ich werde mit dem ganzen WDL nicht warm, die Zahlen, die dein alter Mojo auswirft, sind mit zu wenig eindeutig (nämlich relativ zur ja in cp ebenfalls eindeutigen -+ Bewertung), die von Kurt zu plakativ, weil 0% natürlich dann auch nicht stimmt, wenn die eine Engine deutlich schwächer ist als die andere und patzt, weil ihr die Hardware- TC zu kurz ist relativ zum Spielstärkeunterschied.
Das kann man nicht als Richtschnur nehmen, aber jede andere ist ebenso reine Übereinkunft wie die cp, und bei denen weiß ich wenigstens schon aus jahrzehntelanger Erfahrung, was sie bei welcher Engine bedeuten und dass sie in der Eröffnung immer viel mehr zählen als im Endspiel.
Just my two cents, passt hier mal wieder besonders gut, man könnte auch sagen, just my two centipawns

By Max Siegfried Date 2024-03-26 13:21

Peter Martan schrieb:

Die WDL dient als zusätzliche Bewertung und Analyseinformation und wie schon bei CP gilt auch hier: Je stärker die eigene Elo, desto mehr kann man damit anfangen.
Die WDL Bewertung von Stockfish 16.1 ist sozusagen die Sicht der Weltmeister-Engine Stockfish 16.1 und die WDL Bewertung von Magnus Carlsen ist sozusagen die Sicht des Weltmeisters Magnus Carlsen. Wenn 99% damit etwas anfangen könnten, hätten wir nur Weltmeister.
Übrigens gehen wir bei der WDL Bewertung immer davon aus das beide ungefähr gleich bzw. gleich stark sind und unter gleichen Bedingungen gegeneinander antreten und kein Superbullet mit 0 Sekunden Bedenkzeit spielen.

By Peter Martan Date 2024-03-26 13:42 Edited 2024-03-26 13:45 Upvotes 1

Oder anders formuliert aber ziemlich genau gleich in der Bedeutung: ob du die Engine- Eval (die natürlich abgesehen von numerischen Unterschieden zwischen verschiedenen Engines auch bei der einen Super- Über- Drüber- Engine, die du gerade als solche erachtest, schlicht und ergreifend falsch sein kann, wenn die Engine deines Vertrauens an einer taktischen Pointe und oder einer Festung vorbeirechnet) in cp oder in WDL- Prozenten oder in Grad Celsius einer relativen Temperaturskala oder Millimetern einer ebensolchen vergleichenden Längenskala angibst (oder gleich in Elo, wäre auch gar nicht schwer umzurechnen, so und so viel Elo Unterschied müssen bestehen, damit die eine Engine aus der einen Stellung eines bestimmten Vorteils noch so und so viele Punkte aus so und so vielen Matches gegen die andere erspielt) es sind und bleiben rein relative Bewertungen einer einzelnen Engine, und wie sie wer interpretiert, ist dem P.T. Publikum überlassen

By Jörg Oster Date 2024-03-26 14:52

Mir ging es hauptsächlich darum, dass zwei Positionen zwar die gleiche Bewertung haben können,
aber ganz unterschiedliche Gewinnchancen aufweisen können.

Die einfache Umrechnung der Bewertung in WDL impliziert jedoch,
dass alle Positionen mit derselben Bewertung auch gleiche Chancen bieten.
Da habe ich einfach eine andere Erwartung an eine WDL-Angabe.

By Peter Martan Date 2024-03-26 15:11

Hab's eh so verstanden und im Wesentlichen auch einfach zugestimmt. Beispiele gäb's viele, solche, wo's (einem, Interpretation bleibt's sowieso auch immer) gerade gut zu passen scheint, und solche, wo's selbst bei prinzipiell passender Eval (von Fällen, in denen die einfach nicht der Stellung entspricht, weil die Engine an einer wesentliche Pointe vorbei rechnet, von solchen Fällen ganz zu schweigen) der Dynamik der Stellung zu wenig Rechnung trägt, die natürlich in die Wahrscheinlichkeit, dass das so ausgeht, wie es eine einzelne HV darstellt (auf einer solchen beruht die Eval ja auch bei gängiger WDL- Angabe immer "nur") eingehen sollte.

Ob was 2 Züge vor der praktisch zwingenden 3fachen Stellungswiederholung oder der forciert zu erreichenden tbs- Stellung steht, also sozusagen ein forciertes Remis ist, oder den Anzugsvorteil einer Eröffnung gerade mal für den Nachziehenden ausgeglichen hat, das lässt sich weder in cp noch in WDL- Prozent gleichermaßen gut abbilden und schon gar nicht durch fixe Umrechnungsformeln des Einen ins Andere. Um solche handelt es sich hingegen meines Wissens vorläufig bei allen Arten der gängigen Evals. Und dann müssten kompliziertere Verfahrensweisen, die wenigstens auch noch irgendwie die Breite und die Tiefe des zugrundeliegenden Suchbaumes wiedergäben, auch erst einmal verlässlicher sein als das, was man jetzt hat, ansonsten bleibt's sowieo eine Frage von Treu und Glauben oder von praktischer Überprüfbarkeit.

By Kurt Utzinger Date 2024-03-26 21:15 Upvotes 1

Jörg Oster schrieb:

[...]
Hat Weiß in dieser Position etwa gar keine Aussichten auf wenigstens ein Remis?

Code:

info depth 30 seldepth 49 multipv 1 score cp -240 wdl 74 388 538 nodes 43164418 nps 719394 hashfull 573 tbhits 0 time 60001 pv a2a4
bestmove a2a4 ponder g5e3

Hallo Jörg
In der von mir gebrachten Stellung
23: MCGE ARM CORTEX M7 - 300 MHZ - Mephisto Phönix Tasc R30 V 2.2 0-1 24.0, Turnier 40 / 120 2024
6Nr/7p/6p1/6b1/1P2k1n1/1B1p4/P5KP/6R1 w - - 0 1
hat Weiss nulll Aussichten auf ein Remis.
Beste Grüsse
Kurt

By Peter Martan Date 2024-03-26 23:48 Edited 2024-03-26 23:53 Upvotes 1

Ja, Kurt, aber so eindeutig sehen das eben gar nicht alle Engines in gleicher Weise und Ausprägung:

Analysis by Lc0 v0.31.0-dag+git.a4877961:

-+ (-5.30) (5% +1% =9% -91%) 1.b5 Se3+   00:00:11
...
-+ (-2.63) (10% +2% =17% -81%) 1.a4 Le3 2.Tf1 Lf4 3.Tb1 d2 4.a5 Se3+ 5.Kf2 Sd5 6.Lxd5+ Kxd5 7.Sf6+ Kd4 8.a6 Kd3 9.Sd5 Le5 10.b5 Ld4+   00:00:17
-+ (-2.67) (10% +2% =16% -82%) 1.b5 Se3+ 2.Kh3 Ld8 3.Sh6 Tf8 4.Sg4 Sd5 5.Te1+ Kd4 6.Lxd5 Kxd5 7.Kg2 d2 8.Td1 La5 9.b6 Tb8 10.Kf3 Kd4 11.Sf2 Txb6   00:00:17
-+ (-2.66) (10% +2% =16% -82%) 1.b5 Se3+ 2.Kh3 Ld8 3.Sh6 Tf8 4.Sg4 Sd5 5.Te1+ Kd4 6.Lxd5 Kxd5 7.Kg2 d2 8.Td1 La5 9.b6 Tb8 10.Kf3 Kd4 11.Sf2 Txb6   00:00:17
...
12.Td7 h6 13.Tg7 Txa5 14.Txg6 Ld2 15.b6 Tb5 16.Kg2 Kd5 17.Kf3 Ke5 18.Kg4 Tb4+ 19.Kh5 Lg5 20.Tc6 Kd5 21.Tc2 Txb6   00:02:26
-+ (-3.45) (8% +2% =12% -86%) 1.a4 Le3 2.Tb1 Ld4 3.a5 Se3+ 4.Kh1 d2 5.b5 Sd5 6.Td1 Txg8 7.Txd2 Ta8 8.Lxd5+ Kxd5 9.Ta2 Lc5 10.Ta1 Lb4 11.Td1+ Kc5

Und die Forsetzung desselben runs mit den "erweiterten Suchinformationen":

1.a4 Le3 2.Tb1 Ld4 3.b5 Se3+ 4.Kh1 d2 5.a5 Sd5 6.Td1 Txg8 7.Txd2 Ta8 8.Lxd5+ Kxd5 9.Ta2 Lc5 10.Ta1 Lb4 11.Td1+ Kc5 12.Td7 h6 13.Tg7 Txa5 14.Txg6 Ld2 15.b6 Tb5 16.Kg2 Kd5 17.Kf3 Ke5 18.Kg4 Tb4+ 19.Kh5 Lg5 20.Tc6 Kf5 21.Tc5+ Kf6 22.Tc6+ Kf7
Schwarz hat entscheidenden Vorteil.
-+ (-3.49) (8% +2% =12% -86%) Tiefe: 17/47   00:02:47 562kN, tb=264
...
1.a4 Le3 2.Tb1 Ld4 3.a5 Se3+ 4.Kh1 d2 5.b5 Sd5 6.Td1 Txg8 7.Txd2 Ta8 8.Lxd5+ Kxd5 9.Ta2 Lc5 10.Ta1 Lb4 11.Td1+ Kc5 12.Td7 h6 13.Tg7 Txa5 14.Txg6 Ld2 15.b6 Tb5 16.Kg2 Kd5 17.Kf3 Ke5 18.Kg4 Tb4+ 19.Kh5 Lg5 20.Tc6 Kf5 21.Tc5+ Kf6 22.Tc6+ Kf7 23.Tc7+
Schwarz steht auf Gewinn.
-+ (-3.58) (8% +2% =12% -86%) Tiefe: 18/49   00:03:31 729kN, tb=381

Obwohl die cp- Eval sogar höher für Schwarz ist als bei SF in deinem Output- Beispiel, sind die WDL- Prozent weniger deutlich. Und was hab' ich jetzt also genau davon und an welche soll ich glauben?
Es ist mit jeder Art der Angabe in Zahlenwerten immer dasselbe, ohne die Stellung dazu und die Output- Variante und das Wissen, um welche Engine es sich handelt, bleibt's schiere Vermutung. Wenn man's nur einfach plakativ will, kann man sich genau so gut und noch besser auf die Kommentarsymbole verlassen, in die die GUIs schon ewig lange die cp umrechnen, ob eine Stellung gewonnen oder verloren ist, steht da schon ewig lang als +- und -+ dabei, also was das revolutionär Neue daran sein soll, dass es jetzt in WDL auch noch umgerechnet wird, sehe ich nicht, sorry.
Ich kann's glauben oder nicht, der einen Engine mehr glauben als der anderen, in keinem Fall hab' ich was von der Eval allein, egal in welchen Zahlenwerten oder Symbolen, ohne die Stellung und die HV dazu, so what?

By Jörg Oster Date 2024-03-27 08:51 Upvotes 1

Nun, die WDL Angaben liefern mehr Informationen zur Entscheidungsfindung in der Suche.
Bei der klassischen Bewertung hast du nur eine Zahl.
Welchen Zug wählst du, wenn 2 Züge die gleiche Bewertung liefern?

Bei WDL hast du ggf. leichte Unterschiede und wählst den Zug mit der leicht besseren Gewinnverteilung.

(Jetzt kennst du schon mal ein Geheimnis des Erfolgs von AlphaZero, Leela und Co.)

By Peter Martan Date 2024-03-27 09:43 Edited 2024-03-27 10:14

Ich versteh's natürlich nicht so gut wie du, Jörg, aber ich glaub' halt einfach nicht, dass das den wirklich großen Unterschied zwischen A-B und Lc0 macht, in welcher Weise die Evals (bevorzugt, Lc0 macht ja auch beides) ausgegeben werden, noch dazu, wo die interne Bewertung der Engine ja sowieso wieder eine andere ist als die des Outputs.

Wir sind von einer Stellung ausgegangen, in der die eine Seite praktisch keine Aussichten mehr hat, die einfach gewonnen ist. Ob du da ein 0%- Wahrscheinlichkeit für Remis und oder Punkt der eigenen Seite hast, oder eine Eval von "nur" 2 bis 3 ganzen Bauern (wie im Beispiel von SF und Lc0 und der einen Stellung, die Kurt gebracht hat), das macht natürlich einen Unterschied, aber ob du 50% Remiswahrscheinlichkeit hast oder eine 0.00- cp- Angabe bei einer anderen Stellung, inwieweit dir das bei der Zugwahl mehr oder weniger hilft, das sehe ich weniger deutlich.

Es wird noch und noch Stellungen geben, in denen die WDL- Angabe genauer zu sein scheint (ob sie's ist, müsste man dann aber eben auch erst mal überprüfen) und noch und noch solche, bei denen es umgekehrt scheint. Interpretieren wird man in jedem Fall jede Eval müssen, ob in WDL oder cp, also der Kernsatz, dass jede Eval nur so aussagekräftig ist wie die Output- HV, auf der sie beruht, diese goldene Regel bleibt schon mal gleich.

Wenn 2 Kandidatenzüge dieselbe Output- Eval haben, werde ich die Entscheidung immer anhand der Varianten treffen müssen, anhand der Abspiele, auch wenn der einen Kandidatenzug das eine oder andere einzelne Gewinn- oder Remisprozent mehr bekommt, wird mir das nicht erspart bleiben, die Abspiele zu vergleichen, mit mehr oder weniger Hash (oder NN- Cache) der aus mehr oder weniger Forward- Backward mehr oder weniger selektiv gefüllt ist, ändern sich die Output- Evals ja in aller Regel im zeitlichen Verlauf sowieso auch, und wieviel Rechenzeit ich welchen Zügen und Stellungen gebe, das muss ich ohnehin auch immer selbst entscheiden, und sei's als TC- Vorgabe beim game playing.
Ein Zugsortierung wird die Engine mit cp- Output genau so machen müssen wie mit WDL, entweder ich nehme einfach den Zug, den die Engine nach bestimmter Rechenzeit als besten sortiert, oder ich entscheide erst nach weiterer Analyse, an diesem Prinzip kann eine andere Eval nichts ändern.

Das einzige, was bei verschiedenen Engines, verschiedenen Stellungen und verschiedenen Evals quantitativ wirklich zählt, sind die Relationen. Die zwischen den Kandidatenzügen an den Knotenstellungen und an den Endstellungen einer Variante, die zwischen den Stellungen beim ersten und beim zweiten und beim letzten Zug in der Tiefe, die noch von Interesse und beurteilbar ist, und die zwischen den Verläufen über die Zeit und die Tiefen verschiedener Engines.
Was an alledem eine WDL- Bewertung relativ zu einer anderen ändern soll, sei sie in cp oder "nur" in Kommentarsymbolen wie +- und -+, erschließt sich mir nach wie vor nicht. Ich kann's verschieden genau nehmen numerisch (dann aber bitte eben auch und erst recht immer nur relativ zur Stellung und den Zügen und relativ zu den Vergleichsevals) oder mich mit ausgeglichen, leicht oder deutlich vorteilshaft oder gewonnen oder verloren zufrieden geben. Das ist allein meine Entscheidung, wie ich was interpretiere, anders als vergleichend hat numerisch sowieso keinen Sinn und die Zugsortierung, die die Engine vornimmt, ist ein hartes Kriterium, das ich sowieso auch zusätzlich und von der numerischen Eval unabhängig habe.
Just my two centipawns

By Kurt Utzinger Date 2024-03-27 14:12 Upvotes 1

Jörg Oster schrieb:

Nun, die WDL Angaben liefern mehr Informationen zur Entscheidungsfindung in der Suche.
Bei der klassischen Bewertung hast du nur eine Zahl.
Welchen Zug wählst du, wenn 2 Züge die gleiche Bewertung liefern?

Bei WDL hast du ggf. leichte Unterschiede und wählst den Zug mit der leicht besseren Gewinnverteilung.

(Jetzt kennst du schon mal ein Geheimnis des Erfolgs von AlphaZero, Leela und Co.)

Für mich fühlt es sich einfach viel klarer an, den Gehalt eine WDL-Bewertung zu verinnerlichen als eine
rein numerische Zahl auf deren Wert in Bezug auf Gewinnchancen einzuschätzen. So gesehen, sind mir
alle Argumente und Vergleiche für/gegen WDL eigentlich wurst. Es verhält sich ähnlich, wie wenn man zwei
auf ihre Art gleich hübsche/schöne Frauen ansieht. Die eine ist gefühlmässig dein Typ, die andere sagt dir gar nichts.
Beste Grüsse
Kurt

By Max Siegfried Date 2024-03-25 19:15

Weiß jemand ob andere GUIs, kostenlose und kostenpflichtige GUIs, diese WDL Bewertung + die zusätzliche 50% Info anbieten?

Wie sieht es aus beim Hiarcs Chess Explorer, Lucas Chess und Co.?

By Lothar Jung Date 2024-03-26 14:02 Upvotes 1

Ich hatte doch kürzlich in einem Thread auf einen Blog verlinkt der die Thematik behandelt.