WM-Test 100 - Damals(2004) / Heute

By Wilhelm Hudetz Date 2022-08-21 10:29 Upvotes 1

Beim Herumtesten mit der Banksia-Gui bin ich über den alten WM-Test gestolpert und dachte, wow, da werden die heutigen Engines nur so durchfetzen

Nun ja, bei den meisten Stellungen schon, aber es gibt ein paar die nicht gelöst werden. Z.B. WMT 10, 20, 45, 68 und 75. Damals gab es natürlich nicht die Rechenleistung wie heute (Athlon 1400 Fritzbenchmark 1,15 - Ryzen 9 5900x Single 9,07, Multi16 75,3 HT on) und man konnte das nicht so in die Tiefe testen.
Die 308!! getesteten Engines von Manfred Meiler sind in meinen Augen eine wahre Meisterleistung an Ausdauer und Geduld! Ich habe damals schon nach wenigen Tests w.o. gegeben

.
Nun habe ich mal einen genaueren Blick darauf geworfen, als Beispiel Nr.10 hier (Spassky-Unzicker).
Keine NN Engine spielt hier das verlangte Se3-f5. Alle bevorzugen g4xh5, hmmm...
Es gibt aber durchaus Engines die es spielen, Senpai 2.0, Deep Fritz 14, Zappa Mexico II z.B.
Alles getestet mit 24 Threads wenn möglich. Die NN Engines hatten Se3-f5 oft als 2te od. 3te Variante aber nie als Hauptvariante. Sind diese Blind oder ist der Test nicht korrekt? Wurde das jemals später genauer überprüft? Oder liegt es an etwas Anderem?

Grüße
Wilhelm

By Peter Martan Date 2022-08-21 10:43 Edited 2022-08-21 11:12

Wilhelm Hudetz schrieb:

Nun habe ich mal einen genaueren Blick darauf geworfen, als Beispiel Nr.10 hier (Spassky-Unzicker).

Du meinst den 36. Zug dieser Partie:

Event:

Ort:

Datum:

Weiss:

Schwarz:

Ergebnis

Board

Ist halt eine dieser Teststellungen, die nicht als single best move only zu bewerten sind, z.B. in einer Suite. Hätte Unzicker nicht 37...gxf5? gespielt, wär's vielleicht nicht ganz so schnell bergab weitergegangen, verloren war die Partie halt aber auch schon und an der Stellung vor dem 36. Zug, und dort ist die Diskrimination zu 36.gxh5 nicht groß genug, dass sie nicht manche Engines zufällig so oder zufällig anders wählen "dürften".

Nach einem kurzen Backward der Partie vom 37. Zug an der Stellung in Frage:

Analysis by Stockfish 310722:

1. +- (5.31): 36.Nf5 Bf8 37.Nh6+ Bxh6 38.Bxh6 Nh7 39.Be3 Qc7 40.Qd2 Bd7 41.gxh5 g5 42.g4 Rec8 43.Rc1 a5 44.Bd3 Rcb8 45.Rc2 Qd8 46.Rhc1 a4 47.Rb2 f6 48.bxa4 bxa4 49.Ra2 Qc8 50.Be2 Rb3 51.Bd1 Rb7 52.c4 Nf8 53.Be2 Qe8 54.c5 dxc5 55.Bxc5 Bb5 56.Bxb5 Qxb5 57.Ba3 Rab8 58.Rc6 Kg7 59.Rac2 Qb1 60.Qc1 Qb5 61.Kg3 Qd3 62.Rd2 Qb3 63.Qc5
2. +- (4.82): 36.gxh5 Nxh5 37.Ng4 Bg7 38.Nh6+ Kf8 39.Qf2 Qf6 40.c4 Bd7 41.c5 dxc5 42.Qxc5+ Qe7 43.Qxe7+ Rxe7 44.b4 Ree8 45.Bb3 Rec8 46.Ng4 Kg8 47.Nf2 Nf6 48.Nd3 Be8 49.Rc1 Nd7 50.Rxc8 Rxc8 51.Ra1 Nb8 52.Ra2 f6 53.f4 exf4 54.gxf4 g5 55.Nc5 Bf7 56.Kf3 Bf8 57.fxg5 fxg5 58.Kg4 Bxc5 59.bxc5 Rxc5 60.Kf5
Weiß steht klar auf Gewinn

Man kann die Stellung natürlich (so wie jede andere, an Eröffnungsstellungen werden die meisten Tests durchgeführt nach wie vor) als Teststellung verwenden, aber da müsste man, wenn man's in einer Suite ablaufen ließe, das gxh5 als Nebenlösung auch eingeben und ev. mit weniger Punkten als das schöne Spassky- Opfer bewerten, aber als single best move geht's meiner Meinung nach, zumindest mit halbwegs kurzer Rechenzeit und leerem Hash gestartet nicht durch. Game changer in dem Sinn, dass nur der beste Zug (ist Sf5 schon) gewinnt, ist es keiner, winner halt nicht der einzige.

Edit: Nach einem Extra- Backward vom Abspiel nach 36.gxh5(?! bis !?, würde ich kommentieren) an der Stellung danach:

Analysis by Stockfish 310722:

36...Nxh5 37.Ng4 Bg7 38.Nh6+ Bxh6 39.Bxh6 Qf6 40.Qd2 a5 41.Rh2 a4 42.Rfh1 a3 43.Bb1 Bd7 44.Bg5 Qg7 45.g4 f6 46.Bh6 Qh8 47.Be3 Rf8 48.gxh5 g5 49.Kf2 Rf7 50.h6 Qh7 51.b4 Kh8 52.Rg1 Qg6 53.Ke1 Rh7 54.Kd1 Rxh6 55.Rgh1 Rxh2 56.Qxh2+ Kg7 57.Kc1 Kf7 58.Bc2 f5 59.Kb1 f4 60.Bb6 Rc8 61.c4 bxc4 62.Qh7+ Qxh7 63.Rxh7+ Kf6 64.Rxd7
Weiß steht klar auf Gewinn: +- (5.09) Tiefe: 45/65 00:04:24 6361MN, tb=342208

Und zum Vergleich noch einmal single primary auf der nach 36...Sf5! (das Backward dieses Abspiels fairer Weise vor dem Output- Kopieren noch einmal gemacht habend):

Analysis by Stockfish 310722:

36...Bf8 37.Nh6+ Bxh6 38.Bxh6 Nh7 39.Be3 Qc7 40.Qd2 Bd7 41.gxh5 g5 42.g4 Rec8 43.Rc1 a5 44.Bd3 Rcb8 45.c4 bxc4 46.bxc4 a4 47.c5 dxc5 48.Bxc5 Bb5 49.Bb1 Qd8 50.Rc3 Nf8 51.Be3 Nh7 52.Ba2 Bd7 53.Bc5 Qf6 54.Ba3 Rc8 55.Rhc1 Rxc3 56.Rxc3 Rc8 57.Rxc8+ Bxc8 58.Bc4 Qb6 59.d6 Qc6 60.Bd5 Qe8 61.Bb2 Kg7 62.Bc4 f6 63.Qd5 Bd7 64.Bc1 Kh6 65.Ba3
Weiß steht klar auf Gewinn: +- (5.28 --) Tiefe: 42/70 00:06:36 9661MN, tb=3838493

Zu beachten vielleicht auch, dass SF in der HV auch nicht wie Unzicker 36...Lxd2 fortsetzen würde, sondern ...Lf8.

By Wilhelm Hudetz Date 2022-08-21 11:10

Danke Peter! Mich hat nur stutzig gemacht das es keine einzige von mir getestete NN Engine gespielt hat sondern eben nur welche ohne NN. Scheinbar sehen die das etwas anders

By Peter Martan Date 2022-08-21 11:14

You're welcome!

By Max Siegfried Date 2022-08-21 10:47 Edited 2022-08-21 10:49

Meistens sind die Aufgaben in einem fast 20 Jahre alten Test inkorrekt, wenn diese vom neuesten Stockfish angeblich nicht gelöst werden.
Verwendest du eigentlich die neueste Version der BanksiaGUI?

By Wilhelm Hudetz Date 2022-08-21 11:13 Upvotes 1

Die Testroutine in der Banksia-Gui ist etwas buggy, speziell was die Zeit betrifft. Daher testete ich verschiedene Versionen und habe das ganze an Pham gemeldet und er hat mir gesagt das er gerade daran arbeitet. Verwende v0.54 da v0.55 mehr buggy ist

By Benno Hartwig Date 2022-08-21 11:10

> Es gibt aber durchaus Engines die es spielen, Senpai 2.0, Deep Fritz 14, Zappa Mexico II z.B.

Geben diese Programm in ihrer Bewertung und HV denn auch irgendwie zu erkennen, dass sie den besonderen Clou der Lösung erkannt ("verstanden") haben?
Oder wissen sie die Alternativen eigentlich gar nicht wirklich zu unterscheiden, und der eine oder andere Zug wird dann eben mal ein paar hundertstel Bauerneinheiten besser bewertet. Womöglich ist 2 Halbzüge tiefer schon wieder alles anders, aber diese Beobachtung gilt dann als "Hej, die Engine löst es!" ?

By Wilhelm Hudetz Date 2022-08-21 11:17

Der Unterschied lag bei 0,2-1,0 Bauereinheiten nach ca. 10min. bei 24 Threads und einer Tiefe jenseits der 50.