Top Chess Engines Testsuite 2024

By Torsten Cuber Date 2024-02-19 23:08 Upvotes 1

Lieber Max, danke für die Bereitstellung deines neuen Test.
Hab ihn mir gerade runtergeladen.
Analysiere wie schon erwähnt zuerst auf meinem Smartphone XIAOMI 11 Pro, bevor ich entscheide, ob eine Stellung in meinen PC-ULTRA-3-TEST aufgenommen wird.
Ein Beispiel: Hab mir gerade die erste Stellung aus deinem Test angeschaut, Lösung ist 1.-Txf4!
Crystal 5 findet das auf dem Smartphone in 0:01, d.h.in einer Sekunde.
Stellung 2, Lösung 1.Lb4!, findet Crystal 5 in 0:09, d.h. 9 Sekunden.
Solche Sachen werden dann von mir aussortiert, weil zu einfach.
Stellung 3, Lösung 1.Df3!?, da bevorzugt Crystal 5 noch nach 5 Minuten die (gute) Alternative 1.Se4!
Ich halte dich auf dem laufenden, wie es weiter geht mit meinen Testresultaten.
Lieber Schachgruß vom Torsten

By Peter Martan Date 2024-02-19 23:34 Edited 2024-02-20 00:02

Hallo Torsten!

Ich hab natürlich auch mit der erste Stellung angefangen, die ist in grauer Vorzeit in Testsets vorgekommen, die damals IQ hießen. Hier hat David Dahlem aus einer noch älteren Version von Odd Gunnar Malin eine Aktualisierung davon im Talkchess gepostet, da ist die eine auch drin:

https://talkchess.com/forum3/viewtopic.php?p=164388#p164388

Wenn man den Lösungszug und den nächstbesten mit etwas Forward- Backward verfolgt und dann im MultiPV=2 bleibt:

Analysis by Stockfish dev-20240203-f2b6b5cf:

Analysis by Stockfish dev-20240203-f2b6b5cf:

1. -+ (-7.48): 1...Txf4 2.Lb5 Se1+ 3.Thxe1 Lf3+ 4.Kf1 Txe1+ 5.Txe1 Lxb7 6.Te8+ Dxe8 7.Lxe8 Tc4 8.f4 Txc3 9.g4 Tf3+ 10.Ke1 Te3+ 11.Kd1 Lf3+ 12.Kd2 Txe8 13.g5 g6 14.Kd3 Kg8 15.Kd4 Kf7 16.Kd3 Lb7 17.Kc4 Ke6 18.Kb5 Kf5 19.Kc4 Lf3 20.Kb4 Kxf4 21.Kc3 Te4 22.Kb3 Kf5 23.h5 gxh5 24.g6 hxg6 25.Kc3

2. -+ (-4.82): 1...Se5 2.Ld5 Sd3 3.Kg1 Sxf4 4.gxf4 Tb8 5.Dc6 Tfc8 6.Dd6 Td8 7.De5 Dxe5 8.fxe5 Txd5 9.Te1 Te8 10.f4 h5 11.Th2 Td3 12.Tf2 Tg3+ 13.Kh2 Th3+ 14.Kg1 Lf5 15.c4 Tc3 16.Kg2 Txc4 17.Kf3 Tc3+ 18.Te3 Tc1 19.Kg3 Te6 20.Kh2 Kh7 21.Tg2 Tc4 22.Tg5 g6 23.Kg3 Tec6 24.Kf3 Tc3 25.Tg1 Lg4+ 26.Kf2 Tc2+ 27.Kg3 T6c3 28.Txc3 Txc3+ 29.Kf2 Txa3 30.Tc1 Lf5

Tiefe 40, Rechenzeit nicht so relevant, weil wie gesagt, schon mit vollem Hash (8G, 30 Threads) gestartet.

Relation der Evals von SF von 1.5 vom zweitbesten zum besten, kann man natürlich als Teststellung nehmen (wie prizipiell jede Stellung). Für eine single best move- Suite hart an der Grenze zu dem, was ich bei meinen solchen Sammlungen durchgehen lasse. Für MEA würde ich dem zweitbesten schon auch noch ein paar Punkte geben und single game changer ist's jedenfalls keiner. Aber so genau wollen wir's ja (höchstens Manche von uns doch

) nicht nehmen.

Dann lassen wir die zweite mal aus und gehen zur dritten, die ist aus der STS, der Strategic Testsuite, die ja bekanntlich keine single best move Suite ist, sondern eine für multiple Abspiele, die mit verschieden vielen Punkten belohnt werden in der Auswertung. Das Prinzip, irgendwelche Teststellungen zusammenzuwürfeln, nur weil sie schon mal in irgendwelchen anderen Suiten vorgekommen sind, kommt mir aus der "Stockfish- Suite" bekannt vor.

Für etwas Output dazu hatte ich dann gerade einen Crystal geladen, auch etwas Forward- Backward vorweg gemacht und wieder mit schon vollem Hash noch einmal ein bisschen Standrechnen lassen im MultiPV=2:

39    4:36   +1.29 1.Se4 Lc5 2.h4 Te8 3.Dd3 Le7 4.Df3 Dg6
   5.h5 De6 6.Te2 Tf8 7.Sc3 Dc8 8.Dd3 Td8
   9.Dc2 Lf6 10.Se4 Df5 11.Sxf6 Dxf6
   12.Te4 Dd6 13.De2 Dc6 14.Df3 (5.548.656.614) 20079
   TB:1.704.275

39    4:36   +1.13 1.Df3 Dxf3+ 2.Sxf3 Tc7 3.Sd4 Td7
   4.Sb5 Le7 5.Sc3 Kh7 6.Kf3 Kg6 7.Te4 Kf7
   8.Ke3 Lg5+ 9.f4 Lf6 10.Tc4 Te7+
   11.Kd2 Td7+ 12.Kc2 Te7 13.Te4 Tc7
   14.Te3 (5.548.656.614) 20079
   TB:1.704.275

Als Lösungszug ist aber nicht 1.Se4 sondern 1.Df3 gefordert, dass das keine von den starken Engines bei beliebiger Hardware- TC (auf die sich der "Autor" in seinem Eingangsposting lieber auch gar nicht erst festlegt) "findet", (oder höchstens zufällig, wenn's mal gerade an der TC- Grenze als auch nicht viel schlechterer Zug oben ist) muss nicht weiter verwundern.
In der von Schröder und Mosca neu mit SF 15 bewerteten Fassung der STS hat 1.Se4 mehr Punkte als 1.Df3, beide werden als Lösungsmöglichkeit von MEA bewertet.
Wenn man schon Stellungen nimmt, die nicht als taktische single best move positions gedacht sind von Demjenigen, der sie schon vor vielen Jahren als mit multiplen Abspielen zu bewertende positionelle ("strategische") solche verwendet hat, und die halt für eine automatisch ablaufende Suite, bei nur der eine Lösungszug vom GUI als "gelöst" gilt, absolut nicht geeignet ist, könnte man dann nicht wenigstens den besten Zug als Lösung angeben?

Bevor ich mich da weiter in einzelne Stellungen im Forum vertiefe, geb' ich jetzt stattdessen mal nur die letzten paar als .epd- Strings an, die mir auch irgendwie bezeichnend sind für das Prinzip, mit dem her "gesammelt" wurde, bei der ersten und der letzten ein Diagramm, damit man sich auch ohne GUI schnell ein Bild machen kann, die dazwischen sind alle diesem selben Schema folgend:

bm e4; hmvc 0; id "?_?_Mate Testsuite, 222";
4k3/pp6/8/8/8/8/PPPPPPPP/RNBQKBNR w KQ - bm d4; hmvc 0; id "?_?_Mate Testsuite, 223";
4k3/p3p3/8/8/8/8/PPPPPPPP/RNBQKBNR w KQ - bm e4; hmvc 0; id "?_?_Mate Testsuite, 224";
4k3/5p1p/8/8/8/8/PPPPPPPP/RNBQKBNR w KQ - bm e4; hmvc 0; id "?_?_Mate Testsuite, 225";
4k3/6pp/8/8/8/8/PPPPPPPP/RNBQKBNR w KQ - bm e4; hmvc 0; id "?_?_Mate Testsuite, 226";
4k3/pp5p/8/8/8/8/PPPPPPPP/RNBQKBNR w KQ - bm d4; hmvc 0; id "?_?_Mate Testsuite, 227";
4k3/p5pp/8/8/8/8/PPPPPPPP/RNBQKBNR w KQ - bm e4; hmvc 0; id "?_?_Mate Testsuite, 228";
4k3/1pp1p3/8/8/8/8/PPPPPPPP/RNBQKBNR w KQ - bm e4; hmvc 0; id "?_?_Mate Testsuite, 229";
4k3/1p1pp3/8/8/8/8/PPPPPPPP/RNBQKBNR w KQ - bm e4; hmvc 0; id "?_?_Mate Testsuite, 230";
4k3/2p2pp1/8/8/8/8/PPPPPPPP/RNBQKBNR w KQ - bm e3; hmvc 0; id "?_?_Mate Testsuite, 231";
4k3/3ppp2/8/8/8/8/PPPPPPPP/RNBQKBNR w KQ - bm e4; hmvc 0; id "?_?_Mate Testsuite, 232";
4k3/pp2p1p1/8/8/8/8/PPPPPPPP/RNBQKBNR w KQ - bm e4; hmvc 0; id "?_?_Mate Testsuite, 233";
bm e4; hmvc 0; id "?_?_Mate Testsuite, 234";

In dieser Mate Testsuite (wie das mit Mate Testsuites halt so ist) kommt's natürlich für eine sinngemäße Verwendung drauf an, nicht nur den besten Zug zu finden (wie ansonsten in einer single best move suite) sondern auf die beste DTM. Die geht wieder nicht in gelöst oder nicht gelöst einer single best move suite ein, so what...

By Max Siegfried Date 2024-02-20 00:17 Edited 2024-02-20 00:25

Df3 +1.86/40

[Event "?"]
[Site "?"]
[Date "????.??.??"]
[Round "?"]
[White "?"]
[Black "?"]
[Result "*"]
[FEN "7k/4r1p1/1p1b3p/p4q2/8/P5PP/1P1NQPK1/4R3 w - - 0 1"]
[SetUp "1"]

1.Qf3 {Stockfish dev-20240218-nogit: +1.86/40} 1...Qxf3+ 2.Nxf3 Rc7 3.Re6 Bc5 4.h4 Rc8 5.Re4 Kg8 6.Ne5 b5 7.f4 h5 8.Kf3 Bd6 9.Nd3 Kf7 10.Rd4 Ke6 11.f5+ Kd7 12.g4 Rf8 13.Ne5+ Kc7 14.Rd5 a4 15.Rxb5 Re8 16.Ng6 hxg4+ 17.Kxg4 Re3 18.Ra5 Rg3+ 19.Kh5 Rf3 20.Rxa4 Rxf5+ 21.Kg4 Rf2 22.b4 Kd7 23.Ra7+ Ke6 24.h5 Kf6 25.Ra6 Ke6 26.Nh4 Kd5 27.Ra7 Be5 28.Nf3 Bf6 29.Ra5+ Ke4 30.Ng5+ Kd3 *

Die Endstellung ist schon auf niedriger Tiefe +3.00 laut Stockfish und +4.00 laut LC0. Somit 1-0.

By Max Siegfried Date 2024-02-20 00:56

Ich habe mir die Varianten jetzt nochmals angeschaut und bleibe bei Df3.
Die entstehenden unterschiedlichen Varianten nach Df3 sind insgesamt deutlich besser für Weiß als die Varianten nach Se4.
Im übrigen bin ich auch der Ansicht das Df3 mehr dem Charakter der Stellung entspricht.

By Peter Martan Date 2024-02-20 01:35 Edited 2024-02-20 02:02

Max Siegfried schrieb:

Die Endstellung ist schon auf niedriger Tiefe +3.00 laut Stockfish und +4.00 laut LC0. Somit 1-0.

Die Endstellung einer auf niedriger Tiefe kopierten langzügigen Output- Line ist so relevant wie deine ganze Suite.

Den Output im MultiPV=2- Modus hast du ja schon mit Crystal gesehen, jetzt hab' ich SF dev. auch nochmal schnell gestartet und ein bisschen Forward- Backward, unter anderem auch von deiner Output- Line gemacht, deine schöne Eval ist schon nur mehr die Hälfte, wenn du den letzten Halbzug 30...Sg65+? zurück nimmst, nach dem:

Analysis by Stockfish dev-20240203-f2b6b5cf:

31.Sh3 Tb2 32.Sf4+ Kc4 33.Kf5 Ld4 34.Kg6 Td2 35.Kh7 La1 36.Se6 Td7 37.Tc5+ Kb3 38.Tc1 Ka2 39.b5 g5+ 40.Kg6 g4 41.a4 g3 42.Tg1 Td6 43.Kf5 Td5+ 44.Kg4 Td6 45.Sf4 Td4 46.Tg2+ Kb1 47.a5 Ta4 48.a6 Le5 49.Kxg3 Txf4 50.Te2 Te4+ 51.Kf3 Tf4+ 52.Kg2 Ld4 53.h6 Tg4+ 54.Kf3 Tg8 55.Te4 Lc5 56.b6
Weiß steht klar auf Gewinn.
+- (4.34) Tiefe: 32/63   00:02:00 2474MN, tb=12304581

Und vor diesem letzten Fehler (der in deiner Line noch drin ist) :

Analysis by Stockfish dev-20240203-f2b6b5cf:

30...Ke3 31.Kg3 La1 32.Tc5 Ld4 33.Td5 Ta2 34.Ta5 Tf2 35.Se6 Lf6 36.a4 Tf3+ 37.Kg4 Tf1 38.Td5 Th1 39.Sc5 Th4+ 40.Kf5 Txb4 41.Kg6 Tf4 42.a5 Ld4 43.Sb3 Tf6+ 44.Kxg7 Lc3 45.Kh7 Ke4 46.Tc5 Le5 47.Tc4+ Kd5 48.Ta4 Ta6 49.Tb4 Lc3 50.Tb6 Ta7+ 51.Kg6 Tg7+ 52.Kf5 Tf7+ 53.Kg4 Tg7+ 54.Kf4 Le5+ 55.Kf5 Tf7+ 56.Kg4 Tg7+ 57.Kh3
Weiß steht deutlich besser.
+- (1.76) Tiefe: 31/70   00:00:34 694MN, tb=2307816

Einen weiteren deutlichen Evalsprung haben wir aber gleich bei 1...Dxf3?, danach:

Analysis by Stockfish dev-20240203-f2b6b5cf:

2.Sxf3 Tc7 3.Te6 Lc5 4.h4 Tc8 5.Te4 Kg8 6.Se5 b5 7.f4 Lf8 8.Kf3 Tc2 9.Sd3 Td2 10.Ke3 Tg2 11.Te5 Txg3+ 12.Ke4 Tg4 13.h5 g5 14.hxg6 Txg6 15.Txb5 Te6+ 16.Se5 Ta6 17.a4 Lb4 18.Kf5 Kf8 19.Tb8+ Kg7 20.Tb7+ Kf8 21.Sd7+ Ke8
Weiß steht deutlich besser.
+- (2.46 ++) Tiefe: 35/73   00:00:56 1190MN, tb=783206

Und davor:

Analysis by Stockfish dev-20240203-f2b6b5cf:

1...Dc2 2.Se4 Te8 3.Te2 Dc7 4.h4 Tf8 5.Dc3 Db7 6.f3 Le7 7.De5 Lc5 8.De6 Da8 9.Dd7 Td8 10.Db5 Tf8 11.Tc2 Ld4 12.Td2 Lc5 13.Dd7 Da6 14.Dd3 Dc8 15.Dc3 a4 16.Sxc5 bxc5 17.Td5 De6 18.Te5 Dd7 19.Txc5 Dd1 20.Te5 Td8 21.De3 Dc2+ 22.Kh3 Dxb2 23.Te8+ Txe8 24.Dxe8+ Kh7 25.De4+ Kg8 26.Dxa4 Da1 27.De8+ Kh7 28.a4 Dd1 29.De4+ Kh8 30.Dc6 Dd2 31.Da8+ Kh7 32.De4+ Kh8 33.Dc6 Kh7 34.h5
Weiß steht deutlich besser.
+- (2.04) Tiefe: 38/72   00:00:43 844MN, tb=100652

Mag sicher sein, das ist für Weiß gewonnen, aber das ist ja nicht die Frage, wenn's darum geht, ist ein Zug ein single best move oder gibt's andere Züge, die besser sind (schneller gewinnen, wenn's 2 Winner sind) oder zumindest nicht so deutlich schlechter, dass die beiden zu wenig Diskrimination haben für eine automatisch anhand einzelner Lösungszüge in nicht allzu langer Hardware- Zeit beurteilte Stellung bzw. Suite.

Machen wir ein weiteres Forward- Backward mit dem Alternativzug 1.Se4, nach dem schaut's so aus:

Analysis by Stockfish dev-20240203-f2b6b5cf:

1...Lc5 2.h4 Te8 3.Dd3 Le7 4.Df3 Dg6 5.h5 De6 6.Te2 Tf8 7.Sc3 Dc8 8.Dd3 Lc5 9.Sd5 Dg4 10.b4 axb4 11.axb4 Ld6 12.b5 Lc5 13.f3 Dg5 14.Sc7 Dxh5 15.Se6 Df5 16.Dc3 Tg8 17.Sxc5 Dxc5 18.Dxc5 bxc5 19.Te5 Ta8 20.Txc5 Ta3 21.Kf2 Kg8 22.Ke2 Kf7 23.Tc7+ Kf6 24.Tc6+ Kf5 25.b6 Tb3 26.Kd2 Ke5 27.Kc2 Tb5 28.Kc3 Kd5 29.Tg6 Kc5 30.Kd3 Kd5 31.g4 Tb3+ 32.Kc2 Tb4 33.Kc3 Tb5 34.f4 Kc5 35.Kd3 Kd5
Weiß steht deutlich besser.
+- (1.74) Tiefe: 49/90   00:05:07 6099MN, tb=1848516

Ok, die Eval ist etwas niedriger als bei 1.Df3, aber sie ist auch deutlich im +- und ich würde mir den Beweis, dass sie auch für Weiß gewonnen ist, ziemlich leicht gegen jeden Gegner, der's nicht glaubt, zutrauen. Wenn wir uns wieder (was wir ja aber vernünftiger Weise gar nicht tun als ausschlaggebendes Kriterium) nur die Endstellung vom Output anschauen, dann überhaupt

Fassen wir zusammen, hier gewinnen 2 Züge, es gibt dadurch das, was man als single game changer bezeichnet, schon mal nicht, aber das ist ja eben nicht die Haupt-Frage. Wenn beide sicher gewinnen und man noch keine zwingend anrechenbare DTM hat, die man vom einen zum anderen vergleichen kann, ist es nur durch Ausspielen von ein paar Partien zwischen verschiedenen Gegner zu sagen, welcher der objektivierbar bessere ist. Daher ist diese Stellung für eine single best move- suite, mit der man automatisch nur einzelne Züge als Lösungen gelten lässt, ungeeignet.
STS (die ja schon anno dazumal mit Punkten bewertet wurde, nicht mit einzelnen Lösungen allein) und MEA sind andere Prinzipien.
So schaut übrigens der .epd- String in Schröders Fassung der STS von dieser Stellung aus:

7k/4r1p1/1p1b3p/p4q2/8/P5PP/1P1NQPK1/4R3 w - - c0 "Ne4=10, Qf3=5";

Persönlich würde ich, wenn ich die Stellung in einer MEA- Suite drin haben wollte, sowohl das Qf3 als auch das Ne4 unter bm auflisten und beiden gleichviele Punkte geben oder dem Df3 vieleicht sogar wirklich 20% mehr, dafür aber beiden nicht die volle Punktezahl eines single best move, die's natürlich in einer MEA- Suite auch geben darf, umgekehrt macht's nur halt keinen oder nicht den eigentliche Sinn. Also als Beispiel, wie's ginge (wenn man die Stellung, weil sie mehr Zufall reinbringt als Erkenntnis, nicht einfach rausschmeißt aus der Suite) fände ich Qf3=6, Ne4=5 angemessen.

Nicht, dass man nicht auch in einer single best move suite 2 Züge gleichwertig als gelöst werten lassen kann vom GUI, muss man nur beide, unter bm aufführen, aber das macht dann eben auch hier, wo's angeblich auf "schwer" ankommt, die Stellung um das leichter lösbar, wenn es reicht, einen von beiden zu finden.

By Max Siegfried Date 2024-02-20 00:05

Halte mich gerne auf dem laufenden.
Ziel der Testsuite ist es mehrere Engines untereinander vergleichen zu können.
Bei mir lösen Stockfish und LC0 komplett unterschiedliche Stellungen in dieser Testsuite und davon die gleiche Anzahl (je nach Durchlauf schwankend +-2 Stellungen).
Man sieht auch sehr schön und deutlich das beide Engines ihre individuellen Stärken und Schwächen haben und sich sehr gut gegenseitig ergänzen.

By Andreas Matthies Date 2024-02-20 09:41 Upvotes 1

Max Siegfried schrieb:

Top Chess Engines Testsuite 2024.pgn
...
Stellungen die von beiden Engines [LC0, Stockfish] gelöst wurden und zwar sofort und immer wieder, wurden entfernt.
...

Das ist genau der Grund, weswegen diese Testsuites keine objektive Aussagen über die Stärke von Engines treffen können.
Warum landen Positionen in diesen Suites? Weil die bekannten Schlachtschiffe Schwierigkeiten mit ihnen haben.
Das ist, als wenn man eine Skiabfahrtpiste mit Buckeln und sonstigen Hindernissen vollstellt, weil Marco Odermatt diese (vermutlich) nicht so gut beherrscht, und auf dieser Piste dann versucht, den besten Skifahrer zu ermitteln.

By Max Siegfried Date 2024-02-20 11:12

Andreas Matthies schrieb:

Max Siegfried schrieb:

Top Chess Engines Testsuite 2024.pgn
...
Stellungen die von beiden Engines [LC0, Stockfish] gelöst wurden und zwar sofort und immer wieder, wurden entfernt.
...

Deine Aussage macht keinen Sinn.
Was genau ist deiner Meinung nach eine "objektive" Aussage über die Stärke von Engines?
Falls du die Elo Zahl meinst, so ist die Zahl immer noch unterschiedlich wenn du 2 Engines 1 Million oder 2 Millionen Partien gegeneinander spielen lässt.
Die Testsuite belegt aber eindeutig das Stockfish stärker ist als z.B. Rybka 4.
Die Testsuite dient übrigens dazu Aussagen zu verschiedenen Bereichen von Engines zu treffen und nicht nur "Stärke" was auch immer du damit meinst.
Diese Positionen landen in der Testsuite nicht weil die bekannten Schlachtschiffe Schwierigkeiten mit ihnen haben, sondern weil du und Co. sich nicht für die Engines wie Fritz 1 und die Positionen interessieren wo dieser schlecht abschneidet.
Du kannst gerne eine Testsuite mit 100000 Stellungen erstellen, nur werden Stockfish und LC0 und Torch definitiv 99,99% lösen und wie sollen dann Reinhold und Lothar ihre Ergebnisse vergleichen wenn beide jedes Mal 99,99% haben

.
Außerdem beschweren sich die Leute jedes mal das ERET und HTC viel zu alt und zu leicht sind, 90% der Stellungen gelöst werden und die restlichen paar Stellungen enthalten wahrscheinlich die bekannten Fehler, weshalb die Lösung der Engines obwohl korrekt nicht als gelöst angenommen wird.

By Andreas Matthies Date 2024-02-20 12:07 Edited 2024-02-20 12:17

Max Siegfried schrieb:

Deine Aussage macht keinen Sinn.

Sehe ich anders

Max Siegfried schrieb:

Was genau ist deiner Meinung nach eine "objektive" Aussage über die Stärke von Engines?
Falls du die Elo Zahl meinst, so ist die Zahl immer noch unterschiedlich wenn du 2 Engines 1 Million oder 2 Millionen Partien gegeneinander spielen lässt.

Es geht beim Schach darum, Schachpartien zu spielen. Wer es am häufigsten schafft, den Gegner Matt zu setzen ist der beste Spieler. Ganz einfach.
Dass Elo-Zahlen nicht exakt sind, ist kein Geheimnis. Aber mit einer entsprechend hohen Anzahl an Spielen bekommt man immer heraus, ob unter den Bedingungen {b1, b2, ... bn} Engine A > Engine B ist.
Das nenne ich objektiv.

Max Siegfried schrieb:

Die Testsuite belegt aber eindeutig das Stockfish stärker ist als z.B. Rybka 4.

So wie die Buckelpiste eindeutig belegt, dass Marco Odermatt besser Ski fährt als ich.
Aber ein Buckelpistenspezialist der regionalen Spitzenklasse könnte Marco Odermatt vermutlich in die Schranken weisen.
So wie es Iris 08/15, Light 4711 und Shashchess 1000 in den Testsuites schaffen, die Spitzenplätze einzusammeln.

Max Siegfried schrieb:

Diese Positionen landen in der Testsuite nicht weil die bekannten Schlachtschiffe Schwierigkeiten mit ihnen haben, sondern weil du und Co. sich nicht für die Engines wie Fritz 1 und die Positionen interessieren wo dieser schlecht abschneidet.
...
Du kannst gerne eine Testsuite mit 100000 Stellungen erstellen, nur werden Stockfish und LC0 und Torch definitiv 99,99% lösen und wie sollen dann Reinhold und Lothar ihre Ergebnisse vergleichen wenn beide jedes Mal 99,99% haben

Meine Position ist, dass keine Testsuite wirklich geeignet ist, die Stärke von Engines (im Sinne von Schach spielen wie oben beschrieben) zu messen.
Also weder Suites mit 100000 Stellungen (was dann ja schon eher dem freien Spielen von vielen Partien nahe kommt) noch Suites mit wenigen aber sehr schweren (aka von 2-3 konkreten Engines nicht/kaum zu lösenden) Stellungen.
Ich will nicht abstreiten, dass es auch interessant sein kann, Inselbegabungen wie das schnellste Mattsetzen mit 16 Steinen gegen einen einzelnen König zu untersuchen. Aber das hat mit Schach nicht viel zu tun.

Ich habe meine Engine in der Vergangenheit auch regelmäßig gegen Testsuites antreten lassen, aber die Ergebnisse hatten dann irgendwann überhaupt nichts mehr mit der allgemeinen Spielstärke zu tun, z.B. 10 Stellungen weniger gelöst bei 40 Elo besserer Spielstärke.
Die einzige "Testsuite", die mich inzwischen interessiert ist eine kleine Sammlung von Stellungen, in denen meine Engine in konkreten Spielen versagt, also den Sieg bzw. das Remis durch falsche Züge verspielt hat.
An diesen konkreten Stellungen kann man ggf. analysieren, warum ein besserer Zug nicht gefunden wurde und ob durch Anpassungen an Suchheuristiken dieser Fehler vermieden werden kann und gleichzeitig die allgemeine Spielstärke verbessert wird (was relativ schwierig ist).

So, reicht jetzt. Keinen Elefanten aus einer Mücke...

By Lothar Jung Date 2024-02-20 12:43

Das ist richtig.
Bei HTC114 sehe ich an 10 Stellungen, ob und inwieweit sich die Suche und/oder das Netz sich verbessert hat.

By Max Siegfried Date 2024-02-22 12:12

Auch bei langer Bedenkzeit schneidet das neueste LC0 Netz BT4-1024x15x32h-swa-6077500.pb besser ab als die Vorgängerversion.

By Peter Martan Date 2024-02-20 08:45 Edited 2024-02-20 09:14

Um die Stellung Nr.3, die aus der Strategic Testsuite stammt, dort, wenn man die 100er- Blöcke in ihrer usrpünglichen Form nimmt in dem namens Offer of Simplification als Nr. 71 gelistet ist, zu einem Ende zu bringen hier, habe ich über Nacht SF und Lc0 je 2 Partien mit Farbwechsel nach 1.Df3 und nach 1.Se4 ausspielen lassen mit 25'+5", SF auf 30 Threads der 16x3.5GHz CPU und Lc0 mit der 3070ti-GPU und dem BT4 5000M- Netz. Die beiden Partien mit SF für Weiß haben 59 und 53 Züge lang gedauert bis zum Matt, die kürzere war die nach 1.Se4, das war somit die insgesamt kürzeste. Die Gegenpartien mit Lc0 für Weiß waren 61 und 65 Züge lang bis zum Matt, die nach 1.Df3 war die kürzere, aber eben auch nur um 4 Züge unterschiedlich in der DTM.

Wer da noch von einem single best move spricht, in irgendeinem Sinn, in dem man das für Engine- Teststellungen allgemein und in den am weitesten gefassten Definitionen von single best move- Stellungen meint, der irrt, hat sich noch nie näher mit diesen Dingen beschäftigt und oder nicht mit dieser Stellung.

Jede kann als Teststellung verwendet werden, wenn man sie entsprechend bewertet anhand ihrer Abspiele, man kann Tools verwenden, um solche Stellungen in einer Suite mit multiplen Lösungszügen und abgestufter Beurteilung laufen zu lassen, in einer solchen Suite (der STS) mit einem solchen Bewertungstool war sie ursprünglich drin, in einer single best move- Suite hat sie nichts verloren, zumindest nicht mit einem einzelnen Lösungszug, lässt man den zweiten auch gelten als gleichwertig, entwertet man sie halt in ihrer Software- Hardware- Zeit- Anforderung und wird ihr in dem, was sie insgesamt bei genauer Analyse hergibt, auch nicht gerecht. Und man belohnt, wenn man nicht zwischen den beiden ähnlich starken Zügen unterscheidet, die zufällige Lösung durch Engines, die einen von beiden zur TC- Grenze gerade oben haben, ohne die beiden Abspiele noch irgendwie berechnen zu müssen. Das war übrigens auch der Ansatz der STS, Engines mit selbst für damalige Verhältnisse kurzen TCs gar nicht so richtig zum Rechnen kommen zu lassen, sondern mehr oder weniger aus ihrer statischen Eval urteilen zu lassen. Kann man immer noch so machen, aber eben auch nur mit Punkte- Unterschieden zwischen multiplen Lösungszügen, wenn's solche Stellungen sind.

[Event "AMD, Schnellschach 25.0min+5.0sek"]
[Site "AMD"]
[Date "2024.02.20"]
[Round "2"]
[White "Lc0 v0.31.0-dag+git.a4877961"]
[Black "Stockfish"]
[Result "1-0"]
[Annotator "CSS"]
[SetUp "1"]
[FEN "7k/4r1p1/1p1b3p/p4q2/8/P5PP/1P1NQPK1/4R3 w - - 0 1"]
[PlyCount "121"]
[SourceTitle "STS-TCE"]
[TimeControl "1500+5"]

1. Qf3 {Beide letzter Buchzug} (1. Ne4 {Beide letzter Buchzug} b5 {1.42/45 149} (1... Re5 {1.11/12 54} 2. Qa6 {1.51/49 58} Bf8 {1.33/15 19 (Te8)} 3. Qa8 {1.69/34 26} Kh7 {1.45/17 69} 4. h4 {1.82/40 0} Re7 {1.44/16 35} 5. Re3 {1.92/36 1} Rf7 {1.43/18 15} 6. Rd3 {2.00/38 10} b5 {1.46/18 14 (Te7)} 7. f3 {2.38/33 26} a4 {1.49/18 10 (b4)} 8. Qb8 {2.51/38 27 (Dc6)} Be7 {2.30/17 94 (b4)} 9. Qe8 {3.20/31 29} g6 {2.58/19 35 (Lf8)} 10. g4 {3.68/36 42} Qf4 {3.12/26 0} 11. g5 {3.84/32 28} Kg7 {3.20/21 67} 12. Qxb5 {4.06/35 0} hxg5 {3.24/22 0 (Dxh4)} 13. hxg5 {4.18/33 30} Bd8 {3.29/18 1 (Kf8)} 14. Nd6 {5.35/35 42} Rf8 {3.43/21 11} 15. Qd7+ {5.55/35 17} Kh8 {3.55/21 14} 16. Nf7+ {6.76/33 16 (Dh3+)} Rxf7 {3.64/19 57 (Kg8)} 17. Qh3+ {9.46/30 23 (Dxd8+)} Kg8 {3.26/22 44} 18. Rxd8+ {91.32/29 8} Rf8 {3.36/1 0} 19. Qe6+ {199.09/75 29 (Txf8+)} Kh8 {3.17/23 44} 20. Rxf8+ {199.37/49 0} Qxf8 {3.29/1 0} 21. Qf6+ {199.45/51 39} Kh7 {3.35/23 22} 22. b4 {199.50/56 88} Qe8 {3.54/24 0} 23. Kf2 {199.55/48 27} Qd7 {3.72/24 1} 24. Qe5 {199.61/48 28 (Ke3)} Qd3 {3.43/23 165 (Da7+)} 25. b5 {#33/56 53} Qd2+ {3.87/23 81 (Dc2+)} 26. Kg3 {#31/60 35} Qc1 {3.97/21 0} 27. Qe7+ {#29/61 41} Kg8 {4.57/20 0} 28. Qe6+ {#28/60 29} Kh8 {4.66/24 104 (Kg7)} 29. Qf6+ {#27/61 27} Kh7 {5.32/24 0} 30. Qf7+ {#26/64 73} Kh8 {6.01/1 0} 31. Qf8+ {#25/62 296} Kh7 {6.67/1 0} 32. Qh6+ {#24/62 220} Kg8 {7.06/1 0} 33. Qxg6+ {#23/60 25} Kh8 {7.15/16 0} 34. Qe8+ {#22/59 152} Kg7 {8.00/20 44} 35. Qe5+ {#21/60 0 (De7+)} Kg8 {5.92/16 86} 36. g6 {#20/59 0 (Dd5+)} Qg1+ {6.69/16 66} 37. Kh4 {#19/57 48 (Kf4)} Qh1+ {6.79/14 78 (Df2+)} 38. Kg4 {#18/58 81} Qg2+ {10.33/10 0} 39. Qg3 {#17/57 16} Qa2 {29.28/7 6 (Df1)} 40. Qf4 {#16/53 1} Qe6+ {#140/2 9} 41. Qf5 {#15/55 0 (Kg5)} Qc4+ {12.91/1 0} 42. Kh5 {#14/55 15 (Kg3)} Kg7 {16.11/1 0 (Dc7)} 43. b6 {#11/53 1} Qb3 {22.68/1 0} 44. b7 {#10/54 2 (Df7+)} Qxb7 {#142/1 0} 45. Qe5+ {#9/59 2 (Df7+)} Kf8 {#146/1 0} 46. Qh8+ {#8/63 3 (Df6+)} Ke7 {#129/1 0} 47. Qh7+ {#7/77 2 (Dg7+)} Kd6 {#128/1 0 (Ke6)} 48. Qxb7 {#6/145 3} Ke6 {#127/1 0 (Ke5)} 49. g7 {#5/245 1 (Dc6+)} Ke5 {#104/1 0} 50. g8=Q {#4/245 0 (Db6)} Kd4 {#3/2 0} 51. Qgd5+ {#3/245 0 (De4+)} Ke3 {#106/1 0 (Kc3)} 52. Qb2 {#2/245 0} Kf4 {#105/1 0} 53. Qbe5# {#1/245 0;1-0 Stockfish-Lc0 v0.31.0-dag+git.a4877961 AMD, Schnellschach 25.0min+5.0sek (3)}) 2. Qd3 {1.41/15 44} Bc7 {1.42/46 20} 3. b3 {1.48/16 20 (Te3)} Bb6 {1.86/45 249 (Dg6)} 4. f3 {1.63/19 27} a4 {1.94/40 41} 5. b4 {1.56/18 8} Rf7 {2.08/39 54} 6. Qe2 {1.46/25 1} Qe5 {2.15/35 26 (Te7)} 7. h4 {1.61/21 89 (Td1)} Rf8 {1.80/34 21} 8. Nc5 {1.65/23 1} Qxe2+ {1.86/33 21} 9. Rxe2 {1.59/22 2} Rd8 {2.31/38 67} 10. Rc2 {1.61/26 1} Kg8 {2.63/41 181} 11. Ne4 {1.79/23 1} Kf8 {2.36/36 26} 12. h5 {1.83/21 10} Rd5 {2.66/43 105} 13. g4 {1.79/20 4} Rd8 {2.74/37 27} 14. Kg3 {1.97/22 55 (Tc6)} Kg8 {2.95/35 156 (Ld4)} 15. Kf4 {2.57/25 155 (Kg2)} Rf8+ {2.87/36 104 (Ld4)} 16. Ke5 {3.04/19 46 (Kg3)} Rxf3 {3.24/35 35} 17. Rc8+ {3.20/19 16} Kf7 {3.44/38 62} 18. Rc3 {3.57/18 1} Rf1 {3.70/33 35} 19. Nd6+ {3.64/17 1} Kf8 {3.61/34 50} 20. Nxb5 {4.11/15 38} Ke7 {4.09/30 65} 21. Nd6 {5.02/16 53 (Tc4)} Re1+ {3.65/26 17 (Kd7)} 22. Ne4 {5.26/16 50} Rd1 {4.23/29 15} 23. Nc5 {5.61/16 37} Bc7+ {4.51/28 30} 24. Kf5 {6.14/16 97} Bh2 {4.62/32 0} 25. Rd3 {6.10/15 86 (Tc2)} Rg1 {4.97/33 27 (Tf1+)} 26. Rd7+ {9.37/11 20} Kf8 {5.31/30 0} 27. Ra7 {11.30/11 37} Kg8 {5.33/30 5} 28. Rxa4 {12.84/10 23 (Se4)} Kh7 {5.69/31 42} 29. b5 {13.07/10 49} Ra1 {6.05/31 0 (Tb1)} 30. b6 {14.81/9 34 (Se4)} Rc1 {6.32/23 15 (Te1)} 31. Nd7 {11.60/10 38} g6+ {6.95/25 0 (Tf1+)} 32. Kf6 {21.46/9 25} Rf1+ {7.05/22 0} 33. Ke7 {23.00/9 25 (Ke6)} Bg3 {8.06/22 15 (Kg7)} 34. Re4 {27.36/8 31 (Sf6+)} Rf2 {9.60/17 6 (Kg7)} 35. a4 {31.39/8 51} Kg8 {#15/48 0 (Kg7)} 36. a5 {45.17/7 27} Rf7+ {#13/53 0 (Ta2)} 37. Ke8 {51.14/7 35} Bf2 {#12/59 0 (Tf1)} 38. Re6 {49.96/7 35} Rg7 {#11/63 0} 39. b7 {44.76/7 35 (Sf6+)} Ba7 {#12/54 3} 40. Ra6 {31.79/7 25 (Te7)} Bb8 {#10/74 4} 41. hxg6 {33.35/8 36 (Sxb8)} Bg3 {#11/70 4 (Kh8)} 42. Rf6 {47.35/8 27} Rxd7 {#10/78 0} 43. Kxd7 {49.05/8 15} Kg7 {#9/82 0} 44. Rc6 {37.45/7 44 (Ke6)} Bf4 {#10/58 5 (Lb8)} 45. a6 {34.56/7 25} Bb8 {#8/104 0} 46. Kc8 {32.87/7 23 (Tc8)} h5 {#7/163 6 (La7)} 47. Kxb8 {71.72/7 22 (g5)} Kh6 {#6/245 3} 48. g5+ {#114/7 1 (Ka8)} Kxg5 {#7/83 6} 49. Rc5+ {#113/1 0 (Ka8)} Kf4 {#6/245 4 (Kxg6)} 50. Rxh5 {#111/1 0 (Ka7)} Kg4 {1/0 0} 51. g7 {1/0 0} Kxh5 {1/0 0} 52. g8=Q {1/0 0} Kh4 {1/0 0} 53. a7 {1/1 0} Kh3 {1/0 0} 54. a8=Q {1/0 0} Kh2 {1/0 0} 55. Qg2+ {1/1 0} Kxg2 {2/1 0} 56. Ka7 {1/0 0} Kf3 {1/0 0} 57. b8=Q+ {2/1 0} Ke3 {2/0 0} 58. Qb4 {1/1 0} Kf2 {1/0 0} 59. Qe1+ {1/1 0} Kxe1 {6/1 0} 60. Qg2 {5/1 0} Kd1 {5/1 0} 61. Ka6 {4/0 0} Ke1 {4/0 0} 62. Ka5 {3/0 0} Kd1 {3/1 0} 63. Kb4 {2/1 0} Ke1 {2/0 0} 64. Kc3 {1/1 0} Kd1 {1/1 0} 65. Qf1# {#1/0 0;1-0 Lc0 v0.31.0-dag+git.a4877961-Stockfish AMD, Schnellschach 25.0min+5.0sek (4)}) 1... Qxf3+ {0.95/38 56} 2. Nxf3 {1.16/23 41} Rc7 {1.01/41 18} 3. Re6 {1.30/22 15} Bc5 {0.97/42 59} 4. h4 {1.45/23 1 (Te2)} Kg8 {0.99/42 23} (4... Rc8 {1.44/22 69 (Kg8)} 5. h5 {2.19/38 25} Kg8 {1.65/25 97 (a4)} 6. Ne5 {2.94/37 35} a4 {1.70/27 0} 7. Nd3 {2.99/36 32} Bd4 {1.76/25 0} 8. Rd6 {3.01/39 28} Rc4 {1.79/26 0} 9. Kf3 {3.05/38 27} Kf8 {1.84/27 1} 10. Rd5 {3.15/39 78 (Ke2)} Ke7 {2.00/26 70} 11. Ke2 {3.24/41 0} Bf6 {2.07/27 0 (Kf6)} 12. Rb5 {3.32/33 20} Bd4 {2.15/26 0} 13. f4 {3.42/37 65} Kd6 {2.28/21 1} 14. Kf3 {3.52/35 37 (Se5)} Kc7 {2.24/21 162 (Kc6)} 15. Ne5 {3.86/33 30} Rc2 {2.86/22 25} 16. Rb4 {4.13/33 9} Bxb2 {2.96/22 2} 17. Kg4 {4.31/33 35} Bxe5 {3.63/22 81 (Tg2)} 18. fxe5 {6.13/31 34} b5 {3.72/25 1 (Kd7)} 19. Rxb5 {7.99/24 29} Rc3 {3.75/25 4 (Tf2)} 20. Ra5 {9.92/25 30} Rxa3 {4.02/24 1} 21. Ra7+ {11.05/20 25} Kb6 {4.15/23 13} 22. Rxg7 {91.32/47 12} Rb3 {4.14/22 15} 23. Rg8 {198.87/30 11} Kb7 {4.55/21 44} 24. Rd8 {199.44/40 0} a3 {5.07/20 30} 25. Rd4 {199.54/44 0} Kc6 {5.78/19 109} 26. Ra4 {199.61/51 0} Kc5 {5.95/19 95} 27. Ra8 {199.65/52 0} Kd5 {6.82/19 21} 28. Kf4 {199.68/47 7} Rb1 {8.91/18 81 (Ke6)} 29. Kf5 {199.76/40 180} Rf1+ {14.59/15 0 (Tb3)} 30. Kg6 {199.81/38 123} Rf3 {17.03/12 0} 31. g4 {199.83/35 25} Rg3 {18.77/10 0} 32. Ra4 {199.85/31 56} Kxe5 {36.06/7 0 (Tc3)} 33. Kxh6 {199.95/37 50} a2 {67.04/4 0 (Kd6)} 34. g5 {#18/63 23} Rg2 {18.20/1 0} 35. g6 {#17/55 22} Ke6 {17.05/1 0 (Kf6)} 36. Kh7 {#15/62 19} Kf6 {#144/1 0} 37. Ra6+ {#14/61 19} Kf5 {#143/1 0 (Kg5)} 38. g7 {#13/62 20} a1=Q {#142/1 0} 39. Rxa1 {#12/63 19} Rxg7+ {1/0 0 (Kf6)} 40. Kxg7 {1/1 0} Kg4 {1/0 0} 41. h6 {1/1 0} Kf4 {1/0 0} 42. h7 {1/1 0} Ke4 {1/0 0} 43. h8=Q {3/1 0} Kd3 {3/0 0} 44. Ra4 {2/0 0} Kd2 {2/0 0} 45. Qh2+ {1/1 0} Kc3 {1/0 0} 46. Qc2+ {1/1 0} Kxc2 {13/1 0} 47. Ra3 {12/0 0} Kb2 {12/0 0} 48. Rg3 {11/0 0} Kc2 {11/0 0} 49. Kf6 {10/1 0} Kd2 {10/0 0} 50. Ke5 {9/1 0} Ke2 {9/0 0} 51. Kd4 {8/1 0} Kf2 {8/1 0} 52. Re3 {7/1 0} Kg2 {7/0 0} 53. Kd3 {6/0 0} Kf2 {6/0 0} 54. Kd2 {5/1 0} Kf1 {5/0 0} 55. Re2 {4/1 0} Kg1 {4/1 0} 56. Ke1 {3/1 0} Kh1 {3/1 0} 57. Kf2 {2/1 0} Kh2 {2/1 0} 58. Re3 {1/1 0} Kh1 {1/1 0} 59. Rh3# {#1/1 0;1-0 Stockfish-Lc0 v0.31.0-dag+git.a4877961 AMD, Schnellschach 25.0min+5.0sek (1)}) 5. Ne5 {2.04/32 41 (h5)} Rc8 {3.62/41 213 (Ld4)} 6. Nd3 {3.82/16 51} a4 {3.76/38 175} 7. Nxc5 {4.40/16 0 (Te4)} bxc5 {3.89/33 46} 8. Rb6 {4.75/19 0} Kf7 {5.01/39 220} 9. Kf1 {4.69/16 0 (h5)} Rc7 {4.22/32 32 (Ke7)} 10. Rb5 {7.02/15 115 (Ke2)} Ke6 {5.22/47 68} 11. Ra5 {7.16/14 1} Kd5 {5.25/42 18} 12. Rxa4 {6.63/15 31} Ke6 {5.26/36 42 (g5)} 13. Ke2 {13.65/9 99} Rd7 {5.73/43 94 (Kd5)} 14. b4 {16.19/9 85} cxb4 {6.35/34 90} 15. axb4 {15.69/9 1 (Txb4)} Rd4 {7.21/30 81} 16. Ke3 {14.03/9 58} Rc4 {8.33/25 53 (Tg4)} 17. Kd3 {15.37/9 26} Rg4 {8.73/21 3} 18. Kc3 {16.55/9 34} Re4 {9.77/23 100 (Kd5)} 19. Ra7 {19.11/9 37} Rg4 {10.32/22 75 (g5)} 20. Rc7 {19.74/9 26 (b5)} Kd6 {37.73/20 95} 21. Rc4 {20.43/10 8} Rg6 {36.78/17 7} 22. b5 {21.87/9 25} Kd5 {68.45/17 0} 23. Kb4 {22.10/9 57 (Tc6)} Re6 {91.09/18 20 (Tf6)} 24. Rc5+ {20.35/8 67 (Tc7)} Ke4 {79.92/25 4 (Kd4)} 25. Ka5 {28.20/7 29 (Tc7)} Kf3 {90.04/18 18 (Kd4)} 26. h5 {28.34/7 33 (b6)} Re8 {16.07/17 5 (Kxf2)} 27. b6 {32.78/7 23} Ra8+ {199.64/32 0 (Tb8)} 28. Kb5 {25.17/8 29} Rb8 {199.66/41 0} 29. Rc7 {28.38/7 36 (Ka6)} Re8 {199.79/38 9 (Kxf2)} 30. b7 {29.44/7 35} Kg4 {199.83/38 0 (Tb8)} 31. Rc8 {34.72/8 24 (Txg7+)} Re5+ {199.85/37 6 (Te1)} 32. Kc4 {45.67/8 30 (Tc5)} Re4+ {#13/48 24} 33. Kc3 {52.06/8 28} Kh3 {#11/54 0 (Te1)} 34. b8=Q {89.78/7 33} Ra4 {#9/62 0 (Te1)} 35. Qb7 {51.02/6 57 (De5)} Ra1 {#9/69 3} 36. Kb2 {51.29/6 28} Rf1 {#8/79 0} 37. Rc2 {57.08/6 34} g6 {#7/110 0 (Te1)} 38. Qe4 {#111/6 13 (hxg6)} gxh5 {#6/139 5} 39. f3 {#110/1 0 (Df4)} Kxg3 {#6/74 5} 40. Qe5+ {#109/1 0} Kxf3 {#5/244 4} 41. Qf5+ {#108/1 0} Ke3 {#4/245 0 (Kg3)} 42. Qxf1 {#106/1 0 (Tc3+)} Kd4 {2/0 0} 43. Qh1 {1/0 0} Ke3 {1/0 0} 44. Qxh5 {1/1 0} Kd4 {1/0 0} 45. Qxh6 {2/1 0} Kd5 {2/0 0} 46. Qe3 {1/0 0} Kd6 {1/1 0} 47. Qe6+ {1/1 0} Kxe6 {14/1 0} 48. Kc3 {13/0 0} Ke5 {13/1 0} 49. Kc4 {12/0 0} Ke4 {12/0 0} 50. Re2+ {11/1 0} Kf4 {11/0 0} 51. Kd5 {10/1 0} Kf3 {10/0 0} 52. Re4 {9/1 0} Kf2 {9/0 0} 53. Kd4 {8/0 0} Kf3 {8/1 0} 54. Kd3 {7/1 0} Kf2 {7/1 0} 55. Re3 {6/0 0} Kf1 {6/1 0} 56. Re2 {5/0 0} Kg1 {5/1 0} 57. Ke3 {4/0 0} Kf1 {4/1 0} 58. Rc2 {3/0 0} Kg1 {3/1 0} 59. Kf3 {2/1 0} Kh1 {2/1 0} 60. Kg3 {1/1 0} Kg1 {1/1 0} 61. Rc1# {#1/1 0} 1-0

By Kurt Utzinger Date 2024-02-20 16:28 Upvotes 1

Peter Martan schrieb:

Lieber Peter
Zweimal habe ich - zugegebenermassen rasch - diesen Beitrag gelesen. Und der verschachtelten Sätze
wegen nur maximal die Hälfte verstanden. Oder anders ausgedrückt: Bei einigen Sätzen wundere ich
mich noch immer, was du eigentlich sagen willst. P.S. Leider passiert mir das bei vielen deiner Beiträge.
Beste Grüsse
Kurt

By Max Siegfried Date 2024-02-20 16:57

Kurt Utzinger schrieb:

Peter Martan schrieb:

<code>Lieber Peter
Zweimal habe ich - zugegebenermassen rasch - diesen Beitrag gelesen. Und der verschachtelten Sätze
wegen nur maximal die Hälfte verstanden. Oder anders ausgedrückt: Bei einigen Sätzen wundere ich
mich noch immer, was du eigentlich sagen willst. P.S. Leider passiert mir das bei vielen deiner Beiträge.
Beste Grüsse
Kurt</code>

Er will damit sagen das er die Testsuite großartig findet, nur fällt es ihm schwer seine Begeisterung in Worte zu fassen.
Das ist doch ziemlich offensichtlich

By Max Siegfried Date 2024-02-20 17:31

LC0 hat gerade einmal 9% gelöst.

File name : Top Chess Engines Testsuite 2024.pgn
Total test items   : 234
Test for    : best moves
Total engines : 1
Timer : movetime: 1
Expand ply    : 1
Elapsed : 03:59
Laps    : 1
Total tests : 234
Total corrects    : 23 (9%)
Ave correct elapse : 494 ms
Status    : completed

Correct/Total:
Lc0 v0.31.0-dev+git.unknown: 23/234

Failed tests (hit *):
1. Lc0 v0.31.0-dev+git.unknown:
0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 23, 24, 25, 26, 27, 28, 30, 31, 33, 34, 37, 38, 39, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 54, 55, 56, 57, 58, 59, 60, 61, 63, 64, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 80, 81, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 99, 100, 101, 102, 103, 104, 105, 106, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 125, 126, 127, 128, 129, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 160, 161, 162, 163, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 222, 223, 224, 225, 226, 227, 228, 229, 230, 233

Successful tests:
1. Lc0 v0.31.0-dev+git.unknown:
22, 29, 32, 35, 36, 40, 53, 62, 65, 79, 82, 98, 107, 123, 124, 130, 141, 159, 164, 192, 221, 231, 232

By Lothar Jung Date 2024-02-20 17:58

Welche Hardware und welches Netz?!?
Dir ist doch klar auch die Latenzen zu berücksichtigen.
Bei 1 sec. Bedenkzeit müssen Verzögerungen der Übertragungen berücksichtigt werden.
Verfügst du über eine GPU oder ist diese nur virtuell?

By Max Siegfried Date 2024-02-20 18:04

Lothar Jung schrieb:

MacBook
BT4-1024x15x32h-swa-5757500.pb

Sieht es denn bei dir mit dem Ergebnis besser aus?
Ich habe gerade gesehen das du einen Beitrag zum neuen Netz gemacht hast. Danke

By Lothar Jung Date 2024-02-20 18:16

Das MacBook ist für BT4 gänzlich ungeeignet.
Das backend ist viiiiiieeeel zu langsam.
Für LC0 Suites kannst du den Mac in der Pfeife rauchen.

By Max Siegfried Date 2024-02-20 18:30

Lothar Jung schrieb:

Das MacBook ist für BT4 gänzlich ungeeignet.
Das backend ist viiiiiieeeel zu langsam.
Für LC0 Suites kannst du den Mac in der Pfeife rauchen.

Die Testsuite ist viel schwieriger und für maximal 1 Sekunde pro Zug ist das Ergebnis super.
Ich zweifle daran das deine RTX 4070 Ti besser abschneiden wird.
Ave correct elapse : 494 ms

By Max Siegfried Date 2024-02-20 20:04

Das neue BT4-1024x15x32h-swa-6077500 Netz löst eine Stellung mehr:

File name : Top Chess Engines Testsuite 2024.pgn
Total test items   : 234
Test for    : best moves
Total engines : 1
Timer : movetime: 1
Expand ply    : 1
Elapsed : 03:59
Laps    : 1
Total tests : 234
Total corrects    : 24 (10%)
Ave correct elapse : 589 ms
Status    : completed

Correct/Total:
Lc0 v0.31.0-dev+git.unknown: 24/234

Failed tests (hit *):
1. Lc0 v0.31.0-dev+git.unknown:
0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 23, 24, 25, 26, 27, 28, 30, 31, 32, 33, 34, 37, 38, 39, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 54, 55, 56, 57, 58, 59, 60, 61, 63, 64, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 80, 81, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 99, 100, 101, 102, 103, 104, 105, 106, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 125, 126, 127, 128, 129, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 160, 161, 162, 163, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 222, 224, 225, 226, 227, 228, 229, 230, 232

Successful tests:
1. Lc0 v0.31.0-dev+git.unknown:
22, 29, 35, 36, 40, 53, 62, 65, 79, 82, 98, 107, 123, 124, 130, 141, 159, 164, 165, 192, 221, 223, 231, 233

By Max Siegfried Date 2024-02-21 11:12

Wie bewertet ihr Stellungen in Testsuites wo die Engine die Stellung richtig gelöst hat, aber am Anfang zuerst die Stellung wiederholen möchte?
-gelöst
-ungelöst
-2 Lösungen

Sehe gerade Nr. 19
Txh4 +199.03 Tiefe 66 (Kg8 Tg4 Kh7 Tg7...)
anstatt direkt Tg7.

Eine Stellungswiederholung bringt Vorteile und wird deshalb von den Top Engines gespielt (ist quasi im Code integriert) als auch von Menschen mit ausreichend Erfahrung bis hin zu den Profis.
Deshalb kann man dies schlecht als Fehler kennzeichnen.
Hätte die Engine bei Tg7 ein Matt angezeigt, dann könnte man sagen Matt geht vor und Tg7 mit Mattanzeige ist besser als Txh4 ohne Mattanzeigt.
Andererseits kann man bei Txh4 sagen, lass 4 Sekunden länger rechnen dann hast du auch die Mattanzeige.
Dann wäre aber direkt Tg7 schneller Matt und ein schnelleres Matt geht vor.
Sobald eine Engine mit oder ohne Multi PV erkennt das beide Züge zum Matt führen, wählt sie das schnellere Matt.
Man kann auch sagen, dass die Engine nicht gut genug war, um in der entsprechenden Zeit zu erkennen, dass Tg7 besser ist als Txh4 auch wenn der Unterschied nur minimal ist.

By Andreas Matthies Date 2024-02-22 12:22

Max Siegfried schrieb:

Eine Stellungswiederholung bringt Vorteile und wird deshalb von den Top Engines gespielt (ist quasi im Code integriert)...

Jetzt bin ich aber sehr neugierig geworden. Zeig mir bitte mal den Code, der eine Stellungswiederholung bewusst spielen lässt.

By Peter Martan Date 2024-02-22 13:33 Edited 2024-02-22 14:04 Upvotes 1

Max Siegfried schrieb:

Du bringst da wieder einmal ein paar Sachen durcheinander. Eine Stellungswiederholung zu wählen, macht dann Sinn, wenn man dadurch einen Verlust vermeiden kann (der Gegner praktisch zu threefold gezwungen ist), sonst höchstens, so lange man den besten Zug noch nicht gefunden hat, und wenn dann der Gegner wieder nicht anders kann, als in die Wiederholung der immer noch verlorenen Stellung einzuwilligen, dann schadet sie nicht, es sei denn, es werden gerade durch den einen Zwischenzug die 50 Züge überschritten.

In einer Testsuite hängt's davon ab, ob der Alternativzug bei bestem Spiel zwingend in die zu lösende Stellung zurückführt, aber auch dann kannst du natürlich am einzelnen Zug, der nur als gefunden oder nicht gefunden bewertet werden kann vom GUI oder Tool, nicht unterscheiden, ob die Engine den kürzesten besten Weg im nächsten oder im übernächsten oder im überübernächsten Zug (uups, das wär's ja schon Remis

) fände, würde ihr die Stellung 3x nacheinander vorgesetzt.
Drum sind reine DTM- Aufgaben nur dann als single best move- Stellungen verwendbar, wenn man entweder jede auch nur um einen einzigen Züg längere DTM nicht mehr gelten lässt, oder man nimmt die nächstbeste Möglichkeit zur Wiederholung auch als bm rein, ich würde solche Stellungen halt nicht in eine Suite nehmen, in der nur single best moves drin sein sollen, oder vereinfachend die Nebenlösung als adäquat, wenn der zweitbeste Zug immer noch entsprechend schwer zu finden ist, siehe Salai- Studie.

Das Beispiel der Krug- Garcia- Studie, das du bringst, ist insofern wieder ein ganz anderes, als Weiß da außer dem der Wiederholung auch einen anderen Weg zum Matt wählen kann, der nicht viel länger als der Hauptweg ist, weil zwar Schwarz weiter ausweichen kann (schon im ersten Antwortzzug als in der kürzesten HV) das ist auch der, den du als Wiederholung angibst, das 2.La1 wäre hingegen nach dem besten Gegenzug in der HV (1...Kxh8) der mit der kürzesten DTM.

Jouni Uski hat da schon mal im Talkchess drauf hingewiesen, ich mag das Posting nicht mehr suchen, hab' aber die Variante mit dem Hinweis auf Jouni in meiner Problemdatenbank.
Wenn man mit Huntsman die beiden Wege forward- backward spielt, bekommt man an der Ausgangsstellung diesen MultiPV=2- Output:

Analysis by The Huntsman 1:

1. +- (#38): 1.Tg7+ Kxh8 2.La1 Da8 3.f4 e3 4.f5 Da5 5.Kg4 h3 6.f6 Dh5+ 7.Kxh5 h2 8.f7 h1D+ 9.Kg5 Dg1+ 10.Kf5 Db1+ 11.Ke6 De4+ 12.Kd6 Df4+ 13.Ke7 De4+ 14.Kf8 Dc2 15.Tg1+ Kh7 16.Th1+ Kg6 17.Kg8 Dxb3 18.Tg1+ Kh5 19.Tf1 De6 20.Tf6 Dg4+ 21.Kh8 Dc8+ 22.f8D Dxf8+ 23.Txf8 Kh6 24.Tf6+ Kg5 25.Kg7 Kh4 26.Tf3 Kg5 27.Lf6+ Kg4 28.Kf7 b3 29.Kg6 b2 30.Lxb2 b6 31.Lg7 b5 32.La1 b4 33.Lf6 b3 34.Lb2 Kh4 35.Kf5 a1D 36.Lxa1 b2 37.Lxb2 Kh5 38.Th3#

2. +- (#52): 1.Txh4+ Kg8 2.Tg4+ Kh7 3.Tg7+ Kxh8 4.La1 Da8 5.f4 Da3 6.f5 e3 7.Kh2 Dxb3 8.f6 De6 9.Kg1 Df5 10.f7 Df2+ 11.Kh1 Dh4+ 12.Kg2 Df2+ 13.Kh3 Df1+ 14.Kh4 Dh1+ 15.Kg5 Dg1+ 16.Kf4 Df1+ 17.Ke4 Dh1+ 18.Tg2+ Kh7 19.f8D Dxg2+ 20.Df3 Dg6+ 21.Df5 Dxf5+ 22.Kxf5 Kh6 23.Kf4 Kg6 24.Kxe3 Kf5 25.Kd4 Ke6 26.Kc5 Kd7 27.e4 Kc7 28.Kxb4 Kc6 29.Ld4 Kd7 30.Kb5 Kc7 31.Kc5 Kc8 32.Kb6 Kb8 33.La1 Kc8 34.e5 Kd8 35.Kxb7 Kd7 36.Lb2 Ke7 37.Kc6 Ke6 38.La1 Ke7 39.Kd5 Kd7 40.e6+ Ke8 41.Kd6

Bei dieser Stellung sollte man daher meiner Meinung nach eigentlich schon das 1.Txh4+ als 2. Zug auch hinter der Syntax bm in der .epd auflisten, damit ihn das GUI auch als gelöst gelten lässt, auch wenn er ein paar Züge länger bis zum Matt braucht, da sind wir wieder an der Kernfrage der Diskrimination von 2 Zügen, die im Partie- Ergebnis abgesehen von der Zugzahl gleich sind.
Studien- technisch wäre es eigentlich auch ein Major Dual, je nachdem, wie ein Preisrichter das als "thematisch" gleichwertig oder nicht gleichwertig sieht.
Bei MEA könnte man wieder dem einen Zug 8 und dem anderen 6 von 10 möglichen Punkten geben, je nach dem Punkteniveau, das die übrige Suite hat.

By Dieter Brandhorst Date 2024-02-22 13:16 Upvotes 1

Also, das alte BT3 Netz hat auf meiner RTX4070 (keine ti !) 59/234 und damit 25,4% bei TC=1 Sekunde gelöst, bzw. 85/234 also 36,3% bei TC=3 Sekunden. GUI : Shredder 13.

Bisher  gelöst: 59 von 234;  2:13m                          
                                        
       1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
------------------------------------------------------------------
  0 |  0  -  -  -  -  -  0  -  -  -  -  -  -  -  -  0  -  -  -  -
  20|  -  -  0  -  -  -  -  0  0  -  -  0  -  -  0  -  -  -  -  -
  40|  -  -  0  -  0  -  -  0  -  -  -  -  -  0  -  -  -  -  0  -
  60|  -  -  -  -  -  0  0  -  -  -  -  0  0  -  -  -  0  -  0  0
  80|  0  -  0  0  0  -  0  -  -  -  -  0  -  -  -  -  -  -  0  -
100 |  0  -  -  -  -  -  -  0  -  -  0  -  -  -  -  -  0  0  -  -
120 |  -  -  0  0  0  -  -  -  -  -  -  -  -  0  0  -  -  -  -  -
140 |  -  0  0  0  -  -  -  -  -  -  0  0  -  -  -  -  -  -  -  0
160 |  -  -  0  -  -  -  -  -  -  -  -  -  -  -  -  0  -  -  -  -
180 |  -  0  -  -  -  -  -  -  -  -  -  -  0  -  -  -  -  -  -  -
200 |  -  0  -  -  -  -  -  -  0  -  -  -  -  -  -  -  -  -  0  -
220 |  -  0  -  0  0  0  -  0  0  0  -  0  -  0

VG Dieter

By Max Siegfried Date 2024-02-24 12:48

Dieter Brandhorst schrieb:

Also, das alte BT3 Netz hat auf meiner RTX4070 (keine ti !) 59/234 und damit 25,4% bei TC=1 Sekunde gelöst, bzw. 85/234 also 36,3% bei TC=3 Sekunden. GUI : Shredder 13.

<code>Bisher gelöst: 59 von 234; 2:13m

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
------------------------------------------------------------------
0 | 0 - - - - - 0 - - - - - - - - 0 - - - -
20| - - 0 - - - - 0 0 - - 0 - - 0 - - - - -
40| - - 0 - 0 - - 0 - - - - - 0 - - - - 0 -
60| - - - - - 0 0 - - - - 0 0 - - - 0 - 0 0
80| 0 - 0 0 0 - 0 - - - - 0 - - - - - - 0 -
100 | 0 - - - - - - 0 - - 0 - - - - - 0 0 - -
120 | - - 0 0 0 - - - - - - - - 0 0 - - - - -
140 | - 0 0 0 - - - - - - 0 0 - - - - - - - 0
160 | - - 0 - - - - - - - - - - - - 0 - - - -
180 | - 0 - - - - - - - - - - 0 - - - - - - -
200 | - 0 - - - - - - 0 - - - - - - - - - 0 -
220 | - 0 - 0 0 0 - 0 0 0 - 0 - 0
</code>

VG Dieter

Hmm interessant.

Andere sind auch schon auf den Geschmack gekommen: https://www.schachfeld.de/threads/40725-neue-top-chess-engines-testsuite-2024/page2
Stockfish
Maximale Lösungszeit = 1s. Ergebnis: 48 aus 234 = 20.5%. Durchschnittszeit = 0.84s / 18.93
Maximale Lösungszeit = 2s. Ergebnis: 45 aus 234 = 19.2%. Durchschnittszeit = 0.91s / 19.06
Maximale Lösungszeit = 3s. Ergebnis: 59 aus 234 = 25.2%. Durchschnittszeit = 1.56s / 20.86
Maximale Lösungszeit = 4s. Ergebnis: 61 aus 234 = 26.0%. Durchschnittszeit = 1.70s / 21.16
Maximale Lösungszeit = 5s. Ergebnis: 65 aus 234 = 27.7%. Durchschnittszeit = 2.06s / 23.41
Maximale Lösungszeit = 10s. Ergebnis: 79 aus 234 = 33.7%. Durchschnittszeit = 3.12s / 24.40
Maximale Lösungszeit = 15s. Ergebnis: 79 aus 234 = 33.7%. Durchschnittszeit = 3.95s / 23.81
Maximale Lösungszeit = 30s. Ergebnis: 118 aus 234 = 50.4%. Durchschnittszeit = 8.42s / 30.85
Maximale Lösungszeit = 60s. Ergebnis: 121 aus 234 = 51.7%. Durchschnittszeit = 13.53s / 31.27
Maximale Lösungszeit = 300s. Ergebnis: 161 aus 234 = 68.8%. Durchschnittszeit = 41.03s / 36.31
Maximale Lösungszeit = 600s. Ergebnis: 167 aus 234 = 71.3%. Durchschnittszeit = 70.06s / 38.37

Damit bist du mit dem schwächeren BT3 Netz bei nur 1 Sekunde pro Stellung bereits 5% besser als Stockfish.
Bei 3 Sekunden bist du sogar 11% besser.
LC0 profitiert intensiver, wenn beide viel Zeit haben. Mindestens um das 5-fache. Eher das 6- oder 7-fache.