YAAEPS yet another anti engine puzzle suite

Not logged inCSS-Forum

Forum

CSS-Online

Help

Search

Login

CSS-Shop

Impressum

Datenschutz

Topic Hauptforen / CSS-Forum / YAAEPS yet another anti engine puzzle suite

By Peter Martan Date 2025-06-20 09:58 Edited 2025-06-20 10:10

Um den Thread von Frank Karger nicht weiter mit meinen Privatinteressen zuzumüllen, mach' ich schnell noch einen neuen auf, nur weil ich mir da jetzt außer den verbalen Überlegungen doch auch wieder vermehrt Runs von verschiedenen Testsuites angetan habe, möchte ich die Sache mit den Suiten, die so ziemlich das genaue Gegenteil an Ergebnissen erbringen von denen des STC game playings, doch noch kurz auf die Spitze treiben. Wie ich zuletzt schon im CCET- Thread schrieb, sind die ersten 80 der 160 Stellungen durchaus großteils für die meisten Engines wirklich "schwere" solche, was die Hardware- Zeit angeht, aber lösbar, vor allem, wenn man auch eigene Branches und Settings mitspielen lässt, die eigens für solche komponierten Stücke gedacht sind. Die zweite Hälfte der 160 Stellungen (Nr. 81-160) sind, um es noch einmal kurz zusammenzufassen, sind auf eine ganz andere Art entweder sehr bis zu schwer für praktikable Hardware- TC im Standrechnen (ohne Forward- Backward), wenn man damit Engines ohne tbs- Unterstützung rechnen lässt, oder trivial, wenn tbs zuhilfe genommen werden. Jedenfalls sind sie wieder völlig für sich allein zu betrachten in dem, was Engines damit anfangen, und wenn man nur "gelöst" und "nicht gelöst" mit mittlerer Hardware- TC zählt, sind sie ohne tbs viel zu stark vom puren Zufall abhängig in den Resultaten, aber das nur noch einmal so am Rande, darüber habe ich mich im anderen Thread wirklich mehr als genug verbreitert.

Nun meinte ich dann in diesem vorigen Thread über das Thema zuletzt, die ersten 80 würden ganz gut zu den 128 passen, die ich für solche Zwecke als deklarierte anti engine puzzles auch immer wieder gerne verwende mit nicht allzu kurzer Hardware- TC, das stimmt schon auch irgendwie, wenn man nichts anderes will, als es denjenigen Engines, die primär fürs game playing gedacht sind, möglichst schwer machen.
Daher habe ich mit einer solchen Suite von 192 Stellungen, von denen von den ersten 80 der CCET diejenigen drin sind, die sich nicht mit den 128 überschnitten haben, zusammengefügt, welche das (im Doppel) sind, hab' ich hier aufgelistet:

2b1r3/r2ppN2/8/1p1p1k2/pP1P4/2P3R1/PP3PP1/2K5 w - - id "duplicate";
2q1k1b1/7p/4p1r1/Pp1pP2Q/1P1P2PB/2P5/1KP5/8 w - - id "duplicate";
4k2q/p4p1B/1pp3pP/2N2pP1/2P2P1N/8/PP2P3/2K5 w - - id "duplicate";
nq6/pPpB4/2K5/1P2BN2/3Pk2p/5p2/8/6bN w - - id "duplicate";
4q1kn/2Bp1p2/1N1PpPp1/1P2P1P1/2N3b1/6p1/1P4Pb/7K w - - id "duplicate";
6k1/1qr1p2p/ppN5/3p1N2/6p1/1P1P2Pp/PP2PP1P/2RK4 w - - id "duplicate";
n6r/b7/1R4R1/2k5/2pppppp/8/1PPPPPP1/r4NK1 w - - id "duplicate";
7k/pp1pBp1N/1p3Pp1/b3K1PR/P3P2p/R1n4P/2P1N1P1/3q4 w - - id "duplicate";
1q6/4p3/6Q1/2N1n3/p2P2P1/P2PP1k1/4Kp1p/2B5 w - - id "duplicate";
3k4/2pq3p/pp5R/4P3/P6P/2PN4/1PN3K1/8 w - - id "duplicate";
5N1r/5n1n/ppp3R1/5K2/7k/6p1/6PN/8 w - - id "duplicate";
8/6Qp/p5pP/P2n4/8/5p2/p2K1P2/1k2Bb2 w - - id "duplicate";
8/5bb1/N1r2k2/3p1p1p/p1pPpP2/PpP1P2P/1P5P/6RK w - - id "duplicate";
1r6/1n1R1b2/8/1p1p3k/pPpPp1p1/2P1P3/P2K1PP1/8 w - - id "duplicate";
r1n5/k3pp2/2Rr4/1p6/1p6/p4pp1/QP4Pn/4RBK1 w - - id "duplicate";
8/5p2/1p1r2p1/1p1p1R2/1P3KN1/8/7p/3N2kr w - - id "duplicate";

Diese 16 kommen sowohl in den ersten 80 der CCET- Suite vor, als auch in den 128, die ich zuletzt hier

https://talkchess.com/viewtopic.php?p=978556#p978556

als erste 128- Hälfte im Code- Fenster hatte.

(In diesen 359

https://talkchess.com/viewtopic.php?p=979228#p979228

sind sie auch drin.)
Die zweite Hälfte der 256 dort sind ganz gut geeignet, um der Sache in Hinblick auf Hardware- Zeit und error bar die Spitze der ersten 128 etwas zu nehmen und die Sache in Summe etwas praxisnäher zu bekommen, das ist ja jetzt aber eben genau nicht das Thema, durch das Zusammenführen der 128 mit der CCET zu den 192, die ich dann ein paar mal habe laufen lassen, um eine Liste zu bekommen, soll genau das nicht erreicht werden, Praxisnähe, sondern es soll im Gegenteil ein zum STC eng-eng-game playing konträrer Test sein.

Die 192 veröffentliche ich absichtlich nicht am Stück, weil ich sie ausdrücklich nicht zur Nachahmung empfehle, was ihre breite Verwendung betrifft (

), die Stellungstest- Hardliner bauen sie sich ohnehin im Handumdrehen selbst aus dem zusammen, was hier und auf der CCET- site runterladbar ist.

Diese 192 Stellungen mit einer Hardware- TC von 1'/Stellung und 6 Threads der 16x3.5GHz CPU (um wenigstens 5 concurrencies auf meinem Rechner zu bekommen und 2 Threads fürs Betriebssystem übrig zu lassen) sowie 2048Mb Hash bzw. mit der 3070ti GPU und 2Gb NN- Cache für Lc0, das gibt nach 15 Runs diese Liste:


    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

  1 Crystal8-6t-MuPV4                        : 3532    7   2044    54.9 %   3498   128/192    8.9s   26.0s   0.58
  2 TheHuntsman1-6t-MuPV4                    : 3526    9   2132    54.0 %   3498   116/192    5.4s   27.0s   0.52
  3 Lc0v0.32.0-6147500PT-MuPV4               : 3525    8   2123    53.9 %   3498   123/192    8.2s   26.8s   0.54
  4 Lc0v0.32.0-6147500PT                     : 3525    8   2142    53.9 %   3498   125/192    9.0s   26.8s   0.50
  5 RemsM-091224-6t-28-4-2000                : 3521    7   2020    53.1 %   3499   124/192   10.2s   27.8s   0.55
  6 Crystal9-6t-MuPV4                        : 3517    7   2025    52.6 %   3499   126/192   10.3s   27.4s   0.51
  7 CrystalMZ140523-6t-27-4                  : 3513    8   2025    51.9 %   3499   118/192    9.4s   28.9s   0.50
  8 TheHuntsman1-6t                          : 3510    9   2073    51.5 %   3499   107/192    6.3s   30.1s   0.50
  9 CorChess4.5250618-6t-MuPV4               : 3502    8   1950    50.2 %   3501   113/192    9.0s   30.0s   0.51
 10  ShashChess38-6t-MuPV4                    : 3498    8   1977    49.6 %   3501   115/192   11.5s   30.9s   0.49
 11  Crystal8-6t                              : 3486    8   1940    47.8 %   3502   107/192   10.2s   32.3s   0.45
 12  StingBlackHole10-6t                      : 3483    9   2151    47.4 %   3501   104/192   10.8s   33.4s   0.37
 13  Crystal9-6t                              : 3477    8   1927    46.3 %   3502   108/192   12.4s   33.2s   0.42
 14  Stockfish250602-6t-MuPV4                 : 3473    8   1886    45.7 %   3503    98/192    9.6s   34.3s   0.44
 15  Stockfish250602-6t                       : 3392    9   1767    33.9 %   3508    66/192   13.0s   43.9s   0.27

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position

Wie man sieht, hilft der MultiPV-4 Modus allen, bei denen ich ihn auch im Vergleich zu MultiPV=1 habe laufen lassen (ohne zusätzliche Kennzeichnung, 6t heißt 6 Threads, weil die in der "Leela- Ratio" zumindest für diesen Test zu wenig waren, hab' ich sie überall dazugeschrieben, aber sogar Lc0 profitiert hier statistisch leicht vom MultiPV, nicht an Zahl an Lösungen, aber durch die besseren Zeit- Indizes bei denjenigen Stellungen, die von beiden Runs gelöst wurden, nur bei solchen vergibt EloStatTS WDL- Punkte zusätzlich zu gelöst und nicht gelöst allein).

Aber rein statistisch betrachtet ist das Ergebnis gar nicht so schlecht, nach "nur" 15 Runs schon unter 10 Elo error bar, das ist zwar immer noch mies gegen andere Suiten mit mehr Stellungen und mehr Lösungen, aber relativ zur Distinktion an Lösungszahlen (die nicht nur Summen, sondern auch "Matches", wie die eigene Spalte zeigt, Run für Run und Stellung für Stellung zählt) wär's statistisch durchaus schon halbwegs brauchbar. Weder die Performance- Unterschiede (völlig gleichgültig, ob man die in Punkte, Prozenten oder Elo misst) noch die error bars sagen für sich allein etwas aus, beides immer nur im Verhältnis zueinander.

Und sie sagen halt einfach so gut wie nichts, wenn man das mit irgendwelchen anderen Ergebnissen vergleichen will, die nicht praktisch allein auf anti engine puzzles basieren (Walter würde vielleicht sagen, anti Stockfish puzzles und hätte damit auch irgendwie recht, weil sich im game playing natürlich alle Engines heutzutage irgendwie an SF orientieren und sich an ihm messen lassen müssen).
SCNR

By Peter Martan Date 2025-06-20 22:22

Diesen Vergleich mit 5 Runs der CCET- Suite hatte ich hier schon einmal gepostet aber wieder gelöscht, weil ich erst zu spät gemerkt hatte, dass ein Bug in der EloStatTS- Auswertung war. Nachdem der jetzt korrigiert ist, das Ganze hier noch einmal. Die Bedingungen waren dieselben wie für die Liste oben, 6 Threads und 1 Minute/Stellung.


    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

  1 TheHuntsman1-6t-MuPV4                    : 3565   21    415    62.2 %   3479    85/160    8.3s   32.5s   0.58
  2 Crystal8-6t-MuPV4                        : 3538   21    405    56.5 %   3493    79/160   13.8s   37.2s   0.49
  3 TheHuntsman1-6t                          : 3533   23    381    56.3 %   3489    67/160    6.5s   37.6s   0.54
  4 Stockfishdev-250602-6t-MuPV4             : 3430   23    341    36.9 %   3524    42/160   15.9s   48.4s   0.24
  5 Stockfishdev-250602-6t                   : 3405   25    330    33.0 %   3528    32/160   15.0s   51.0s   0.22

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position

Topic Hauptforen / CSS-Forum / YAAEPS yet another anti engine puzzle suite