Walter Eigenmann schrieb:
Die meisten der "Aufgaben" 81-160 werden von allen Top-Engines wahrscheinlich in je weniger als 15 Sekunden gelöst - und praktisch alle Aufgaben dürften gelöst werden, sobald man die 6-7 Szyzygy hinzuschaltet.
Wenn du die 6 Steiner Syzgygs lädst, werden bei allen 5- und 6-Steinern der 80 von 81-160, das sind alle außer Nr. 85 und denen von 141 bis 160, was lauter 7Steiner sind, direkt durch die tbs gelöst, bei den 7 Steinern tut sich die Engine natürlich auch viel leichter mit 6Steiner- Unterstützung. In diesem Zusammenhang hätte übrigens der Satz am Anfang des Postings, auf das du geantwortet hast
Zitat:
sowie man bei den 5-7Steiner Stellungen der 2. Hälfte auch nur 5 Steiner Syzygys geladen hat, ist der Witz
noch ein weiteres Wort gebraucht, dass gefehlt hat, ich hab's erst zu spät gemerkt, es hätte noch "weg" kommen sollen, also "ist der Witz weg".
Wenn du sie auch im GUI lädst, siehst du, dass von allen immer nur der als Lösung angegebene best move eine DTZ unter 50 Zügen hat, alle anderen eine höhere depth to zero als die 50 Züge der entsprechenden Regelgrenze (viele nur ganz wenige Züge mehr), also cursed wins sind. Ich hatte das nur am Anfang gar nicht gleich geschnallt, weil ich eben die tbs deaktiviert hatte, nur parallel im Shredder- GUI die distances to mate sah und fälschlich davon ausging, das wären sowieso auch mit den best moves cursed wins.
Bei den 7Steinern kannst du dir's z.B. auf Lichess mit dem Analysebrett anzeigen lassen. Also wenn die Engines bei allen diesen Stellungen überhaupt zum Rechnen kommen sollen, musst zu zumindest die tbs vom GUI deaktivieren, wenn du's ihnen nicht zu leicht machen willst, auch der Engine. Wenn keinerlei tbs- Unterstützung da ist, sind die Stellungen alles andere als trivial, weil dann die Engines an die 50 Züge durchrechnen müssten, um den Unterschied zwischen dem jeweils einzigen winner und den cursed wins unterscheiden zu können, das schaffen sie nicht anders als zufällig, siehe die Lösungen, die ich im Talkchess von SF dev. 250602 aus den 80 Wenigsteinern mit 3'/Stellung und 8 Threads gezeigt habe:
https://talkchess.com/viewtopic.php?p=980269#p980269Und von diesen 18 im einen und 19 im anderen Run derselben Engine unter denselben Bedingungen waren nur 11 in beiden Runs gelöst, die restlichen waren im einen oder im anderen Run aber nicht in beiden, die Chance zwischen diesen beiden Runs hat sich also annähernd auf 50-50 verteilt, dass die gelösten Stellungen in 2 Runs unter identischen Bedingungen gefunden wurden oder nicht.
Aber bei den 54, die ich schon hier
https://talkchess.com/viewtopic.php?p=980215#p980215mit 5 Minuten/Stellung, 30 Threads und 32G Hash hatte laufen lassen, waren auch nur 20 in diesem einen Run als gelöst vom GUI beurteilt worden, und diese 20 hab' ich mir eine nach der anderen im Shredder.dmp- file angeschaut, was den Output am Ende der TC anging. Keine der richtig gefundenen Lösungen hatte ein winning eval im Output, nur eine in der Nähe davon (1.58cp), alle anderen unter oder knapp über einem Bauern, die Engine war also bei allen "gelösten" Stellungen der Meinung, auch die single game changing winners, die nach der DTZ wären, würden auch nur Remis leisten, soviel zum Thema, "Aufgaben 81-160 werden von allen Top-Engines wahrscheinlich in je weniger als 15 Sekunden gelöst", gefunden können sie schon werden, gelöst im eigentlich Sinn hat SF dev. 250602 keine einzige ohne tbs- Unterstützung, aber das ist halt eine Frage der Definition von "gelöst", wenn' dem GUI oder Tool nur darum geht, welcher Zug am Ende der TC oben ist, dann wurden 20 von 54 gelöst.
Zitat:
Und die ersten 80 (schwierigeren) Aufgaben? Eine einzige Anhäufung von Positionen, die v.a. Stockfish Sorgen bereiten - als würde SF darüber befinden, was schwer und was leicht ist im Computerschach...
Der CCET ist einfach ein Anti-Stockfish-Test, that's all.
Ich habe zum Spass mal die 160 Ergebnisse der Engines The Huntsman1 und Stockfish 17.1 verglichen (ohne Szyzygy, 4Threads, 15sec/Position, Ryzen-9-5950X-3,5Ghz): Huntsman gewann gegen Stockfish haushoch mit 96:80 Lösungen
Das hätte ich, ohne es probiert zu haben, auch so ähnlich vermutet, Huntsman tut sich mit anti engine puzzles dieser Art, von denen einige ja auch mate in x zum Thema haben als Kompositionen, oft leichter als die aufs game playing tuned ones, ich hab' mal die ersten 80 mit Rems laufen lassen, einem von Eduards Babys, deren Stärke zu einem guten Teil der interne MultiPV- Modus ist, auch enthält er CorChess- Code, der weniger nullmove pruning macht als SF dev, insofern hat er sie es das auch ein bisschen mit Huntsman gemeinsam. Und das mit einem Setting, das sich bei mir bei ähnlichen Stellungen auch immer wieder bewährt hat, Random Op. Plies 28, Random Op. MultiPV=4, Random Op. Score=2000, heißt, es werden 4 zu primaries erhobene lines bis in eine Tiefe von 28 plies innerhalb einer Score- Range von 2 Bauern untersucht, außerhalb dieser Grenzen wird normal single primary weiter gerechnet, was die Engine weniger ausbremst an time to depth als ein durchgehend beibehaltener MultiPV=4. So schaut die Shedder- Lösungstabelle dann für diese ersten 80 Stellungen mit 1 Minute/Pos., 30 Threads und 8G Hash aus:
RemsM091224
Bisher gelöst: 35 von 80 ; 48:16m
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-------------------------------------------------------------------------------------
0 | - 1 4 - 1 0 - - - - - 0 - 52 1 - 5 - - -
20 | 0 - - - 0 - - 3 0 - - - 2 0 0 - - - 38 -
40 | 0 - - - - - - - - - 0 8 0 - 0 - 0 - - -
60 | 0 0 - - 3 0 0 0 - 3 - - 9 16 - 3 - 0 0 0
K/s: 24.563.458
TotTime: 52:57m SolTime: 48:16m
Nun wäre das ja gar nicht viel, aber halt auch nicht gar so wenig und es ist durchaus zu erwarten, dass ähnliche Engines mit ähnlichen Einstellungen (z.B. MultiPV=4) ähnliche Ergebnisse hätten und man könnte sich einen Ast freuen, dass SF dev. doch noch ein bisschen weniger schafft und "diskriminiert" wird, im Sinne von unterschieden. Ok., aber was man auf diese Art nicht sieht, wenn man von so wenigen Stellungen die Zahlen an Lösungen allein vergleicht, ohne sich dabei anzuschauen, welche von der einen und welche von der anderen Engine, das ist folgendes: Dass es diese Art von Zufallsschwankungen sind, die die eigentlich relevante error bar in den Performances so vergleichener Engines ausmachen, genau das habe ich auch in dem Talkchess- Posting vom ersten Link zu zeigen versucht.
Bei den beiden praktisch identischen SF- Runs war ein Unterschied von "nur" einer Lösung zu sehen, (18 zu 19, ist ja bei nur 80 Stellungen auch schon viel, könnte man meinen, vor allem im Verhältnis zu den wenigen Stellungen und noch viel weniger Lösungen) aber EloStatTS hat außer den wenigen Elo, die das mit den Time Indizes gemeinsam bei den gemeinsam gelösten Stellungen ausgemacht hat, eine error bar von 71 bzw. 72 (!) für die beiden Runs derselben Engine. Das kommt nicht von den Zeitunterschieden (die wie gesagt nur bei den 11 gemeinsam gelösten zählen), das kommt von den wenigen von beiden Engines gemeinsam gelösten Stellungen, die sind eben nur etwas mehr als die Hälfte der Lösungszahlen, daher die große Zufallsschwankung. Es hätte laut diesem guten Tool bei so wenigen gelösten Stellungen innerhalb der Irrtumswahrscheinlichkeit auch leicht vorkommen können, dass die Unterschiede in den Lösungszahlen viel größer gewesen wären, und das bei 2x derselben Engine.