Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / CCET - eine neue Testsuite
1 2 Previous Next  
- - By Frank Karger Date 2025-06-12 19:42 Upvotes 3
Hallo zusammen,

nach einiger Bastelei und unzähligen CPU-Stunden habe ich eine recht fordernde Testsuite zusammengestellt.
Die Daten (pgn,epd,cbh) dazu lassen sich hier herunterladen: Download

Um den Vergleich der Ergebnisse zu erleichtern, habe ich zwei Seiten eingerichtet, auf denen man die Ergebnisse einreichen kann:
Standardisierter Wettbewerb: Resultate einreichen
Offener Wettbewerb: Resultate einreichen

Aktuelle Ranglisten:
Standardisierte Rangliste  (noch leer, ich sammele noch Daten)
Offene Rangliste  (Enthält schon einige Daten für Stockfish 17.1, das interessant skaliert)

Alle Details auf der Homepage:
CCET-Homepage

Gerade weil das Projekt noch in den Kinderschuhen steckt,
freue ich mich über (wohlwollende) Hinweise und Fragen


Vielleicht habt Ihr ja Lust Eure Expertisen in Sachen Schach-Engines anzuwenden.
Meine ersten Experimente deuten darauf hin, dass die Speziallöser (wie Sting)
bei Bedenkzeiten bis zu einigen Minuten die Nase vorn haben.
Ich vermute aber, dass Stockfish ab einem gewissen Punkt vorbeiziehen wird,
(ab 10 Min. pro Zug legt der auf einem 8-Kerner mächtig zu) konnte das aber noch nicht nachweisen.
Spannend fände ich auch Experimente auf sehr starken Maschinen.

Wie dem auch sei.
Viel Spaß beim Lösen

Frank
Parent - - By Peter Martan Date 2025-06-12 21:01 Edited 2025-06-12 21:35
Danke für das ambitionierte Projekt, vor allem was das Angebot zur öffentlichen Beteiligung daran angeht!

Ein erster durchaus konstruktiv gemeinter Kritikpunkt meinerseits wäre, dass die Schwierigkeit der Stellungen zuinhomogen ist. Die meisten der Studien, die namentlich aufgeführt sind, geistern schon länger durch die verschiedensten Suiten, die's so im Netz gibt, auch in so manchen meiner derartigen single best move- Suiten kommen viele davon vor, das passt aber nicht wirklich zusammen mit den vielen Wenigsteinern ab der zweiten Hälfte, und es macht es schwer bis unmöglich, eine gemeinsame TC für die Suite festzulegen. Das Ganze sind 2 völlig verschiedene Suiten, von denen jede für sich dann halt ein bisschen wenig Stellungen enthält, während die ersten 80 ja wenigstens noch Selektivität hätten in Summe, sind die dann folgenden sofort durch, wenn du nicht 99 Extra- Halbzüge vorschreibst (werden ziemlich komplett von so ziemlich allen halbwegs modernen Engines gelöst werden) und verwischen somit nur die Resultate der oberen Hälfte im Verhältnis von Diskrimination zu error bar, es sind relativ zu den ersten 80 reine Durchlaufposten.

Man dürfte, wenn Fairness herrschen sollte, die Tablebases von den Engines gar nicht verwenden lassen, (man müsste sie vor allem auch im GUI deaktivieren) weil ansonsten die einen Stellungen schon aus den tbs vom GUI gelöst werden und die anderen je nachdem schneller oder langsamer, je nachdem welche tbs geladen sind. Ganz ohne tbs wäre eine Möglichkeit, wie gesagt, aber dennoch ist mir der Unterschied wie der zwischen z.B. Nr.1 (Simkhovich F. 1923

bm 1.Sd6) und der Nr. 81 (da fangen dann die tbs- Stellungen an)

bm 1.Ta2,
einfach zu groß für eine gemeinsame Suite, die mit einer gemeinsamen Hardware- TC von verschiedenen Engines gelöst werden sollen.

Die Simkhovich- Studie kommt z.B. auch als Nr.93 in der Eret- Suite vor, war damals, als die Suite rauskam, eine der schwersten Stellungen dieser Suite und ist selbst heute als Festung immer noch nicht trivial für die meisten Engines, und das ist nur eines der Beispiele für anti engine puzzles, gegen die auch sicher gleich mal wieder der Einwand kommen wird, diese Art von komponierten Studien sind "praxisfremd", was das game playing angeht. Das wäre für mich persönlich kein Grund, so ein Suite mit solchen komponierten Kunstschach- Stellungen nicht als Aufgabe für sich für Engines zu betrachten, auch wenn sie primär für Menschen komponiert sind, man muss sich halt (das gilt allerdings natürlich für jede Art von Stellungstest) im Klaren sein, dass die Resultate, die man bekommt, mehr oder weniger für sich allein stehen. Man kann Suiten auch so bauen, dass sie in ihren Resultaten näher an game playing performances herankommen, das sind dann aber andere Stellungen und andere Hardware- TCs, mit denen man sie laufen lässt, Stichwort MEA.

Und die tbs- Stellung ist  nur eine von vielen, ich würde da, wenn ich schon tbs- Stellungen überhaupt für eine Suite verwendete, zumindest eine zweite eigene Suite draus machen, die mit höchstens einer Sekunde pro Stellung ohne tbs gelöst werden müsste, und von solchen müssten es dann sehr viel mehr Stellungen sein, um als reiner Endspieltest überhaupt statistisch Relevantes zu messen, unter 500 solcher Stellungen kommt man aus keiner error bar, selbst single thread mit weit weniger als 1000msec pro pos. nicht, wenn Alles von Allen blitzschnell gelöst wird, und es bräuchte, um mehr Diskrimination zu bekommen, verschieden viele Belohnungs- Punkte für verschieden "schwierige" Lösungen, ich würde da daher wieder zu MEA oder dergl. raten.

Aber das alles nur aus meiner persönlichen Sicht von Stellungstest- Suiten und danke trotzdem und neuerlich, man könnte das Projekt ja vielleicht auch noch, wenn du dir schon die Arbeit mit den Internet- Sites gemacht hast, ruhig auch noch in ein paar verschiedene Suiten teilen. Just my two cents, regards
Parent - - By Frank Karger Date 2025-06-12 21:36
Hallo Peter,

vielen Dank für Deine ausführlichen Überlegungen, die als konstruktiv angekommen sind

Zu Deinen Punkten:

1) Zur Inhomogenität des Schwierigkeitsgrades:
Es ist gar nicht leicht zu definieren, was homogen ist, weil jede Engine einen anderen Blick auf die Aufgaben hat.
Mein erster 'Filter' war Stockfish 17 (für die erste Vorauswahl) und für diese Engine waren tatsächlich alle Stellungen nicht ohne,
allerdings sind sie auch ganz bewusst verschieden schwer gewählt worden.

Für die Aufgaben ab 81 gefiel mir die Idee eines ansteigenden Schwierigkeitsgrades, auch wenn der wie gesagt,
schwer objektivierbar ist.
Diese Idee kann man übrigens noch gewinnbringend ausbauen quasi in Form einer Leiter.
Man könnte dann versuchen die Spielstärke einer Engine zu bestimmen, je nachdem wie hoch sie die Leiter erklimmen kann.

2) Deaktivierung der Tablebases:
Ja, das ist eine Forderung für beide Ranglisten (u.a. einleitend unter Requirements bei den Links mit "Resultate einreichen" erwähnt)
und absolut sinnvoll! Denn sonst würde man ja nur die Datenbank prüfen, was wohl wenig Sinn ergibt.

3) Zu Kunstschach:
Sicherlich, aber die Sinnfrage sollte man am besten generell nicht stellen
Mein Eindruck ist aber, dass die neuen Aufgaben ab 81, auch wenn sie ebenfalls zT recht künstlich wirken,
der realen Performance der Engines deutlich näherkommen.

4) Mehrere Test-Suites:
Aus systematischen Gründen gebe ich Dir absolut recht, es gibt da aber ein nicht kleines Problem.
Um diese Stellungen zu finden habe ich zunächst über 100000 Studien und Problemschachaufgaben durchforstet.
Von diesen blieben dann etwa 100 quasi als Erbe der Menschheit übrig.
Davon schienen mir wiederum 80 einzigartig genug zu sein (ich wollte nicht 10 mal dasselbe Motiv haben).

Ziel war aber 160 Aufgaben zu haben.
Woher nehmen?
Daher habe ich die letzten 80 mit hohem Rechenaufwand automatisch generiert.
Bei diesen war es ähnlich wie zuvor: etwa 0.1% davon waren brauchbar...

Es gibt einfach ein Problem genügend fordernde Aufgaben zu finden (die weiteren Qualitätskriterien genügen).
Aber Dein Hinweis stimmt schon und ich habe deshalb auch überlegt mehr im Bereich
der automatischen Generierung zu unternehmen, denn die menschlichen Komponisten können
unmöglich mit der Engine-Entwicklung mithalten.

5) Zur aktuellen Zusammenstellung:
Die Idee für diese war 3 Arten von Stellungen zusammenzuführen
a) das beste aus bisherigen Testsuites (das schwer genug ist)
b) das beste aus veröffentlichten Studien und Problemen, das sich nicht in a) fand
c) 80 automatisch generierte

Mit dieser Zusammenstellung bin ich insoweit ganz zufrieden, weil sich zeigt,
dass die Teile a+b durch Löser wie Sting dominiert werden,
aber c vermutlich durch Stockfish und Co (genügend CPU-Power vorausgesetzt).

Die aktuelle Testsuite ist also der extremen Stärke heutiger Engines und
meinen begrenzten Resourcen geschuldet, aber das kann ja noch werden

Vielleicht wird so der Stand der Dinge verständlich.

Herzliche Grüße

Frank
Parent - - By Peter Martan Date 2025-06-12 22:09 Edited 2025-06-12 22:17 Upvotes 1
Frank Karger schrieb:

1) Zur Inhomogenität des Schwierigkeitsgrades:
Es ist gar nicht leicht zu definieren, was homogen ist, weil jede Engine einen anderen Blick auf die Aufgaben hat.

Ja, Frank, aber genau deshalb wäre die Mindestanforderung, die man an Homogenität in diesem Zusammenhang haben müsste, eine gemeinsame Hardware- Zeit, die diejenigen Engines, die man damit testen wollte, in einem gewissen Rahmen brauchen sollten, um sie (möglichst auch noch aus den richtigen Gründen) richtig zu evaluieren. Und Stellungen, die von den meisten modernen Engines in wenigen Sekunden oder Sekundenbruchteilen leicht korrekt gelöst werden, passen nicht in eine gemeinsame Suite mit solchen, die durchschnittlich mehrere bis viele Sekunden multithreaded auf zeitgemäßer Hardware brauchen.

Zitat:

3) Zu Kunstschach:

Sicherlich, aber die Sinnfrage sollte man am besten generell nicht stellen


Sie wird hingegen gestellt, Frank, wenn nicht von dir und auch nicht unbedingt von mir, dass das das Argument der Stellungstest- Phobiker schlechthin sofort immer  gleich mal wieder die fehlende "Praxisnähe" ist, das muss ich dir ja nicht sagen. Was sie damit meinen, ist die Nähe zu einer Praxis, die mittlerweile auch sehr weit weg von dem ist, was man früher darunter verstanden hat, als Ausgeglichenheit die Mindestanforderung an Eröffnungsteststellungen war und man sogar noch versuchte, das, was die Engines gegeneinander zu Testzwecken spielten, mit dem zu vergleichen, was Menschen an Eröffnungstheorie und Spielpraxis interessant fanden
Und man kann sie, finde ich, ruhig auch stellen, diese Sinnfrage, wenn man sie ehrlich und konkret beantwortet, natürlich geht das nur für den jeweils einzelnen Test und Tester, jeder muss sich die Frage, welchen Sinn die eigenen Tests für einen selbst haben, selbst beantworten. Ich persönlich finde es immer wieder besonders sinnvoll, genau diejenigen Stellungen, die blind spots in der Suche der Engines darstellen und aufzeigen, für Stellungstests zu verwenden, wie die Qualitäten, die dabei dann zutage treten (oder halt nicht, drum sag' ich ja blind spots) zu heißen haben, das ist mir schnurzpiepegal, es sind halt Resultate für sich und aus. Übertragbarkeit auf andere Tests, sei's auch das eng-eng-match, das ja auch immer mehr eine Frage der (Eröffnungs-)Teststellungen ist, von denen aus gespielt wird, diese Übertragbarkeit mag bei den vorwiegend aus anti engine puzzles zusammengestellten Suiten weniger vorhanden sein als bei z.B. großen MEA- Suiten aus Stellungen, die dann ruhig auch aus dem game playing eng-eng stammen (NICE z.B.), dennoch hat man natürlich immer die Unterschiede, die die Performances verschiedener Tests erbringen, voneinander zu unterscheiden, genau das wäre eben die "Sinnfrage", die man stellen könnte und sollte, übrigens auch fürs eng-eng-match als Maßstab jedweder Engine- Spielstärke- Messung. Ich persönlich unterscheide auch immer noch gerne, wie es seit STS von Swaminathan und Corbit üblich wurde, zwischen Stellungen, die über die Suche gelöst werden müssen und an die durch in größerer Suchtiefe erst offenbarten Pointen größere (Hardware- Zeit-) Anforderungen stellen, und solche, die in der STS als "strategisch" bezeichnet wurden, damals schon mit für damalige Verhältnisse sehr kurzer TC liefen, damit die Engines gar nicht erst Zeit hatten, tiefer zu suchen, sondern gleich aus der "statischen Eval" heraus lösen mussten. Diese Unterschiede verwischen sich heute mit fortschreitender Spielstärke und Hardware mehr und mehr, aber ich würde in diesem Sinn die erste Hälfte deiner Suite als "taktische" Stellungen sehen und die andere Hälfte als solche, die heutzutage auch wieder für heutige Verhältnisse praktisch ohne Suche aus der Eval gelöst werden, sprich mittlerweile aus den Netzen (NNUE oder den "neuronalen" von Lc0 und Konsorten), wenn eben nicht überhaupt gleich aus den tbs, die halt doch auch einen praktisch ubiquitären Anteil an der "Spielstärke" haben.

Was man dann aber eben meiner Meinung nach genau nicht machen sollte, wäre die Stellungen, mit denen man testet, wahllos zusammenzuwürfeln, hast du nicht gemacht, hab' ich schon gesehen und verstanden, aber vor allem auch nicht in Hinblick auf die Zeit, die ein Engine- Pool im Schnitt braucht, eine bestimmte Performance damit zu erspielen, das wäre sonst prinzipiell so, als würde man die einen Engines STC gegeneinander testen und die anderen LTC und die Ergebnisse einfach in einen gemeinsamen Topf werfen.
Eine Suite aus einer Hälfte anti engine puzzles und einer Hälfte leichter bis trivialer Endspieltstellungen mit einer gemeinsamen Hardware- TC laufen zu lassen, wäre, um eine noch etwas plakativeren Vergleich zu ziehen, wie die Sache mit dem Eiswasser fürs linke Bein und dem kochenden fürs andere, in der Hoffnung, eine angenehme Durchschnittstemperatur für die derartig getrennt voneinander gebadeten Füße zu bekommen

Sorry, ich weiß schon, du hast dir mehr Mühe gegeben als ich das so jetzt halblustig würdige, und danke neuerlich dafür, eines habe ich aber jedenfalls sowieso in meiner langjährigen Erfahrung mit Stellungstests gelernt: es muss ein jeder seine eigenen Suiten und Arten damit zu testen haben, deine (was die eine Suite angeht) ist halt nicht ganz meine, macht ja nichts, schon deshalb nicht, weil ich inzwischen allein von "meinen" Suiten für meinen persönlichen Gebrauch so viele verschiedene habe (verwendet werden davon meistens jeweils so 2 bis 5, die gerade die aktuellsten Versionen darstellen und sich an Hardware- TC und "Aussage" gut ergänzen), dass es mir auf eine mehr oder weniger wirklich praktisch nicht ankommt.
No offence meant at all,
Parent - - By Frank Karger Date 2025-06-12 22:41 Upvotes 1
Hallo Peter,

letztlich ist es ähnlich wie mit Intelligenztest: die erzielte Punktzahl kann man innerhalb des Test interpretieren und nur mir etwas Glück darüber hinaus.

Ich habe damit überhaupt kein Problem, denn mir gefällt es sehr - wie Dir offenbar auch - die blind spots zu detektieren.
Und praxisirrelevant sind sie nicht, wie man an den Matches zwischen den Platzhirschen auf TCEC zuweilen erkennen kann.

Meine Anmerkung zur Sinnfrage ist so zu verstehen: wenn man nur tief genug bohrt, kommt man immer zu dem
Punkt, wo man keinen weiteren Grund finden kann, was daran liegt, dass das Universum fundamental sinnlos ist, aber das wird etwas philosophisch...
Jedenfalls bin ich deshalb zu dem Punkt gelangt, diese Frage besser nicht zu stellen, weil sie immer im nicht mehr Begründbaren endet.

Aber man kann das auch viel einfacher sehen: es genügt Spaß zu haben.
Und das habe ich seit meiner Kindheit. Die Faszination Computerschach hat mich seitdem nicht losgelassen.

Auf der Homepage sind übrigens diverse weitere Gründe für diese Testsuite angeführt.
Besonders kompakt fasst das der Punkt unter "Details about the test suite" zusammen:
"Objective: 160 correct, difficult, versatile and at least to a large extent new test positions with unique solutions"

Was die Praxisrelevanz angeht:
Aufgaben lösen ist ebenfalls Praxis!
Wollte man mit solchen Aufgaben eine sehr starke Korrelation zur Elo der Engines herstellen,
wäre das ein eigenes umfassendes und (höchst) anspruchsvolles Projekt mit unklarem Ausgang.
Das kann man schon daran sehen, dass auf dem Testserver von Stockfish weiterhin Partien gespielt
und nicht Aufgaben gelöst werden, obwohl das theoretisch viele Ressourcen einsparen könnte.

Ich bin mir nicht ganz sicher wie Du diese Endspielaufgaben insgesamt verstehst.
Die meisten davon sind schwer bis hardcore.
Es fängt ganz bewusst etwas leichter an und wird dann schwerer.
Ich fand auch gerade die sehr leichten Fälle interessant, an denen einige Engines scheitern (s. blind spots).

Besten Dank für Deinen Input, den ich vermutlich bei einem kommenden Test besser berücksichtigen kann.

Grüße

Frank
Parent - - By Peter Martan Date 2025-06-12 23:23 Edited 2025-06-13 00:05 Upvotes 1
Frank Karger schrieb:

Ich bin mir nicht ganz sicher wie Du diese Endspielaufgaben insgesamt verstehst.
Die meisten davon sind schwer bis hardcore.

Wollte die Sache schon mit einem "Gut" für dein letztes Posting belassen, Frank, weil ich mir die Stellungen im in einzelnen dort, wo ich sie nicht schon kenne, noch nicht wirklich gründlich durchgeschaut habe, aber da muss ich, das jetzt etwas nachholend, doch noch etwas meine konkreten Zweifel anmelden.
Gleich mal die nächste der namenlosen Endspielstellungen, die Nr. 82:

Hier ist die Frage müßig, ob man das schwer oder leicht findet, ganz allgemein muss man streng(er) unterscheiden zwischen dem, was man als Mensch schwer findet, und da sind die subjektiven Unterschiede natürlich erst recht groß, und dem, was es für Engines bedeutet. Hier ist die Frage deshalb müßig, weil eine der beiden ziemlich gleichwertigen Lösungen finden die meisten Engines ohne tbs single threaded gleich, das ist also auch so gesehen für Engines nicht schwer, aber welchen davon sie nehmen, so lange sie nicht die DTM durchrechnen können (das wäre auch für Engines "schwer" ohne tbs mit gespeicherter DTM- Info also z.B. Nalimovs), das wird ziemlicher Zufall sein. Der angegeben Lösungszug Dh1+ hat eine DTM von 81, der nächst "schlechtere" Zug Dd1+ eine von 83, das genügt einfach nicht als Unterschied, um von einem klassischen single best move zu sprechen, hier müssten einfach, um die Stellung in einer Suite, in der nur gelöst und nicht gelöst beurteilt wird, beide Züge als gelöst gelten. Und dann ist das eine leichte Stellung, als solche wirst du sie ja auch gedacht haben, wenn nur einer der praktisch gleichwertigen Lösungszüge als richtig bewertet wird, ist sie schwer, weil der eine Zug vom GUI als nicht gelöst gezählt wird, und sie nur mit Hilfe des Zufalls lösbar wird. Selbst für ein Matt in x- Problem würde bei einer so großen Mattdistanz  das Dh1 nicht als Dual-freie Lösung gelten, genau genommen eine Frage, die nur ein Problemist beantworten kann und unter solchen mag es vielleicht umstreitbar sein, aber ein komponiertes Stück, bei dem die Hauptlösung 83 Züge braucht und die nächst längere Mattführung mit einem anderen ersten Zug braucht 83 Züge, das ist kein korrektes Puzzle, höchstens, wenn die eine Lösung die 50 Züge- Grenze überschreitet und die andere nicht, aber selbst das würde bei Studien nicht die entsprechend große Rolle spielen.

Dasselbe gilt für die nächste Stellung

Das geforderte Kc3 ist #56, das nächst "schlechtere" Kc4 #58.

Nr.83

Gefordert Kf6 #78, hingegen Kg4 auch "nur" #81.
Parent - - By Frank Karger Date 2025-06-12 23:31 Edited 2025-06-12 23:33
Hallo Peter,

bei den von Dir genannten Aufgaben ist nicht die DTM sondern die DTZ entscheidend.
Die Alternativen sind (mindestens) Remis wegen der 50-Züge-Regel.
Die Lösung also eindeutig.
Das kann man  übrigens sehr schön auf dem lichess-Analysebrett sehen.
Die Endspielaufgaben sollten in diesem Sinn garantiert dualfrei sein,
da sie u.a. nach diesem Kriterium selektiert wurden.

Die Schwierigkeit bei einer Aufgabe wie der ersten von Dir genannten besteht dann übrigens
genau darin den subtilen Unterschied zwischen Dh1 und Dd1 zu erkennen,
was enorm schwer ist.

Aber danke für den Hinweis, ich werde das noch gesondert hervorheben.

Viele Grüße

Frank
Parent - - By Peter Martan Date 2025-06-12 23:35 Edited 2025-06-12 23:43
[deleted]
Parent - - By Frank Karger Date 2025-06-12 23:44
Die 50-Züge-Regel wird von den Engines ja berücksichtigt und entspricht dem Regelwerk also ist sie m.E. relevant.
Man kann bei den Top Engines auch sehen, dass sie das bei ausreichend Rechentiefe differenzieren können.
Parent - - By Peter Martan Date 2025-06-12 23:50 Edited 2025-06-13 00:01
Ich hab' die Nachricht, auf die du geantwortet hast, mittlerweile gelöscht, weil ich auf dein Argument von der DTZ noch nicht wirklich eingegangen war, aber soviel behalte ich als Succus bei: du kannst, wenn du die tbs nicht verwenden lässt, in der Hardware- TC, die du vorschreibst, nicht erwarten bzw. verlangen, dass die Engines die Stellungen bis zu den 50 Zügen, an denen es sich scheidet, durchrechnen, wenn der Unterschied zwischen je 2 Zügen auch an DTZ nicht viel größer ist, als an DTM, daher ist und bleibt es Zufall, ob sie den einen oder den anderen Zug wählen, ohne, dass sie tbs befragen können über das eine oder das andere.
Ich würde solche Stellungen nicht in eine single best move- Suite mit halbwegs kurzer Hardware- TC nehmen. Man kann sie (wie jede Stellung, von der man die Abspiele gut genug voneinder unterschieden kann) als Teststellungen für sich allein verwenden, dann muss man aber im Output beurteilen, ob die Engine, wie man das so schön nennt, aus den richtigen Gründen den einen oder den anderen anderen Zug besser oder schlechter und um wieviel besser oder schlechter bewertet, ob sie in diesem Fall wirklich eine winning or drawing eval hat. Ich lasse es jetzt aber wirklich erst mal gut sein, ich denke, du hast ohnehin schon längst verstanden, was ich meine, Frank.
Parent - - By Frank Karger Date 2025-06-13 00:01 Upvotes 1
Ja, ich habe verstanden
Ich habe diese Aufgaben allerdings gerade wegen dieser feinen erforderlichen Differenzierung mit aufgenommen.

Bei den Analysen hat sich auch gezeigt, dass der Sachverhalt noch etwas komplizierter ist.
Formal mag es zwar sein, dass man 50 Züge tief rechnen müsste um den Unterschied zu erkennen.
Es ist aber gut möglich, dass man mit einer intelligenten Stellungsbewertung auch schon vorher einen
schnelleren Fortschritt erkennen kann.
Detektierbar kann das also schon bei geringerer Tiefe sein.
Und bei einigen dieser Aufgaben gelingt das auch in akzeptabler Zeit.

Bei dem Endspiel KNNvKP habe ich zB etwa 10000 Stellungen so vorselektiert,
dass nur ein Zug gewinnt und die DTZ mindestens 98 ist.
Dennoch löste SF 17 davon 99% in 1s.
Parent - By Peter Martan Date 2025-06-13 00:15 Edited 2025-06-13 00:52
Frank Karger schrieb:

Dennoch löste SF 17 davon 99% in 1s.

Ja, aber aus dem NNUE

Ich gebe dir zu, dass das mit "leicht" und "schwer" heutzutage noch schwerer zu beurteilen ist als es das früher war, aber der Unterschied, dass das eine aus tieferer Suche gelöst werden muss und das auch  in überschaubarer Hardware- Zeit gelingen kann (es gibt ja unter den komponierten Studien ebenfalls immer noch viel mehr als genug solche, die auch von den besten Engines nicht in absehbarer Zeit gelöst werden, mit und ohne tbs) und das andere aus der "eval" allein heraus sehr viel schneller (sprich heute aus den Netzen), das bleibt immer noch so. Den wesentlichen Unterschied in Hinblick auf Homogenität macht also, wenn schon sonst nichts, die gemeinsame Hardware- TC, mit der Stellungen vom Engine- Pool aus den richtigen Gründen gelöst werden.
Und die zuletzt in Frage stehenden Stellungen gehören nicht in dieselbe Kategorie wie die der ersten 80, just my about two cents (inzwischen sind's schon ein paar mehr als 2 ) again.
Das allein muss man aber natürlich auch noch nicht als Grund genug sehen, sie nicht in einer gemeinsamen Suite laufen zu lassen.
Edit: Und überhaupt muss ich mir das Ganze sowieso erstmal noch etwas gründlicher anschauen, als ich's bisher getan habe, vor allem auch an praktischen Resultaten einzelner Engines im Vergleich zueinander. So, dass man bei noch so vielen guten Suiten, die man schon hat, nicht noch weitere gute brauchen könnte, so ist's ja auch nicht, und zumindest kann man immer wieder was aus der einen aus- und in andere einbauen

So gesehen, nochmals danke, Frank.
Parent - By Max Siegfried Date 2025-06-13 00:19
Frank Karger schrieb:

Bei dem Endspiel KNNvKP habe ich zB etwa 10000 Stellungen so vorselektiert,
dass nur ein Zug gewinnt und die DTZ mindestens 98 ist.
Dennoch löste SF 17 davon 99% in 1s.


Und genau deshalb verwendet man keine 5-Steiner heutzutage.
Fast jeder hat 7-Steiner Syzygy Tablebases verfügbar.
Da musst du schon wenigstens die schwersten 7-Steiner nehmen, weil die Zeit pro Aufgabe begrenzt ist.
Oder Typische 11 Steiner wie:
Damenflügel A Bauer + Turm vs Turm und Königsflügel Kppp vs Kppp.
Parent - - By Max Siegfried Date 2025-06-13 00:13
Peter Martan schrieb:

Frank Karger schrieb:

Hallo Peter,

bei den von Dir genannten Aufgaben ist nicht die DTM sondern die DTZ entscheidend.
Die Alternativen sind (mindestens) Remis wegen der 50-Züge-Regel.
Die Lösung also eindeutig.

Nein, Frank, in den 3 Beispielen, die ich zitiert habe, sind jeweils 2 Züge praktisch gleichwertig, was ihre Aussichten auf Gewinn oder Remis angeht, weil jeweils beide gewinnen und alle anderen nicht. Die Unterschiede zwischen dem besten und dem zweitbesten ist nur aus tbs herauslesbar, ob das jetzt die DTM (Nalimovs) oder DTZ (Syzygys) ist, das spielt eine gleich große bzw. gleich kleine Rolle, in Hinblick auf das, was man (ich) unter eindeutig an Lösung versteht (verstehe), keine (Rolle). Die tbs dürfen ja eben bei diesen Stellungen nicht verwendet werden, so what?
Aber wie gesagt, es "entwertet" gerade diese Stellungen als Teststellungen sowieso auch nicht, die zweite Lösung auch als korrekt vom GUI oder Tool beurteilen zu lasse, so leicht wie sie sind, spielt es auch keine Rolle mehr, noch eine zweite Lösung gelten zu lassen



Nur interessieren sich Menschen nicht für gleichwertige Züge, sondern fast ausschließlich nur für den besten Zug, sonst würden sie Fritz genauso oft verwenden, wie sie Stockfish verwenden.
Du bekommst beim Sprinten für den 10 Platz nicht mal annähernd einen Preis, geschweige denn den Hauptpreis und die Goldmedaille nur weil du gleichwertig schnell warst.

Mir stellen sich folgende Gedanken:
-warum sollte man Stockfish und Co. ohne Tablebases testen? Diese verwendet doch nun wirklich jeder heutzutage. Das ist in etwa so sinnvoll, wie wenn man den Test auf einem einzigen CPU Kern eines Raspberry Pi durchführen würde.
-man testet übrigens nicht die Datenbank, weil man clever genug ist 8, 9 und 10-Steiner Endspiele zu verwenden. Schließlich muss Stockfish bei den unendlich vielen Möglichkeiten erst einmal die richtigen Züge finden, bevor man irgendwann in einen 7-Steiner übergeht.
-alle drei Stellungen gewinne ich locker gegen Stockfish.
-selbst ich habe gewusst, dass da Dh1 schneller zum Matt führt.
-warum enthält die Suite so viele super leichte Aufgaben?

Fazit:
Trotzdem finde ich die neue Testsuite gut.
7-Steiner sind Pflicht.
Die Engine soll immer den besten Zug finden müssen.
Spezielle Studien Datenbanken wie die eine mit den ungefähr 500.000 Studien, bei welcher mir der Name gerade nicht einfällt, hilft definitiv enorm weiter.
Auch Stellungen aus mehr oder weniger aktuell gespielten Großmeisterpartien sind sinnvoll, da dort immer noch oft genug ein KO Zug gefunden wird, für den die Engine teilweise deutlich über 1-10 Minuten braucht.
Parent - By Peter Martan Date 2025-06-13 00:20 Edited 2025-06-13 00:24
Max Siegfried schrieb:

Fazit:
Trotzdem finde ich die neue Testsuite gut.
7-Steiner sind Pflicht.

Dass du wieder mal überhaupt nicht verstehen würdest, worum's geht, war mir irgendwie schon wieder klar, noch bevor du deinen Senf dazu gegeben hast, dann hast du's aber wieder so richtig klar gemacht mit diesem deinem stehen Satz von den 7Steinern

Wenn du hier auch nur 5 Steiner lädst, hast du keine Ahnung mehr, ob die Engine selbst die Stellungen, um die's zuletzt ging, löst oder nicht, weil dann schon das GUI alles erledigt. Oder willst du nur die 7Steiner laden und die mit weniger nicht? Das wäre auch ein sehr praxisnaher Vorschlag
Parent - By Frank Karger Date 2025-06-13 11:40
Hallo Max,

wenn Du alle 3 Stellungen locker gegen SF gewinnst, fresse ich mehrere Besen Deiner Wahl

Du bist in der Lage zu erkennen, dass Dh1 besser ist als Dd1?
Das würde ich dem Herrn Carlsen kaum zutrauen und der soll sich ja auskennen.

"Viele super leichte Aufgaben".
Um ein Beispiel zu geben: Der aktuell Führende im offenen Ranking ist SF 17.1 und hat
bei 10Min pro Stellung auf einem 8-Kerner etwa 26% aller Aufgaben gelöst.

Der Zweck die Tablebases abzuschalten hat mehrere Gründe:
- getestet wird die reine Engine-Stärke und nicht das (sehr simple) Nachschlagen in der DB, das bei allen Engines identisch sein sollte
- man kann die Engine so anhand perfekter Information untersuchen, hat also objektive Daten
- es ist heutzutage schwer Aufgaben zu finden, die für die Engines interessant genug sind, aber die Tablebases sind eine unterschätzte Ressource und liefern sehr qualitative Daten en masse

Beste Grüße

Frank
Parent - - By Max Siegfried Date 2025-06-13 00:30
Frank Karger schrieb:

Hallo Peter,

bei den von Dir genannten Aufgaben ist nicht die DTM sondern die DTZ entscheidend.
Die Alternativen sind (mindestens) Remis wegen der 50-Züge-Regel.
Die Lösung also eindeutig.
Das kann man  übrigens sehr schön auf dem lichess-Analysebrett sehen.
Die Endspielaufgaben sollten in diesem Sinn garantiert dualfrei sein,
da sie u.a. nach diesem Kriterium selektiert wurden.

Die Schwierigkeit bei einer Aufgabe wie der ersten von Dir genannten besteht dann übrigens
genau darin den subtilen Unterschied zwischen Dh1 und Dd1 zu erkennen,
was enorm schwer ist.

Aber danke für den Hinweis, ich werde das noch gesondert hervorheben.

Viele Grüße

Frank


Das will er halt nicht verstehen, weil seine Testsuite mit mehreren Lösungen versehen ist.

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?tid=14733
Von Erdogan Günes Datum 2025-06-05 16:46 Gut 1
Also 384 Core/758 Threads
-Dieser löst wahrscheinlich deine gesamte Testsuite in 1 Sekunde 
Ich sehe übrigens überhaupt keinen Grund, warum du deine Test Suite abschwächen solltest durch mehrere Lösungen.
Es gibt Menschen, die schwache Hardware kaufen, und da wird die Engine nun mal zwangsläufig länger rechnen müssen.
Und es gibt Menschen, die sich super starke Hardware kaufen, siehe oben, und diese sind relativ zügig fertig.
Parent - By Frank Karger Date 2025-06-13 11:28 Edited 2025-06-13 11:42 Upvotes 1
Hallo Max,

die meisten der Aufgaben dieser Testsuite machten u.a. SF 17 ziemlich zu schaffen.
Die Herausforderung nehme ich gerne an.
Ich bin sogar ehrlich gesagt sehr neugierig, was so eine Maschine in dem Test reißen würde.

Wenn ich das mal hochrechne ist die genannte Maschine etwa 48 mal schneller als meine.
SF 17 vorausgesetzt würde sie daher nach meinen Erfahrungen auch bei 1Min.
pro Stellung weniger als 50% lösen.

Aber ich lasse mich gern überraschen.

Grüße

Frank
Parent - - By Walter Eigenmann Date 2025-06-15 16:32 Edited 2025-06-15 16:34
Frank Karger schrieb:
Gerade weil das Projekt noch in den Kinderschuhen steckt,
freue ich mich über (wohlwollende) Hinweise und Fragen

Hinweise kann ich gerne geben, aber sorry: "wohlwollend" sind sie "wohl" nicht

1: Schon die Genesis dieser "Testsuite" ist falsch: Stockfish 17.1 sollte nicht der Ursprung, sondern u.a. Gegenstand des Testes sein...
2. Peter M. hat recht: Es sind zwei Sammlungen, eine mit schwierigen Stellungen (1-80), und eine mit extrem trivialen (81-160), und die Lösungs-Resultate ergeben keinerlei Erkenntnisgewinne, wenn diese beiden in einen Suite-Topf geworfen werden.
3. Die Stellungen 81-160 sind kindisch: Berserk, Dragon, Stockfish, Obsidian, LeelaChess - alle die üblichen verdächtigen Engine-Cracks lösen fast alle 80 Aufgaben je in unter 10 Sekunden ohne 6er-Men, mit den Syzygy dürfte praktisch (auf anständiger Hardware) sogar eine fast 100%-Lösequote generiert werden.
4. Die Aufgaben 1-80 (im wesentlichen Studien mit sehr geringem Praxisbezug, teils mit fast "Märchen"-Charakter) kursieren schon seit Jahrzehnten durch die CS-Foren (und schön, dass viele darunter erstmals im GLAREAN MAGAZIN publiziert wurden...
Und ihre Nicht-Zufälligkeit im Hinblick auf ihr Tauglichkeit als Test-Aufgabe müsste - das hat Peter M schon angemerkt - noch im Einzelnen genau nachgewiesen werden...

Zusammengefasst: Der Erkenntnisgewinn durch diese "Testsuite" tendiert leider gegen null, denn:
a) Die ersten 80 Stellungen dokumentieren: Turnier-Engines haben Probleme mit Zugzwang, mit Horizonteffekten, mit Festungen, mit Matt-Vielzügern - und das alles wissen wir schon lange   Ich vermute mal, Sieger dieser 160-teiligen "Testsuite" dürften "getunte" Engines wie Huntsman oder Sting u.ä. werden... (also wieder keinerlei Bezug zum Turnier-Betrieb).
b) Die zweiten 80 Stellungen sind viel zu trivial, die Beschäftigung mit ihnen ist reine Zeitverschwendung. Denn sie vermögen keinerlei Erkenntnisgewinn zu generieren.

Sorry - und schade um die CPU-Zeitressourcen, die für diese CCET-Sammlung offenbar aufgewendet wurden...

Gruss:  Walter

.
Parent - - By Peter Martan Date 2025-06-15 18:35 Edited 2025-06-15 19:34 Upvotes 1
Hallo Walter, fein, dass du dich auch dazu meldest.
Walter Eigenmann schrieb:

3. Die Stellungen 81-160 sind kindisch: Berserk, Dragon, Stockfish, Obsidian, LeelaChess - alle die üblichen verdächtigen Engine-Cracks lösen fast alle 80 Aufgaben je in unter 10 Sekunden ohne 6er-Men, mit den Syzygy dürfte praktisch (auf anständiger Hardware) sogar eine fast 100%-Lösequote generiert werden.

Naja, gedacht ist es so, dass die ganze Suite ohne jede tbs- Unterstützung laufen muss, sowie man bei den 5-7Steiner Stellungen der 2. Hälfte auch nur 5 Steiner Syzygys geladen hat, ist der Witz, dass die Engines durch eigenes Rechnen allein erkennen sollen, dass jeweils nur ein Zug mit der DTZ unter der 50- Züge Grenze bleibt und damit ums A...lecken gewinnt, während alle anderen (oft genau einer genau nicht mehr) über die 50 Zügen kommt und daher Remis macht.

Als Idee, single best move Teststellungen auf diese Art als Selbstzweck zu generieren, immerhin originell, unter den Bedingungen einer automatisch adjudizierten Suite nicht anders als zufällig von den Engines zu lösen, wenn sie nicht auf tbs zugreifen dürfen, wie ich im Talkchess mit SF- Output zu denjenigen Stellungen, bei denen der richtige Zug "gefunden" wurde, gezeigt habe, fehlt der Engine ohne tbs- Unterstützung jede Einsicht in den Unterschied zwischen den zwar vorhandenen aber nur um wenige Plies DTZ erkenntlichen single game changing winners, es werden manchmal zufällig die richtigen Züge gewählt und manchmal nicht, die Zahl derjenigen unter den gefundenen, die bei einem zweiten Run noch einmal gefunden werden, geht gegen 50% (von oben allerdings, 11 der 18 bzw. 19 in beiden Runs von den gelösten Stellungen unter den von 80-160 eigens gelaufenen, sind auch im 2. Run wieder gelöst, die andere fast gleich große Hälfte ist eine andere an im Vergleichs- Run von derselben Engine mit derselben Hardware- TC dafür nicht gelösten), und das doch immerhin bei einer Hardware- TC von 3' pro Stellung, 8 Threads und 8G Hash.

Das kann man interaktiv mit Engines ohne tbs- Unterstützung analysieren und schauen, wie weit die Engine gegen die 50 Züge gehen muss, um durch Rechnen allein (und halt auch nicht aus einer Eval, die heutzutage bedeutet NNUE oder anderes neuronales Netz, den einen winner von den cursed wins zu unterscheiden. In halbwegs praktikabler TC einer Suite ist das nicht zu erwarten, SF jedenfalls hat mit 5' und 30 Threads genau keine einzige klare Gewinneval bei den (also vermutlich genau immer zufällig) richtig gewählten Zügen, siehe Talkchess- Posting mit den Output- Beispielen aus dem Shredder.dmp- file, das ich komplett durchgeschaut habe in Hinblick auf die richtigen Lösungen, die als solche gewertet wurden von den da nur 54 letzten Stellungen, mit diesmal 5' pro Position und 32G Hash.

Mit tut's nach wie vor leid um die Idee als solche, sie ist halt nur nicht Suiten- tauglich, nicht mit tbs (da würde ja schon das GUI, wenn's man nicht auch ausdrücklich daran hindert, die Stellungen adjudizieren) und nicht ohne, und schon gar nicht im Mix mit anderen als genau wieder solchen Stellungen.

Und ja, die erste Hälfte mit den 80 komponierten Studien hat ein gemeinsames ziemlich hohes Schwierigkeitsniveau (was die durchschnittliche Hardware- Zeit der starken Engines angeht), mit und ohne tbs, aber wie du schon sagst, dass anti engine puzzles, um die es sich halt da durchgehend handelt (auch wenn sie ursprünglich als Kunstschach für den menschlichen Betrachter gedacht sind) blind spots in der Suche der Engines aufdecken, und eben gerade die der "schnellen Brüter" mit wenig time für viel depth, die im game playing die Nasen vorn haben, das ist hinlänglich bekannt.

Auch bei diesen ersten 80 ist es schwer, eine für einen etwas breiteren Engine- Pool beste gemeinsam Hardware- TC festzulegen, bei der wenigstens so viele Stellungen von wenigstens so vielen Engines gelöst werden, damit eine wenigstens in sich statistisch relevante Aussage herauskommt, und nicht nur, wie es bei den zweiten 80 der Fall ist, nur mehr oder weniger zufällig einmal die eine von der einen und einmal die andere von der anderen Engine auch wieder ziemlich zufallsanfällig gelöst werden, oder weil es sich um MultiPV- und andere eigens zum Abdecken der blind spots der game playing engines  gebauten Settings und Branches handelt.

Ich wollte eigentlich nichts mehr dazu sagen, aber gerade diese Dinge lassen mich halt auch immer wieder nicht recht ruhen, wenn ich sehe, wie sich jemand mit diesem alten Thema der Stellungstests so viel Mühe macht (allein die eigens dafür gebaute Site gibt einiges her) und dann doch wieder an den alten Schwierigkeiten (zunächst, das lässt sich ja alles aus- und umbauen) mehr oder weniger scheitert, damit's so richtig praktikabel würde. Die ersten 80 auf solche, wie ich sie mit der kleinsten Suite von 128 Stellungen, die ich nach wie vor in immer wieder neuen Versionen auch immer noch gern verwende, gar nicht so zahlreich an einzelnen Positionen umzustellen (da überschneidet sich mit einigen derartigen Suiten sowieso viel, wie du auch schon angemerkt hast), das wäre gar keine gar so große Sache, für mich würde es aber halt dann auf diese Art auch wieder nur one more anti engine puzzle suite.
Parent - - By Walter Eigenmann Date 2025-06-15 21:52 Edited 2025-06-15 22:07
.

Unabhängig davon, ob man die 6-7-men als integraler Bestandteil des Engine-Testens betrachtet (ich tue das) oder nicht: Die meisten der "Aufgaben" 81-160 werden von allen Top-Engines wahrscheinlich in je weniger als 15 Sekunden gelöst - und praktisch alle Aufgaben dürften gelöst werden, sobald man die 6-7 Szyzygy hinzuschaltet. Das nenne ich triviale Stellungen - eine schachliche Diskrimination der Resultate ist verunmöglicht. Also noch nicht mal eine Recherche lässt der Test zu, welche Engine in welcher Zeit bei welcher Stellung versagt.
Und die ersten 80 (schwierigeren) Aufgaben? Eine einzige Anhäufung von Positionen, die v.a. Stockfish Sorgen bereiten - als würde SF darüber befinden, was schwer und was leicht ist im Computerschach...  Der CCET ist einfach ein Anti-Stockfish-Test, that's all.
Ich habe zum Spass mal die 160 Ergebnisse der Engines The Huntsman1 und Stockfish 17.1 verglichen (ohne Szyzygy, 4Threads, 15sec/Position, Ryzen-9-5950X-3,5Ghz): Huntsman gewann gegen Stockfish haushoch mit 96:80 Lösungen  Nun ist ja Huntsman ein toller Problem-Löser (mit dem ich persönlich häufig und gerne arbeite), aber in einem Engine-Turnier mit den Top-30 würde er wohl den letzten Platz einnehmen... Also: wozu dieser CCET ?!

.
Parent - - By Frank Karger Date 2025-06-15 23:00
Hallo Walter,

wie bereits im Falle von einigen Teilnehmern geschehen,
kann man das Feld "Detailed report of the test run" verwenden um positionsbezogene Informationen anzugeben.
Es erscheint dann in der Rangliste in der Spalte "Details".

Deine Resultate mit den Engines sind ziemlich inkonsistent zu denen der Rangliste,
wenn man Rechner, Threads und Bedenkzeit berücksichtigt.

Grüße

Frank
Parent - By Walter Eigenmann Date 2025-06-16 09:58
Frank Karger schrieb:

Deine Resultate mit den Engines sind ziemlich inkonsistent zu denen der Rangliste, wenn man Rechner, Threads und Bedenkzeit berücksichtigt.
Siehe hier: https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=175000#pid175000

.
Parent - - By Walter Eigenmann Date 2025-06-16 11:00
Frank Karger schrieb:
wie bereits im Falle von einigen Teilnehmern geschehen, kann man das Feld "Detailed report of the test run" verwenden
um positionsbezogene Informationen anzugeben. Es erscheint dann in der Rangliste in der Spalte "Details".
Deine Resultate mit den Engines sind ziemlich inkonsistent zu denen der Rangliste,wenn man Rechner, Threads und Bedenkzeit berücksichtigt.

Inzwischen habe ich einen neuen Test aufgesetzt mit einem halben Dutzend ausgewählter Engines unter dem folgenden Setting:
30sec pro Stellung / 4Threads pro Engine / banksiaGUI / No Tablebases / Ryzen 9 5950X - 3,5Ghz - 1GB Hash / 16Cores-32Threads / Radeon RX6900-XT

Die Rangliste ist sehenswert

1. Crystal 8               : 65/160
2. The Huntsman 1          : 54/160
3. Sting 28                : 53/160
4. MateFinder (SF)         : 47/160
5. Lc0 0.31 ONNX 3010000   : 41/160
6. Stockfish 17.1          : 24/160


(Das originale CCET-Setting sieht 3 Min./Stellung mit 8 Threads/Engine vor; bitte also einfach noch je ca. 20-30 Lösungen addieren).

Kurzum, ich bleibe dabei:
Die 160 Pos. des CCET sind einfach eine Anti-Stockfish-Sammlung (inkl. -Clones), that's all.
Kann man ja machen. Lohnt aber m.E. die Beschäftigung nicht.

.
Parent - By Max Siegfried Date 2025-06-16 13:16
Walter Eigenmann schrieb:

Frank Karger schrieb:
wie bereits im Falle von einigen Teilnehmern geschehen, kann man das Feld "Detailed report of the test run" verwenden
um positionsbezogene Informationen anzugeben. Es erscheint dann in der Rangliste in der Spalte "Details".
Deine Resultate mit den Engines sind ziemlich inkonsistent zu denen der Rangliste,wenn man Rechner, Threads und Bedenkzeit berücksichtigt.

Inzwischen habe ich einen neuen Test aufgesetzt mit einem halben Dutzend ausgewählter Engines unter dem folgenden Setting:
30sec pro Stellung / 4Threads pro Engine / banksiaGUI / No Tablebases / Ryzen 9 5950X - 3,5Ghz - 1GB Hash / 16Cores-32Threads / Radeon RX6900-XT

Die Rangliste ist sehenswert

<code>1. Crystal 8               : 65/160
2. The Huntsman 1          : 54/160
3. Sting 28                : 53/160
4. MateFinder (SF)         : 47/160
5. Lc0 0.31 ONNX 3010000   : 41/160
6. Stockfish 17.1          : 24/160</code>

(Das originale CCET-Setting sieht 3 Min./Stellung mit 8 Threads/Engine vor; bitte also einfach noch je ca. 20-30 Lösungen addieren).

Kurzum, ich bleibe dabei:
Die 160 Pos. des CCET sind einfach eine Anti-Stockfish-Sammlung (inkl. -Clones), that's all.
Kann man ja machen. Lohnt aber m.E. die Beschäftigung nicht.

.


Wenn du das gleiche mit 7-Steinern machst, dann hast du 160/160.
Das nenne ich mal eine tolle Testsuite     
Da siehst du mal und vor allem Reinhold das man unbedingt die 7-Steiner Syzygy Endspieldatenbanken braucht.
Parent - - By Lothar Jung Date 2025-06-16 14:05
Hallo Walter,

die Hardware für Lc0 ist ziemlich unausgewogen.
Da müßte eine RTX GPU eingesetzt werden.

Grüße
Lothar
Parent - By Walter Eigenmann Date 2025-06-16 14:28 Edited 2025-06-16 14:33
.

Lothar Jung schrieb:

Hallo Walter,die Hardware für Leela ist ziemlich unausgewogen. Da müßte eine RTX GPU eingesetzt werden.

Ich weiss, aber ich bin schon froh, dass ich die ab PC-Kauf verbaute Radeon mit Lc0 zum absturzlosen Laufen gebracht habe.
Ich erinnere mich schmerzhaft an meine wochenlangen Recherchen bei Discord, bis das Ding endlich sein lauffähiges Setting hatte...

.
Parent - By Frank Karger Date 2025-06-17 10:42
Walter Eigenmann schrieb:

Die 160 Pos. des CCET sind einfach eine Anti-Stockfish-Sammlung (inkl. -Clones), that's all.
Kann man ja machen. Lohnt aber m.E. die Beschäftigung nicht.


Da ich ein großer Fan des Stockfish-Projekts bin, ist das mindestens nicht intendiert.

Deine Rangliste basiert auf einer einfachen Täuschung:
- die ersten 4 sind starke Löser und deshalb vorn (typisch für wohl nahezu jede Testsuite inklusive Deiner)
- danach folgen 2 Turnierschach-Engines - auch normal

Lc0 zeigt vermutlich weniger Probleme, wenn es um Positionsverständnis geht,
was sich bei den Positionen 1-80 auszahlt.

Ich gehe übrigens davon aus, dass mit steigender Bedenkzeit bzw CPU-Power SF ab einem gewissen
Punkt an den Lösern vorbeiziehen wird.

Der zweite Teil (81-160) zeigt nämlich typischerweise eine weit geringere Dominanz der Löser,
vermutlich weil er neue Aspekte beinhaltet und realitätsnäher ist.
Parent - - By Peter Martan Date 2025-06-15 23:44 Edited 2025-06-15 23:56 Upvotes 1
Walter Eigenmann schrieb:

Die meisten der "Aufgaben" 81-160 werden von allen Top-Engines wahrscheinlich in je weniger als 15 Sekunden gelöst - und praktisch alle Aufgaben dürften gelöst werden, sobald man die 6-7 Szyzygy hinzuschaltet.

Wenn du die 6 Steiner Syzgygs lädst, werden bei allen  5- und 6-Steinern der 80 von 81-160, das sind alle außer Nr. 85 und denen von 141 bis 160, was lauter 7Steiner sind, direkt durch die tbs gelöst, bei den 7 Steinern tut sich die Engine natürlich auch viel leichter mit 6Steiner- Unterstützung. In diesem Zusammenhang hätte übrigens der Satz am Anfang des Postings, auf das du geantwortet hast
Zitat:
sowie man bei den 5-7Steiner Stellungen der 2. Hälfte auch nur 5 Steiner Syzygys geladen hat, ist der Witz
noch ein weiteres Wort gebraucht, dass gefehlt hat, ich hab's erst zu spät gemerkt, es hätte noch "weg" kommen sollen, also "ist der Witz weg".

Wenn du sie auch im GUI lädst, siehst du, dass von allen immer nur der als Lösung angegebene best move eine DTZ unter 50 Zügen hat, alle anderen eine höhere depth to zero als die 50 Züge der entsprechenden Regelgrenze (viele nur ganz wenige Züge mehr), also cursed wins sind. Ich hatte das nur am Anfang gar nicht gleich geschnallt, weil ich eben die tbs deaktiviert hatte, nur parallel im Shredder- GUI die distances to mate sah und fälschlich davon ausging, das wären sowieso auch mit den best moves cursed wins.
Bei den 7Steinern kannst du dir's z.B. auf Lichess mit dem Analysebrett anzeigen lassen. Also wenn die Engines bei allen diesen Stellungen überhaupt zum Rechnen kommen sollen, musst zu zumindest die tbs vom GUI deaktivieren, wenn du's ihnen nicht zu leicht machen willst, auch der Engine. Wenn keinerlei tbs- Unterstützung da ist, sind die Stellungen alles andere als trivial, weil dann die Engines an die 50 Züge durchrechnen müssten, um den Unterschied zwischen dem jeweils einzigen winner und den cursed wins unterscheiden zu können, das schaffen sie nicht anders als zufällig, siehe die Lösungen, die ich im Talkchess von SF dev. 250602 aus den 80 Wenigsteinern mit 3'/Stellung und 8 Threads gezeigt habe:
https://talkchess.com/viewtopic.php?p=980269#p980269

Und von diesen 18 im einen und 19 im anderen Run derselben Engine unter denselben Bedingungen waren nur 11 in beiden Runs gelöst, die restlichen waren im einen oder im anderen Run aber nicht in beiden, die Chance zwischen diesen beiden Runs hat sich also annähernd auf 50-50 verteilt, dass die gelösten Stellungen in 2 Runs unter identischen Bedingungen gefunden wurden oder nicht.
Aber bei den 54, die ich schon hier
https://talkchess.com/viewtopic.php?p=980215#p980215

mit 5 Minuten/Stellung, 30 Threads und 32G Hash hatte laufen lassen, waren auch nur 20 in diesem einen Run als gelöst vom GUI beurteilt worden, und diese 20 hab' ich mir eine nach der anderen im Shredder.dmp- file angeschaut, was den Output am Ende der TC anging. Keine der richtig gefundenen Lösungen hatte ein winning eval im Output, nur eine in der Nähe davon (1.58cp), alle anderen unter oder knapp über einem Bauern, die Engine war also bei allen "gelösten" Stellungen der Meinung, auch die single game changing winners, die nach der DTZ wären, würden auch nur Remis leisten, soviel zum Thema, "Aufgaben 81-160 werden von allen Top-Engines wahrscheinlich in je weniger als 15 Sekunden gelöst", gefunden können sie schon werden, gelöst im eigentlich Sinn hat SF dev. 250602 keine einzige ohne tbs- Unterstützung, aber das ist halt eine Frage der Definition von "gelöst", wenn' dem GUI oder Tool nur darum geht, welcher Zug am Ende der TC oben ist, dann wurden 20 von 54 gelöst.

Zitat:

Und die ersten 80 (schwierigeren) Aufgaben? Eine einzige Anhäufung von Positionen, die v.a. Stockfish Sorgen bereiten - als würde SF darüber befinden, was schwer und was leicht ist im Computerschach...  Der CCET ist einfach ein Anti-Stockfish-Test, that's all.
Ich habe zum Spass mal die 160 Ergebnisse der Engines The Huntsman1 und Stockfish 17.1 verglichen (ohne Szyzygy, 4Threads, 15sec/Position, Ryzen-9-5950X-3,5Ghz): Huntsman gewann gegen Stockfish haushoch mit 96:80 Lösungen 

Das hätte ich, ohne es probiert zu haben, auch so ähnlich vermutet, Huntsman tut sich mit anti engine puzzles dieser Art, von denen einige ja auch mate in x zum Thema haben als Kompositionen, oft leichter als die aufs game playing tuned ones, ich hab' mal die ersten 80 mit Rems laufen lassen, einem von Eduards Babys, deren Stärke zu einem guten Teil der interne MultiPV- Modus ist, auch enthält er CorChess- Code, der weniger nullmove pruning macht als SF dev, insofern hat er sie es das auch ein bisschen mit Huntsman gemeinsam. Und das mit einem Setting, das sich bei mir bei ähnlichen Stellungen auch immer wieder bewährt hat, Random Op. Plies 28, Random Op. MultiPV=4, Random Op. Score=2000, heißt, es werden 4 zu primaries erhobene lines bis in eine Tiefe von 28 plies innerhalb einer Score- Range von 2 Bauern untersucht, außerhalb dieser Grenzen wird normal single primary weiter gerechnet, was die Engine weniger ausbremst an time to depth als ein durchgehend beibehaltener MultiPV=4. So schaut die Shedder- Lösungstabelle dann für diese ersten 80 Stellungen mit 1 Minute/Pos., 30 Threads und 8G Hash aus:


RemsM091224
Bisher gelöst: 35 von 80  ;  48:16m

         1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20
-------------------------------------------------------------------------------------
   0 |   -   1   4   -   1   0   -   -   -   -   -   0   -  52   1   -   5   -   -   -
  20 |   0   -   -   -   0   -   -   3   0   -   -   -   2   0   0   -   -   -  38   -
  40 |   0   -   -   -   -   -   -   -   -   -   0   8   0   -   0   -   0   -   -   -
  60 |   0   0   -   -   3   0   0   0   -   3   -   -   9  16   -   3   -   0   0   0

  K/s: 24.563.458 
  TotTime: 52:57m    SolTime: 48:16m


Nun wäre das ja gar nicht viel, aber halt auch nicht gar so wenig und es ist durchaus zu erwarten, dass ähnliche Engines mit ähnlichen Einstellungen (z.B. MultiPV=4) ähnliche Ergebnisse hätten und man könnte sich einen Ast freuen, dass SF dev.  doch noch ein bisschen weniger schafft und "diskriminiert" wird, im Sinne von unterschieden. Ok., aber was man auf diese Art nicht sieht, wenn man von so wenigen Stellungen die Zahlen an Lösungen allein vergleicht, ohne sich dabei anzuschauen, welche von der einen und welche von der anderen Engine, das ist folgendes: Dass es diese Art von Zufallsschwankungen sind, die die eigentlich relevante error bar in den Performances so vergleichener Engines ausmachen, genau das habe ich auch in dem Talkchess- Posting vom ersten Link zu zeigen versucht.

Bei den beiden praktisch identischen SF- Runs war ein Unterschied von "nur" einer Lösung zu sehen, (18 zu 19, ist ja bei nur 80 Stellungen auch schon viel, könnte man meinen, vor allem im Verhältnis zu den wenigen Stellungen und noch viel weniger Lösungen) aber EloStatTS hat außer den wenigen Elo, die das mit den Time Indizes gemeinsam bei den gemeinsam gelösten Stellungen ausgemacht hat, eine error bar von 71 bzw. 72 (!) für die beiden Runs derselben Engine. Das kommt nicht von den Zeitunterschieden (die wie gesagt nur bei den 11 gemeinsam gelösten zählen), das kommt von den wenigen von beiden Engines gemeinsam gelösten Stellungen, die sind eben nur etwas mehr als die Hälfte der Lösungszahlen, daher die große Zufallsschwankung. Es hätte laut diesem guten Tool bei so wenigen gelösten Stellungen innerhalb der Irrtumswahrscheinlichkeit auch leicht vorkommen können, dass die Unterschiede in den Lösungszahlen viel größer gewesen wären, und das bei 2x derselben Engine.
Parent - - By Peter Martan Date 2025-06-16 00:57 Edited 2025-06-16 01:09
Was die Lösungszahlen angeht, macht's Sting bei den ersten 80 mit ebenso 30 Threads aber ohne MultiPV (der Engine hilft das auch bei anderen ähnlichen Stellungen ohnehin nicht so viel wie näher an SF selbst liegenden Engines, was den Code angeht) um einiges besser als das Rems- Setting vorher, vielleicht war dieses von mir auch zu wenig auf time to depth eingestellt und zu sehr auf Breite der Suche.

Sting Black Hole 10
Bisher gelöst: 54 von 80  ;  33:32m

         1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20
-------------------------------------------------------------------------------------
   0 |   -   -   0  10   -   0   2   -   0   2   6   1  33   0   0   -   0   0   0   0
  20 |   -   4   -   0  49   0  40   0   1   -   6   -   -   4   -   -   2   0   -   -
  40 |   -   -   -   2  50   1  36   2  15   -   0   0   2  10   0   0   -   5   -   5
  60 |  25   0   -  33  42   -   -   0   -   0   0   7   1   -   2   -   7   9   7   7

  K/s: 23.868.246 
  TotTime: 43:28m    SolTime: 33:32m


Parent - By Peter Martan Date 2025-06-16 10:49 Edited 2025-06-16 10:56 Upvotes 1
Und dann, wenn ich jetzt schon 2 so schöne Shredder- Lösungstabellen hatte, konnte ich mir mal wieder den Spaß nicht verkneifen, die beiden Tabellen Zeile für Zeile genau unter einander zu platzieren und diejenigen Stellungen, die von beiden gelöst wurden, ab einem Zeitunterschied von 20" als Win für die kürzere Zeit zu rechnen, alle von beiden nicht gelösten oder innerhalb der 20" "gleich schnell" als Remis, das dann in EloStat (ebenso wie EloStatTS von Frank Schubert) eingegeben als WDL aus der Sicht von Sting:

Wins       = 32
Draws      = 33
Losses     = 15
Av.Op. Elo = 3500

Result     : 48.5/80 (+32,=33,-15)
Perf.      : 60.6 %
Margins    :
68 %       : (+  4.0,-  4.2 %) -> [ 56.4, 64.6 %]
95 %       : (+  7.8,-  8.3 %) -> [ 52.3, 68.5 %]
99.7 %     : (+ 11.7,- 12.7 %) -> [ 47.9, 72.3 %]

Elo        : 3575
Margins    :
68 %       : (+ 30,- 30) -> [3545,3605]
95 %       : (+ 60,- 59) -> [3516,3635]
99.7 %     : (+ 92,- 90) -> [3485,3667]

Parent - - By Frank Karger Date 2025-06-15 22:52
Hallo Walter,

das klingt wirklich nicht wohlwollend, schade, finde ich unnötig.

Zu Deinen Punkten:
Zu 1: Die Genesis habe ich gar nicht veröffentlicht (allenfalls angedeutet) und SF 17.1 ist keineswegs der Ursprung.
Zu 2,3:
Die Aufgaben ab 81 sind ganz im Gegenteil sehr schwer.
Beispiel: der aktuell Führende (s. Offenes Ranking) hat
bei den Aufgaben 1-80, die Du (korrekt) 'schwierig' nennst, insgesamt 51 Punkte geholt und bei den folgenden,
die Du 'kindisch' nennst, 35, also sogar deutlich weniger.
Zu 4: Ich habe mir vorher diverse Testsuites angesehen. Darin fanden sich die Aufgaben 1 bis 46.
47 bis 80 fand ich zwar in öffentlichen Quellen, aber nicht in Testsuites und sie sind daher in diesem Sinne neu.
Übrigens hier beschrieben: CCET.

Zu a) und b) Die Zusammenstellung der Aufgaben berücksichtigt durchaus die verschiedenen Stärken von Engine-Typen.
Teil 2 (81 bis 160) ist meinen Beobachtungen nach den Turnier-Engines zugänglicher, aber man wird sehen.
Das herauszufinden ist übrigens schon Erkenntnisgewinn.

Dieser ist natürlich möglich und bereits geschehen, denn es sind ja neue Stellungen enthalten
und man kann abgesehen davon auch aus alten (zT sehr komplexen Aufgaben) bei tieferem Studium neue Erkenntnise gewinnen.
Ich habe zB im KNNvKP-Endspiel einige erstaunliche Aussetzer der NNUE-basierten Top-Engines beobachtet.
Weiterhin kann man Abhängigkeiten zu Hardware, Software-Optionen, Engine-Versionen usw untersuchen.
Wieviel Erkenntnisgewinn man aus einem Gegenstand ziehen kann, ist auch eine Frage der Fantasie.
Der eigentliche Punkt ist ja: erst die Untersuchung bringt den Erkenntnisgewinn hervor und die
kann durch so einem öffentlichen Wettbewerb angeregt werden.

Die von Dir genannten Probleme wie Zugzwang, Festungen... sind ja schon seit Urzeiten bekannt.
Denkst Du, dass eine Deiner Testsuites da fundamental Neues gefunden hat?
Ich möchte betonen, dass ich Respekt vor Deiner Arbeit hatte und habe,
aber ich möchte ebenfalls mit Respekt behandelt werden.

Deinen Worten ist zu entnehmen, dass Du Dir kein eingehendes Bild gemacht hast,
aber recht schnell und grob abqualifizierend geschrieben hast.
Ich fände es schön, wenn wir in der Folge freundlicher miteinander umgehen könnten.

Grüße Frank
Parent - - By Walter Eigenmann Date 2025-06-16 09:36 Upvotes 1
Frank Karger schrieb:
Deine Resultate mit den Engines sind ziemlich inkonsistent zu denen der Rangliste, wenn man Rechner, Threads und Bedenkzeit berücksichtigt.

Ja, korrekt. Und der Grund ist ärgerlich: Ich benütze für Stellungstests oft das banksiaGUI, denn dieses hat das (im GUI-Zirkus einzigartige) Feature, problemlos mehrere Engines simultan lösen zu lassen,
sogar automatisiert mehrmalig, und differenzierten Output inklusive.
Doch wie ich gemerkt habe, hat banksia unter anderen offenbar auch den Bug, dass man zwar die Szyzygy bei den "allgemeinen Einstellungen" im Testmodus abdrehen kann, dass aber banksia trotzdem
die TB's benützt, wenn sie in den einzelnen Engines voreingestellt wurden. Deshalb meine Einschätzung der Nr. 81-160 als "trivial", weil so natürlich Stockfish diese 80 Aufgaben fast zu 100% löste.

Allerdings, davon mal ganz abgesehen:
1. Wieso sollten sich Engine-Programmierer im Jahre 2025 Gedanken machen über Wenigsteiner, wo diese doch millisekundenschnell an die TB delegiert werden können?
2. Wieso sollten sich die Stockfish-Macher Gedanken machen über solche "märchenhaften" (wenngleich hübsch anzusehenden) Schachstellungen wie Nr.6:

Das wäre doch doof, dafür gibt's doch die "Fachidioten" wie Huntsman oder Crystallite oder SF-Matfinder u.a. (mit oder ohne NN).

Ich verstehe die Programmierer, wenn sie für solcherlei (Nr.30) nicht ihren Code zumüllen wollen:

(Natürlich auch hübsch anzusehen)

Also, was ist die Erkenntnis, die CCET uns bringen möchte?
"Stockfish & Co. können nicht Festung bzw. Zugzwang bzw. Horizont, und sie können nicht Wenigsteiner ohne TB."
Aber das ist ja keine Erkenntnis. Sondern jahrzehntealtes Allgemeingut...

Ich argwöhne das folgende Rezept, mit dem CCET generiert wurde:
1. Man lasse Stockfish ohne TB einige tausend Studien lösen (z.B. aus der bekannten VanDerHeijden-Collection).
2. Dann filtere man jene 9/10 der Studien weg, die Stockfish in wenigen Sekunden gelöst hat.
3. Vielleicht noch zwei, drei weitere Top-5-Engines mit gleichem Verfahren drüberlaufen lassen?
Und fertig sind die 160 "schwierigen" Stellungen...

Das ist alles super praktisch - und man erspart sich die mühsame Analyse der Binnenstrukturen von real gespielten Engine-/Human-Partien, gell... 

.
Parent - - By Frank Karger Date 2025-06-16 10:16
Hallo Walter,

wie gesagt, gibt es diverse Arten des Erkenntnisgewinns,
nicht nur solche für Engine-Programmierer.

Die Engines werden im Normalfall nicht so programmiert,
dass sie spezifische Stellungen beherrschen, denn davon gibt es natürlich zu viele,
sondern allgemeiner.

Was man als Engine-Programmierer immer machen kann ist folgendes:
man spiele die Hauptvariante vor, bis es einen Sprung in der Bewertung gibt.
Dieser bedeutet, dass zuvor etwas nicht erkannt wurde.
Dann analysiere man, warum das nicht der Fall war und passe den Code entsprechend an
und erbringe den Nachweis, dass die Gesamtspielstärke nicht leidet.
So kann man Löcher systematisch stopfen.
In der Regel geht es dabei um taktische Motive, manchmal um Positionsverständnis.

Dass seltene Motive praktische Relevanz haben können, erklärt sich wie folgt:
je höher das Niveau, desto kleiner die spielentscheidenden Unterschiede.
Und das kann man manchmal auf TCEC erkennen, z.B. wenn Lc0 und SF die Klingen kreuzen.

Daher ist eine einzelne Position generell nicht relevant, wohl aber
die so erkennbare Lücke in der Engine.
Und dafür können kompakte Sammlungen wie CCET nützlich sein,
weil sie sehr effizient solche Probleme aufdecken können.
Es wäre kein 'Zumüllen', sondern würde eine generelle Schwäche beheben,
die über einzelne Positionen hinausgeht.
Ich habe so übrigens mit meiner Go-Engine Programme (auf deutlich stärkerer
Hardware) in Kanazawa 2010 schlagen können.

M.E. ließe sich Stockfish wie beschrieben sogar relativ leicht verbessern.

Wenn nun Testsuites wie CCET dazu einen Anreiz bieten, weil die Engines sehr
zu knabbern haben, kann das auch die Entwicklung der Engines vorantreiben.

Mein Rezept möchte ich derzeit noch nicht bekanntgeben, aber natürlich sind
Engines mit Elo >>3000 heutzutage bei so einem Vorhaben sehr relevant.

Grüße

Frank
Parent - - By Walter Eigenmann Date 2025-06-16 10:27
.

Frank Karger schrieb:
Daher ist eine einzelne Position generell nicht relevant, wohl aber die so erkennbare Lücke in der Engine.
Selbstverständlich - es geht ja um ein (altbekanntes) strukturelles Problem der Schachprogrammierung.

Frank Karger schrieb:
Und dafür können kompakte Sammlungen wie CCET nützlich sein, weil sie sehr effizient solche Probleme aufdecken können.
Was verstehst du unter "kompakt"? Je realitätsfremder, desto kompakter? Das wäre Ineffizienz hoch zwei...

Frank Karger schrieb:
M.E. ließe sich Stockfish wie beschrieben sogar relativ leicht verbessern.
Ich denke mal, das hätten die SF-Macher schon längst gemacht, wenn es so "leicht" und v.a. so "effizient" wäre...

.
Parent - By Frank Karger Date 2025-06-17 10:33
Walter Eigenmann schrieb:

Selbstverständlich - es geht ja um ein (altbekanntes) strukturelles Problem der Schachprogrammierung.


Was damit eben für alle bisherigen Testsuites inklusive Deiner gilt.
Daher ein etwas seltsamer Vorwurf.

Frank Karger schrieb:
Und dafür können kompakte Sammlungen wie CCET nützlich sein, weil sie sehr effizient solche Probleme aufdecken können.

Walter Eigenmann schrieb:

Was verstehst du unter "kompakt"? Je realitätsfremder, desto kompakter? Das wäre Ineffizienz hoch zwei...

Die Kompaktheit und Effizienz besteht darin mit wenig Aufgaben möglichst viele Schwächen aufzudecken.
Wie schon angedeutet spielt die Realitätsnähe der Position dabei gar keine Rolle.
Entscheidend ist der enthaltene allgemeine Aspekt, der der Engine Probleme macht und
der dann durchaus (s. TCEC) reale Konsequenzen hat.

Als Entwickler würde ich diese Effizienz für eine spezifische Engine noch wie folgt steigern:
1) man habe eine Sammlung von Stellungen, welche Schwächen der Engine aufdecken; initial leer
2) dieser füge man immer eine weitere Position genau dann zu, wenn diese eine neue Schwäche aufdeckt
3) im Idealfall enthält die Sammlung maximal eine Stellung, welche die aktuelle Version der Engine nicht löst
4) für diese Stellung verbessere man die Engine
5) falls sie gelöst wird: Goto 2), sonst 4)

Man kann für neue Versionen so immer prüfen, ob sie alle bisherigen Problemstellungen beherrscht.
Nennt man auch Regressionstest.

Für Punkt 2) kann sich ein Entwickler an einer Testsuite wie meiner bedienen.

Frank Karger schrieb:
M.E. ließe sich Stockfish wie beschrieben sogar relativ leicht verbessern.

Walter Eigenmann schrieb:

Ich denke mal, das hätten die SF-Macher schon längst gemacht, wenn es so "leicht" und v.a. so "effizient" wäre...


Dass es tatsächlich recht leicht geht, zeigen ja menschliche Benutzer.
Man spiele die Lösung vor und wieder zurück und SF erkennt die Lösung in der Anfangsstellung.
Woran liegt das? SF hat die Lösung z.T. noch in seinen Hashtabellen bzw seinem Kurzzeitgedächtnis.
Das ließe sich formalisieren, z.B. mit Hilfe eines Lösers wie Crystal.
Ich skizziere das mal grob:
Ein einfacher Ansatz würde Crystal in einem eigenen Thread mitlaufen lassen.
Sobald Crystal anschlägt, spielt man die Hauptvariante von Crystal in einem eigenen Thread vor.
In diesem Thread könnte ein SF laufen, der die Bewertungen für diese Variante in der Hashtabelle der Haupt-Engine ablegt.
Dieser Punkt ist entscheidend. Die Hashtabelle dient so der Kommunikation zwischen Crystal und SF.

Das ist realistisch, vor allem dann, wenn man wie auf TCEC Threads ohne Ende hat, sodass man problemlos
einen für Crystal verwenden kann.
Dieser Ansatz ahmt das menschliche Vorgehen in einer GUI nach und hat den Charme, dass man
auch mehrere Top-Solver so integrieren könnte um vielleicht alle Lücken zu stopfen, die SF hat.

Ein vermutlich noch etwas effizienterer Ansatz bestünde darin, den Spezial-Lösern einen bestimmten
Prozentsatz an Knoten zur Verfügung zu stellen, der SF nicht messbar schwächt.

Jedenfalls ist der Beweis, dass es gehen kann, ja bereits durch manuelles Vorgehen erbracht.
Es ist durchaus möglich, dass SF so insgesamt besser wird.
Wäre jedenfalls eine spannende Erweiterung.
Parent - - By Peter Martan Date 2025-06-16 11:45 Edited 2025-06-16 12:06
Walter Eigenmann schrieb:

2. Wieso sollten sich die Stockfish-Macher Gedanken machen über solche "märchenhaften" (wenngleich hübsch anzusehenden) Schachstellungen wie Nr.6:
1n6/Pp1p1p1p/1P1P1P1P/4K3/2p5/p7/rpp1P3/qkb1R3 w - - 0 1

Das war (du weißt es ja, aber für die Anderen, die sich nicht gleich erinnern) mal die 100. Stellung aus dem "Brillanten Schachzug" im Glarean, oder? Zumindest hab' ich sie mit diesem Kommentar in meiner Problemdatenbank gespeichert

Babic M. 1996 ist ein gefundenes Fressen für Sting und Huntsman (SMP haben beide auch gleich die richtige #18- Anzeige im Output), Crystal zögert auch nicht mit der Unterverwandlung, für die DTM braucht er etwas länger.

Mit der Troitzky Stellung hat lustiger Weise ausgerechnet SlowChess von denen, die ich probiert habe, am meisten Freude, der löst das offenbar über seine hier besonders gut passende Mattsuche (da ist sogar Huntsman etwas länger gefordert, in einem einzelnen Versuch mit 30 Threads hat er fast 5 Minuten gebraucht, die vielen Läufer verwirren ihn anscheinend):

  86366: Troitzky=A - (+0090.01d1b1) 1-0, Bohemia#1576 1915


Analysis by SlowChess Blitz 2.9 avx2:

1.Ld2 a5 2.Ld4 a4 3.L4c3 a3 4.Lxa3 Ka2 5.Lf8 Kb3
  Weiß steht klar auf Gewinn. 
  +- (23.52)  Tiefe: 10/15   00:00:00
...
1.Kd2 a5 2.Lxa5 Ka2 3.Kc3 Kb1 4.Lfb4 Ka2 5.Lbc7 Kb1 6.Ld2 Ka2 7.Lf8 Kb1 8.Ld4 Ka2 9.Ldh6 Kb1 10.Lg1 Ka2 11.Kc2 Ka1 12.Lf2 Ka2 13.Kc3 Kb1 14.Ld4 Ka2 15.Ldg7 Kb1 16.La3 Ka1 17.Lgf8 Kb1 18.Lb2 Ka2 19.Lhg7 Kb1 20.Ld4 Ka2 21.Lf2 Kb1 22.Lg1 Ka2 23.Ld4 Kb1 24.Lh6 Ka2 25.Ld2 Kb1 26.La3 Ka2 27.Lf8 Kb1 28.Lf2 Ka2 29.Kc2 Ka1 30.Lg1 Ka2 31.Kc3 Ka1 32.Kb3 Kb1 33.Lab4 Ka1 34.Kc2 Ka2 35.Kc3 Kb1
  Weiß steht klar auf Gewinn. 
  +- (23.84)  Tiefe: 38/71   00:00:08  342MN, tb=129715
1.Lce5
  Weiß setzt Matt. 
  +- (#9 ++)  Tiefe: 38/71   00:00:09  429MN, tb=173189
...
1.Lce5 Ka2 2.Kc2 a5 3.La1 a4 4.Lbe5 a3 5.Kc3 Kxa1 6.Kb3+ Kb1 7.La1 a2 8.Kc3 Kxa1 9.Kc2#
  Weiß setzt Matt. 
  +- (#9)  Tiefe: 38/71   00:00:11  484MN, tb=225135
Parent - - By Walter Eigenmann Date 2025-06-16 12:05
Ja, genau - wie ich schon sagte: Alles Schnee von gestern
Allerdings hatten vor nunmehr bald 20 Jahren diese "Brillanten" https://glarean-magazin.ch/2016/09/02/walter-eigenmann-100-brillante-schachzuege-geniale-kombinationen/
...damals eine ganz andere Intention als der CCET: Sie sollten die ästhetische und mathematische Qualität des menschlichen Schach-Erfindergeistes dokumentieren...

Gruss: Walter

.
Parent - - By Frank Karger Date 2025-06-17 10:58
Walter Eigenmann schrieb:

...
Allerdings hatten vor nunmehr bald 20 Jahren diese "Brillanten" <a class='ura' href='https://glarean-magazin.ch/2016/09/02/walter-eigenmann-100-brillante-schachzuege-geniale-kombinationen/'>https://glarean-magazin.ch/2016/09/02/walter-eigenmann-100-brillante-schachzuege-geniale-kombinationen/</a>
...damals eine ganz andere Intention als der CCET: Sie sollten die ästhetische und mathematische Qualität des menschlichen Schach-Erfindergeistes dokumentieren...


Hallo Walter,

ich habe Ästhetik zwar nicht als Ziel deklariert, aber natürlich bin ich ein großer Fan davon
und Du findest reichlich Ästhetik in den CCET-Aufgaben.

Du findest sie selbstredend in den erstklassigen Aufgaben 1-80, die ja auch von berühmten Komponisten sind.

Bei den automatisch erzeugten wirst Du sie ebenfalls finden (etwas Wohlwollen vorausgesetzt).
Der automatische Teil war nämlich nicht vollautomatisch.
Ich habe es mir nicht nehmen lassen meine menschliche Bewertung einfließen lassen,
weswegen es auch eine menschliche Selektion gab.

Beispiel:
In den KNNvKP - Endspielen gab es noch sehr viel mehr Material,
wenn es nur um die 'Challenge' ginge.
Die Auswahl bezieht sich aber auch auf Motive, die mir gefallen haben.
Dieses Endspiel hat ja eine klare Struktur:
1) Schnellstmöglich den Bauern mit einem Springer blockieren
2) Den K in die Ecke treiben
3) Den Blockadespringer holen und Matt setzen

Daher fand ich z.B. folgende Stellung interessant, wo nicht klar ist, welcher Springer blockieren muss.
In diesem Fall ist es der Springer, den man intuitiv eher nicht nehmen würde - eine schöne Überraschung also.

CCET086:



Grüße

Frank
Parent - - By Peter Martan Date 2025-06-17 11:16 Edited 2025-06-17 11:29 Upvotes 1
Frank Karger schrieb:

Daher fand ich z.B. folgende Stellung interessant, wo nicht klar ist, welcher Springer blockieren muss.
In diesem Fall ist es der Springer, den man intuitiv eher nicht nehmen würde - eine schöne Überraschung also.

CCET086:

8/6k1/8/1K1N4/2p5/8/8/3N4 w - - 0 1


Ok., Frank, und jetzt zeig' mal bitte Output von einer Engine deiner Wahl mit beliebig großer Hardware- Rechenzeit (natürlich mit leerem Hash gestartet) zu dieser Stellung, wenn die Engine keinerlei tbs- Unterstützung verwendet, vorzugsweise gleich mit MultiPV=2, damit man sieht, dass die Engine, die hier eine 50-50 Chance hat (die beiden Züge, die dir auch intuitiv als die wahrscheinlichsten vorkommen, werden ja vermutlich bei den meisten Engine, die hier überhaupt so etwas wie "Einsicht" gewinnen, die beiden einzigen Kandidaten sein, die Chancen haben, gewählt zu werden) den einen oder den anderen der beiden Kandidaten nach oben bringen wird im Output, auch andere Gründe als puren Zufall dafür hat, gerade den einen und nicht gerade den anderen zu wählen

Ich wiederhole mich in der menschlichen Beurteilung dieser Stellung(en), man kann sie (leicht) interessant und "schön" genug finden, über sie mit und ohne Engine- Unterstützung zu grübeln, dass der bm eine DTZ von 99 und der nächst beste cursed win eine von 101, das wirst du nur mit sehr viel Forward- Backward (wenn überhaupt "beweisend" möglich, sodass das eine und das andere die komplette HV mit der besten DTZ im Hash und im Output bleibt bis zur Ausgangsstellung) herausfinden oder halt mit den entsprechenden Tablebases, zumindest Syzygys, die dir die DTZ anzeigen, besser noch mit Nalimovs, mit denen du auch das Verhältnis der Varianten bis zum Rücksetzen des Zugzählers in der Gesamtvariante bis zum Matt. DTM ist hier übrigens für S5c3 54 und für S1c3 55, das ist interessant und irgendwie witzig, es hat nur nichts damit zu tun, was man Engines in einer single best move- Suite vorsetzen kann und soll, wenn man sich relevante Resultate davon erwartet.
Ceterum censeo...

Übrigens, nur weil du hier auch immer noch (was ich übrigens gut verstehe, nachdem du dir soviel Arbeit damit gemacht hast) die Stellungen verteidigst, kam von mir hier

https://talkchess.com/viewtopic.php?p=980333#p980333

auch noch was.
Parent - - By Frank Karger Date 2025-06-17 11:26
Hallo Peter,

kann ich gerne machen, wenn mal wieder Kapazitäten frei werden...

Verstehe ich Dich richtig, dass Du sagen willst: ohne TB geht das gar nicht?

Also zum einen: der Test soll ja eine 'Challenge' sein, also schön schwer.
Daher sind (zumindest einige) harte Nüsse gewünscht!

Meine Erfahrung mit den Engines zeigt aber, dass sie das durchaus packen können.
Ich lasse mal ein paar Kandidaten laufen und wir sehen, was passiert.

Für den Fall des Scheiterns der Engines bin ich aber keineswegs unzufrieden (s.o.).
Es wäre ja auch schön, wenn einige Langzeitnüsse enthalten sind und nicht
schon die nächste Top-Engine alles löst.

Parent - - By Peter Martan Date 2025-06-17 11:41 Edited 2025-06-17 11:50
Frank Karger schrieb:

Verstehe ich Dich richtig, dass Du sagen willst: ohne TB geht das gar nicht?

Mir scheint, dass du mich schön langsam wirklich zu verstehen beginnst

Zitat:

Für den Fall des Scheiterns der Engines bin ich aber keineswegs unzufrieden (s.o.).
Es wäre ja auch schön, wenn einige Langzeitnüsse enthalten sind und nicht
schon die nächste Top-Engine alles löst.

Für den Fall des Scheiterns wirst du diesen Fall in ungefähr der Hälfte der Fälle guter Engines bei dieser Stellung nicht erkennen, Frank, weil die Hälfte bei diesen beiden nur durch 2 Plies von insgesamt 50 durchzurechnenden Zügen der richtige zufällig gewählte sein wird und in der anderen Hälfte der falsche, die Gründe, aus denen das so ist, werden für jede Engine mit Standrechnen allein und ohne tbs in beiden Fällen die falschen sein, es wird jeweils der eine Zug ebenso (oder sehr ähnlich) bewertet werden, wie der andere. Und das auch in den (selteneren, was ich bisher so probiert habe mit ähnlichen dieser Stellungen) Fällen, dass beide Kandidaten als gewinnend bewertet werden, das ist dann nämlich auch automatisch in ebenso 50% der beiden Lösungen eine falsche Eval.

Ich hab' mal nur kurz (20 Minuten) Huntsman im MultiPV=2- Modus daran rechnen lassen, schau:

8/6k1/8/1K1N4/2p5/8/8/3N4 w - -

Engine: The Huntsman 10 (8192 MB)
von the Stockfish developers (see AUTHORS f

77     20:12  +1.14    1.S5c3 Kf6 2.Kc5 Ke6 3.Kd4 Kf5 4.Kd5 Kf4
                       5.Ke6 Kg4 6.Ke5 Kg5 7.Se3 Kg6 8.Sed5 Kg5
                       9.Sf6 Kg6 10.Sfe4 Kg7 11.Kf4 Kf7
                       12.Kf5 Ke7 13.Sg5 Kd6 14.Kf4 (92.913.204.293) 76616

76     20:12  +1.14    1.S1c3 Kf7 2.Kc5 Ke6 3.Kd4 Kf5 4.Ke3 Ke5
                       5.Sb4 Kf5 6.Sc6 Ke6 7.Ke4 Kd6 8.Sd4 Kc5
                       9.Ke5 Kb4 10.Sde2 Kb3 11.Kd4 Kb4
                       12.Kd5 Kb3 13.Kc5 Ka3 14.Sd4 (92.913.204.293) 76616

Eine Engine mit wirklich guter Mattsuche (auf die kommt's hier natürlich ganz und gar vordergründig in erster Linie an) hat bei beiden Kandidaten eine Eval und Output- Line, die bei so wenig Material mehr für Remis als für Gewinn spricht. Huntsman hält das einfach in beiden Fällen für cursed wins, was es ja praktisch auch beide sind, der eine gerade noch, der andere gerade nicht mehr, die Distinktion zwischen diesen beiden Zügen ist also nicht win or draw (das ist eine mehr oder weniger willkürlich durch die 50 Züge- Regel adjudizierte Unterscheidung), sondern 2 Plies von 50, so what?
Das geht mit Forward- Backward und oder mit tbs, aber anders nicht, period.

Und das Schlimmere, als dass die Stellung einfach (unter praktikablen Hardware- TC- Bedingungen) zu schwer ist, das wirklich Schlimme (in Hinblick auf Verwendung in einer solchen Suite) ist, dass sie eine zu große (ich würde von ca. 50% ausgehen) Wahrscheinlickeit hat, zufällig richtig gelöst zu werden und das aber jedenfalls ziemlich sicher aus den genau falschen Gründen, weil sie die Engine eben nicht von einem einzelnen nächst besseren bzw. schlechteren Zug unterscheiden kann. Das sieht man daran, dass beide Züge fälschlich als remis bewertet werden. Ein lässlicher Fehler von der Engine (mir ist es ja zunächst, nur die DTM betrachtend) selbst so gegangen, aber ein GAU für das Resultat, dass dann bei der Suite herauskommt.
Das sind keine single best move in dem Sinn, wie er praktisch für Testsuiten gilt, weil der best move nicht gut genug von den nächst schlechteren Kandidaten unterscheidbar ist, die somit durchaus ähnliche Chancen haben, zufällig gewählt zu werden (von Engines ohne tbs- Unterstützung, für Menschen ja auch nicht, nur so am Rande auch das noch einmal, "schön" und "schön schwer" sind hier auch für Menschen keine Kriterien, die die Stellung lösbar machten ohne tbs, oder traust du ernsthaft zu, du würdest das selbst ohne Engines und ohne tbs sagen können, welcher der beiden Züge hier gerade noch unter den 50 Zügen bleibt?)
Ceterum censeo wenigstens noch das eine Mal...
Parent - - By Max Siegfried Date 2025-06-17 11:50
384 Kerne sind eine praktikable Hardware.
Wer zu wenig Power hat, soll sich mehr Power kaufen oder sich mit schlechten Ergebnissen abfinden.
Parent - By Peter Martan Date 2025-06-17 11:59 Upvotes 3
Halt dich bitte endlich wenigstens du mit diesem deinem ständig selben Sch... raus, danke

Aber wenn du schon mal wieder da bist, vielleicht kapierst du bei der Gelegenheit auch endlich mal, dass "diese und jene Hardware- Software- Kombi löst diese oder jene Stellung nicht", nicht das einzig relevante Kriterium ist, ob die Stellung für eine Suite passt.

Ich kann dir jederzeit nach wie vor beliebig viele komponierte Problemschach- Stellungen zeigen, die praktisch (aus den richtigen Gründen) unlösbar in vernünftiger Hardware- TC sind, für praktisch alle auch noch zu etwas anderem als dem Lösen genau der einen Stellung (siehe Engine Patzer und die Behting- Studie schon in grauer Vorzeit) programmierten Engines.

Diese super-über-drüber-schweren Stellungen werden dann selbst mit 7Steinern auf deiner Lieblings- Apple- Hardware von deinen Lieblingsengines alle nicht gelöst, du hast den Rechner ein paar Stunden laufen lassen, um dann sagen zu können, jöö, jaa, jetzt bin ich endlich mit dem Ergebnis meiner Suite zufrieden!
0 Lösungen von Engine A, 0 Lösungen von Engine B und 1 (zufällig, ist ja aber egal) von Engine C, man sieht völlig eindeutig (im doppelten Wortsinn), dass Engin C viel besser ist. Übrigens würden für diese deine Traum- Ergebnisse auch jeweils 3 Stellungen für 3 Engines reichen, um diesen deinen statistischen Anforderungen genügende Resutate zu bekommen
Parent - - By Frank Karger Date 2025-06-17 12:01
Peter Martan schrieb:

Frank Karger schrieb:

Verstehe ich Dich richtig, dass Du sagen willst: ohne TB geht das gar nicht?

Mir scheint, dass du mich schön langsam wirklich zu verstehen beginnst



Hallo Peter,

nur kurz dazu, später mehr...

Wir kennen uns ja nicht persönlich, daher kann es ja sein, dass Du so einen Humor hast.
Allerdings kann man das leicht als despektierlich verstehen.

Mein Selbstvertrauen bezüglich 'Verstehen' ist nicht winzig (vielleicht kennst Du Teile meines Lebenslaufes).
Und Du kannst gar nicht wissen, was ich zuvor schon alles verstanden habe und verstehe.

Ich hoffe, wir können weiterhin unseren bisherigen freundlichen Umgangston wahren.

Freundliche Grüße

Frank
Parent - By Peter Martan Date 2025-06-17 12:15 Edited 2025-06-17 12:42
Frank Karger schrieb:

Peter Martan schrieb:

Frank Karger schrieb:

Verstehe ich Dich richtig, dass Du sagen willst: ohne TB geht das gar nicht?

Mir scheint, dass du mich schön langsam wirklich zu verstehen beginnst


Wir kennen uns ja nicht persönlich, daher kann es ja sein, dass Du so einen Humor hast.
Allerdings kann man das leicht als despektierlich verstehen.

Würdest du mich, wenn schon nicht persönlich, so doch wenigstens ein bisschen aus den Foren kennen und dem, was ich da so alles schreibe, wüsstest du, dass es mehr Humor (ist, wenn man trotzdem lacht) als fehlender Respekt war (vor dir, nicht einmal vor der Arbeit, die du dir gemacht hast, fehlt er mir, der Respekt, was du anscheinend trotz allem immer noch nicht verstanden hast: hätte ich vor dem, was du da so gemacht hast und schreibst, keinen Respekt, würde ich gar nichts dazu schreiben und schon gar nicht so viel), der mich so antworten ließ, wie ich's tat.

Versteh's also bitte nicht einfach als despektierlich, wenn es das trotz allen meinen Versuchen, es genau als einfach despektierlich zu beantworten, für dich despektierlich ist,  hast du, verzeih, einfach immer noch gar nichts verstanden von meinen Postings dazu, oder du bist für ein Forum wie dieses hier zu dünnhäutig.
Sorry, aber zum Thema Respekt und Humor sollte man, wenn man gefragt wird, ja ruhig auch ein bisschen was dazu sagen, um wenn schon nicht persönlich bekannt zu werden, so doch wenigstens nicht allzu unpersönlich und unbekannt zu bleiben.
Zitat:

Mein Selbstvertrauen bezüglich 'Verstehen' ist nicht winzig (vielleicht kennst Du Teile meines Lebenslaufes).
Und Du kannst gar nicht wissen, was ich zuvor schon alles verstanden habe und verstehe.

Doch, eben weil ich schon dieses und jenes (computer-) schachlich von dir vorwiegend aus dem Talkchess gelesen habe und dich und dein Urteil vor allem schachlich zu würdigen weiß, was dein Verständnis (ich würde vermuten hauptsächlich deine Verständnisbereitschaft) dessen angeht, was ich über Teststellungen im Zusammenhang mit der zweiten Hälfte deiner 160 schrieb, habe ich leider immer noch nicht erkennen können aus deinen Antworten, dass du die wesentlichen Einwände gegen die tbs- Stellungen ohne tbs- Verwendung (natürlich auch nicht mithilfe von tbs- Verwendung) in einer automatisch zu adjudizierenden Suite so richtig verstanden hast. Sorry, hätte ich das Gefühl gehabt, du verstehst (endlich) meinen wesentliche Punkt, schon bevor du schriebst
Frank Karger schrieb:

Verstehe ich Dich richtig, dass Du sagen willst: ohne TB geht das gar nicht?

was ja auch immer noch eine Frage war, es war mich halt nicht gleich (ganz) klar, dass es eine rein rhetorische hätte sein sollen, daher meine halblustige Antwort (siehe Smiley), hätte ich also schon vor diesem deutlichen Hinweis darauf, dass wir über dasselbe Thema schrieben, aufgehört, es dir noch und noch einmal so zu erklären, wie ich es meinte.
Zitat:

Ich hoffe, wir können weiterhin unseren bisherigen freundlichen Umgangston wahren.

An mir soll's nicht liegen, Frank, lag's aber auch bis hierher meiner Meinung nach nicht


Edit: Nach nunmehr eineinhalb Stunde (ich hab' vergessen, abzudrehen), sieht's Huntsman immer noch ähnlich wie nach 20 Minuten:

8/6k1/8/1K1N4/2p5/8/8/3N4 w - -

Engine: The Huntsman 10 (8192 MB)
von the Stockfish developers (see AUTHORS f

80     51:34  +1.14    1.S5c3 Kf6 2.Kc5 Ke6 3.Kd4 Kd6 4.Se3 Ke6
                       5.Ke4 Kd6 6.Kf4 Kc5 7.Sc2 Kd6 8.Kf5 Kd7
                       9.Ke5 Ke7 10.Sd4 Kd7 11.Sf5 Kc6
                       12.Sd6 Kc5 13.Sde4+ Kb4 14.Sd5+ (233.855.474.003) 75567

79     51:34  +1.14    1.S1c3 Kf7 2.Kc5 Ke6 3.Kd4 Kf5 4.Ke3 Ke5
                       5.Sb4 Kf5 6.Sc6 Ke6 7.Ke4 Kf6 8.Sd4 Kg5
                       9.Ke5 Kg4 10.Sde2 Kg5 11.Sc1 Kg4
                       12.Ke4 Kg5 13.Kf3 Kf5 14.Ke2 (233.855.474.003) 75567
Parent - - By Frank Karger Date 2025-06-17 12:09
Zum zufälligen Lösen:

Testsuites (epd) sind von ihrer Natur her von diesem Problem stets betroffen,
denn sie  sind im Prinzip Multiple Choice - Aufgaben.

Die Wahl dieser Position besteht ja gerade darin, dass der Lösungszug
eher nicht zufällig gefunden wird (im Gegensatz zu anderen Kandidaten),
weil dezentralisierend.

Das Zufallsproblem wird auch durch die Wahl eine Testsuite statt einer
einzelnen Stellung verringert:
es mag schon sein, dass Positionen zufällig gelöst werden, es wird
aber exponentiell unwahrscheinlicher mit der Anzahl an Testpositionen
auf diese Weise ein gutes Testresultat zu erzielen.

Eine weitere Methode besteht schlicht darin den Test mehrfach durchzuführen
und die mittlere Punktzahl zu bestimmen.
Das konvergiert nämlich gegen Wahrheit.

Es gibt also diverse Lösungsansätze für das 'Zufallsproblem'
Parent - - By Peter Martan Date 2025-06-17 12:42 Edited 2025-06-17 12:46 Upvotes 1
Frank Karger schrieb:

Die Wahl dieser Position besteht ja gerade darin, dass der Lösungszug
eher nicht zufällig gefunden wird (im Gegensatz zu anderen Kandidaten),

Wie viele Beispiele an Output (ich hab das vorletzte Antwortposting an dich noch einmal um Huntsman- Output nach ca. eineinhalb Stunden editiert, nur damit das jetzt nicht übersiehst, weil ich wieder so lange herumeditiert habe) soll ich dir noch bringen, damit diu siehst, dass genau der Punkt, dass bei solchen Stellungen wie den letzten 80 der 160, ganz besonders bei solchen wie der einen Nr.6, die dir so gefällt, "dass der Lösungszug eher nicht zufällig gefunden wird, ist hier eben genau falsch.
Nicht ungefähr und statistisch und vielleicht mal schon und mal nicht, sondern einfach nur, was die eine Stellung angeht, falsch.
Natürlich kannst du das durch entsprechend viele bessere Stellungen in Summe weniger schlimm machen, besser wird's an Aussagekraft und Relevanz, egal wieviele noch so gute oder noch so schlechte andere Stellugen und durch noch so viele runs nur durch eine Maßnahme: die eine Stellung (diejenigen Stellungen, bei denen die Wahrscheinlichkeit dass sie nicht nur zufällig gelöst werden sondern aus den schachlich richtigen Gründen) aus der Suite rauszunehmen.

Sorry, ist halt so, eine einzige Ausnahme ließe ich eventuell noch gelten: nur solche Stellungen wie die letzten 80 allein, von mir aus noch beliebig viel mehr genau dieser Art und diese für sich allein stehende Suite mit genau den Engines, die dazu passen und (praktisch) unendlich langer Hardware- TC (praktisch unendlich oft).
Aber jetzt mal Hand aufs Herz, Frank, hieltest du die Ergebnisse, die du damit bekämst, auch noch für irgendwie relevant, und wenn selbst das von mir aus auch noch, die Interessen beim Schach können ja wirklich so verschieden und unterschiedlich sein, wie die Menschen, die Schach spielen sind, würdest du dir den "Erkenntnisgewinn", den du dann duch diese Stellungen bekämest, nicht auch auf andere Art als die einer unter praktikablen Hardware- TC- Bedingungen schneller und besser vorstellen können (mit Forward- Backward z.B.)?
Und würdest die Erkenntnisse, die du so gewinnst, mit irgendwelchen anderen schachlichen Erkenntnissen, die durch Stellungstesten gewinnen kannst, vergleichbar finden?
Und wenn du (du musst es ja auch gar nicht öffentlich zugeben ) vielleicht auch zu dem Schluss kommst, diese zweiten 80 gehören nicht mit anderen gemeinsam in eine Suite, wäre das nicht auch schon allein deshalb einfach nur logisch, weil die Aussage der Nummern 80-160 durch jede andere Art von Teststellungen als genau solche, durch jede andere Art von Teststellungen, mit denen du sie gemeinsam in einer Suite hast, nur verwässert, verwischt, überlagert wird?
Das ist ja nicht einmal nur oder nicht einmal in erster Linie ein statistisches Problem, das ist ein rein schachliches, wenn Stellungstests Sinn haben, dann doch den, die Antworten, die man bekommen will, auf möglichst genau durch die Art und Weise (den Stellungstyp, die Hardware- TC, bei Engines auch noch den Pool, den man damit testen will) an dafür ausgewählten Stellungen, also durch möglichst genau umschriebene Fragestellung bekommen, und nicht dadurch, dass man willkürlich (wie's ja bekanntlich die Unsitte schlechthin ist, die das Stellungstestens so in Misskredit gebracht hat, und wie's bestimmte "Autoren" von solchen "Suiten" immer wieder machen, ich nenne keine Namen, wir wissen eh alle, wer beispielsweise gemeint ist ) beliebige Stellungen mit beliebiger Hardware- TC laufen lässt?
Just my 200 cents more again
Parent - By Frank Karger Date 2025-06-18 15:49
Hallo Peter,

wie gesagt, sprichst Du ein prinzipielles Problem an, das für jede Testsuite gilt.

Die 86 ist eine von mehreren, die mir besonders gut gefällt, und sie stützt meinen Punkt ganz gut,
da der Lösungszug eher nicht von den Engines gespielt wird, weil es eine auf den ersten Blick bessere Alternative gibt.

Natürlich und zum Glück sind auch andere Arten des Erkenntnisgewinns möglich,
aber stellungsbasierte Regressionstests sind an Effizienz kaum zu schlagen.
Und zu deren Aufbau kann man sich z.B. an CCET bedienen.

Die Stellungen 80-160 gehören derzeit m.E. auf jeden Fall mit in diese Suite,
u.a. weil sich derzeit ohne sie - basierend auf dem bereits veröffentlichten Material - keine genügend
fordernde und vielseitige Testsuite aufbauen lässt.
Neben diversen weiteren Vorteilen
(perfekte Information, genau ein Lösungszug, mindestens potentiell neue Motive...).
Es gibt einfach nicht genügend Material, besonders nicht aus menschlichen Partien.
Und ich habe sehr viel gesichtet...
Daher diese Innovation, die beginnt, einen bislang nahezu ungehobenen Schatz zu heben.

Grüße

Frank
Parent - - By Frank Karger Date 2025-06-18 15:30
Hallo Peter,

die Stellung CCET086



ist eine der sehr schweren und der Test muss ja auch solche beinhalten, wenn er 'Challenging' sein soll.

Daher haben die Engines ganz schön zu knabbern.
Relativ gut scheint damit aber z.B. Crystal 7 zurechtzukommen.

Testbedingungen:
Engine: Crystal 7
Hardware: c3d-standard-30 (30 vCPUs, 120 GB, 15 Core)
10 Durchläufe (kompletter Neustart des Prozesses, also leerer Hash)
uci Kommandos:
setoption name Hash value 100000
setoption name Threads value 30
setoption name MultiPV value 2
position fen 8/6k1/8/1K1N4/2p5/8/8/3N4 w - - 0 1
go movetime 300000

Resultat:
7 aus 10: S5c3 wird als bester Zug mit Mattansage erkannt
2 aus 10: es wird kein Matt gefunden und S5c3 und S1c3 sind gleich bewertet
1 aus 10: S1c3 wird als bester Zug mit Mattansage erkannt

Beispiel:
info depth 65 seldepth 115 multipv 1 score mate 58 nodes 21600180960 nps 72000363 hashfull 15 tbhits 0 time 300001 pv d5c3 g7f6 b5c5 f6e6 c5d4 e6d6 d1e3 d6e6 d4e4 e6d6 e4f5 d6c5 e3c2 c5d6 f5f6 d6d7 f6e5 d7e7 c2d4 e7d7 d4f5 d7c6 e5d4 c6c7 d4c5 c7d7 c5d5 d7e8 d5e6 e8f8 f5d6 f8g7 e6f5 g7h6 d6e8 h6h7 f5g5 h7g8 g5f6 g8h7 e8d6 h7h6 d6f7 h6h5 f6f5 h5h4 f7h6 h4h3 f5f4 h3h4 h6g4 h4h3 g4f6 h3h4 f4f5 h4h3 f5e4 h3g3 e4e3 g3h3 e3f3 h3h4 f3f4 h4h3 f6h5 h3h2 f4f3 h2h3 h5g7 h3h2 g7f5 h2h3 f3f4 h3g2 f5e3 g2f2 e3c2 f2g2 c3e4 g2h3 c2e3 c4c3 e3c2 h3h2 e4g3 h2g2 g3f5 g2f2 f5d4 f2g2 f4g4 g2f2 g4h3 f2g1 h3g3 g1f1 g3f3 f1g1 d4e2 g1f1 e2f4 f1g1 f3e2 g1h2 e2f2 h2h1 f2g3 h1g1 c2e3 c3c2 f4e2 g1h1 e3g4 c2c1r g4f2
           info depth 64 seldepth 117 multipv 2 score mate 59 nodes 21600180960 nps 72000363 hashfull 15 tbhits 0 time 300001 pv d1c3 g7f7 b5b6 f7e6 b6c5 e6e5 d5e3 e5e6 c5d4 e6d6 d4e4 d6e6 e3d5 e6d6 e4f5 d6c6 f5e6 c6c5 e6e5 c5c6 d5e3 c6d7 e3f5 d7c6 e5d4 c6c7 d4c5 c7d7 c5d5 d7e8 d5e6 e8f8 f5d6 f8g7 e6f5 g7h6 d6e8 h6h7 f5g5 h7g8 g5f6 g8h7 e8d6 h7h6 d6f7 h6h5 f6f5 h5h4 f7h6 h4h3 f5f4 h3h4 h6g4 h4h3 g4f6 h3h4 f4f5 h4h3 f5e4 h3g3 e4e3 g3h3 e3f3 h3h4 f3f4 h4h3 f6h5 h3h2 f4f3 h2h3 h5g7 h3h2 g7f5 h2h3 f3f4 h3g2 f5e3 g2f2 e3c2 f2g2 c3e4 g2h3 c2e3 c4c3 e3c2 h3h2 e4g3 h2g2 g3f5 g2f2 f5d4 f2g2 f4g4 g2f2 g4h3 f2g1 h3g3 g1f1 g3f3 f1g1 d4e2 g1f1 e2f4 f1g1 f3e2 g1h2 e2f2 h2h1 f2g3 h1g1 c2e3 c3c2 f4e2 g1h1 e3g4 c2c1r g4f2
           bestmove d5c3 ponder g7f6

Folgerung:
Die Lösung kann gefunden werden und zwar
auf moderater Hardware in moderater Zeit (Teilnehmer des offenen Rankings haben schon mehr CPU-Power eingesetzt).

Eine Differenzierung des Lösungszuges ist schon gut erkennbar
und wird sich mit zunehmender Bedenkzeit / CPU-Power noch verstärken.

Grüße

Frank
Up Topic Hauptforen / CSS-Forum / CCET - eine neue Testsuite
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill