Frank Karger schrieb:
Die Positionen des CCET sind ja allesamt single best move positions und ich finde schon,
dass man Crystal 7, wenn es im Gegensatz zu anderen Programmen die Lösung findet, dafür belohnen muss.
Crystal 7 findet aber die Lösung nicht, nicht wirklich, nicht nach dem, was ich unter "Lösung" und unter "finden" verstehe

Es findet sie bestenfalls etwas weniger zufällig, aber immer noch zufällig, weil es beide MultPV=2- Varianten deines Outputs als wins bewertet. Wenn man der zweiten bis zum 5. Zug folgt, ich habe sie ja mit der ersten gemeinsam in einer .pgn gezeigt, ist beim 5...Kd6? der Grund dafür, dass es sich mit der DTZ immer noch innerhalb der 50 Züge ausgeht, siehe:
Zitat:
Das 5...Kd6(?), das Crystal da nach dem 1.S1c3(?) im Output hat, macht den cursed win zu einem echten, wenn man das dem GUI zu Hause nicht glaubt, bzw. die Anzeige noch nicht schlüssig findet, kann man es es sich ja noch mit dem lichess- Analysebrett anschauen, 5...Kf6! hätte das Remis gehalten, 5...Kd6? verschenkt's.
Also, beide Varianten, die Crystal ausgibt, haben zwar eine DTM als Eval, das sagt ja aber eben nichts darüber aus, ob sich das Matt in 50 Zügen ausgeht oder nicht, und tatsächlich würden beide Variaten von Crystal gewinnen, das aber nur, weil er in der längeren beim 5. Zug einen für die schwarze Seite enscheidenden Fehler hat.
Während viele andere Programm (und Crystal auch so lange, bis er eine DTM- Eval in den Output bekommt), der Meinung sind, beide Kandidatenzüge wären Remis, (eigentlich weiß man, wenn's zum #inx wechselt, auch noch nicht, wie die Engine das in Hinblick auf die DTZ sieht) meint Crystal seinen Outupt- Lines nach, es seien 2 Weiß gewinnt- Züge.
Zitat:
Genauso wie andere Programme hier recht zuverlässig keinen Punkt bekommen, weil sie eben keinen Gewinnweg finden.
Leider ist auch das ein frommer Wunsch des Testers, der nur die Punkte zählt und nicht schaut, woher sie kommen. Ich sage (und habe immerhin alle von SF dev mit 5'/Stellung "gelösten" tbs- Stellungen den Output im Shredder.dmp angeschaut, die hatten alle keine Gewinn-Eval, haben aber trotzdem den richtigen Lösungszug oben gehabt am TC- Ende und daher auch alle einen Punkt bekommen) das Dilemma ist nicht, dass diese Stellungen von keiner Engine gelöst werden (so wär's ja korrekt beurteilt, weil keine Engine löst das aus den richtigen Gründen), das Dilemma ist, das ungefähr die Hälfte zufällig richtig und zufällig falsch wählen und daher die Hälfte einen Punkt bekommen und die andere Hälfte nicht.
Hier rede ich jetzt von den Stellungen, bei denen 2 sehr viel wahrscheinlicher in die engere Auswahl kommen als alle anderen und denjenigen Runs von Engines, die mit für sie passender Hardware- Zeit wenigstens irgendwie und ungefähr die Spreu vom Weizen sondern, und sich dann zwischen den 2 wahrscheinlichsten ungefähr gleichwertigen zufällig für den einen oder anderen entscheiden.
Darum, das zu erkennen, kommst du nicht herum, Frank, 2 plies von 100 sind einfach zu wenig Unterschied für single best move- Stellungen, nicht im ganz allgemeinen schachlichen Sinn, wenn der eine der beiden Züge schneller zum 100- Züge- Ziel führend gerade noch gewinnt und der andere gerade nicht mehr, dann ist allgemein schachlich, die 50- Züge- Regel beachtend, der eine ein winner und der andere nicht, da ist der bessere sogar ein echter game changer, im Engine- Test- Sinn, im Sinne einer valid single best move engine test position ist dieser Unterschied zu klein, das sind einfach keine single best move- Stellungen im Sinn einer solchen Suite, bei der nur der eine von beiden als gelöst gezählt werden, period.
Zitat:
Besten Dank also für Deine Anregungen

Immer wieder gerne, Frank

Zitat:
P.S.: Wie schon von Dir angemerkt haben wir dieses Thema nun ziemlich gründlich besprochen.
Haben wir, aber wenn du willst, dass ich Ruhe gebe, musst du deinerseits aufhören, das, was ich mitterweile hinlänglich anhand von noch und noch Output (auch deinem von Crystal) bewiesen habe, als meine Resultate in Frage zu stellen in Hinblick auf ihre Richtigkeit und Aussage.
Die sind mindestens so schlüssig wie deine, und ich spreche jetzt nicht von Suiten, die ich lieber verwende als deine, sondern von dem, was ich zu deiner herausgefunden habe.
Ich für mein Teil hab' schon länger aufgehört, das zu hinterfragen, was du an Ergebnissen bekommst, mein Sendungsbewusstsein endet immer spätestens dort, wo ich das Gefühl habe die Leute wissen, was sie tun, oder es ist ihnen egal bzw. sie wollen's nicht genauer wissen und schon gar nicht so genau wie ich, haben ihren Spaß damit und schaden niemandem, indem sie Irrtümer verbreiten. Besser als so manche andere "Testsuite", die so durch die Foren geistert, ist die CCET selbst mit der Hälfte an rein zufällig gelösten immer noch, bei deiner weiß man wenigstens, woher das übergroße statistische Rauschen kommt. Und die erste Hälfte (1-80) passt mir recht gut zu "meinen" 128 "LTC"- Stellungen, kann man durchaus mit 30" und 30 Threads oder 6 Threads und 1"/Stellung verwenden, bringt halt nicht viel mehr Aufschluss als die 128 allein (die haben mit 30" immer noch statistisch mehr Relevanz, weil ein besseres Verhältnis von Lösungszahlen zu error bars bei einem nicht allzu selektiven Engine- Mix, vor allem, wenn man den Gesamt- Hardwarezeitaufwand betrachtet, eine größere Liste damit zu führen) und eine reine anti engine puzzle suite wird das so dann erst recht, sind die 128 ja auch schon mehr das (anti engine), als game playing- ähnlich im Ergebnis, mit den weiteren 80 aus praktisch ausschließlich komponierten Problemschachstellungen bestehenden, wird's erst recht im Ergebnis dem eng-eng-match von Ranglisten noch stärker entgegengesetzt als vergleichbar.
So weit, dass es mich aufregen würde, wenn jemand mit eigenen Stellungstests andere Ergebnissen hat als ich, ich aber weiß, woran das liegt und daher aufhören kann, mich mit diesen seinen oder ihren Ergebnissen weiter zu beschäftigen, und mich auch niemand davon überzeugen will, seine oder ihrer Ergebnisse seien (für mich oder die Allgemeinheit) relevanter als meine, so weit bin ich schon lange nicht mehr aufregbar. Dass gerade beim Stellungstesten jeder auf die eigene Art testen soll, um wenigstens zu wissen, dass er diese Statistiken selbst gefälscht hat (den Spruch, dass man nur solchen Statistiken trauen darf, den kennst du eh auch sicher) das sage ich sogar ausdrücklich bei allen möglichen derartigen Gelegenheiten immer wieder. Überhaupt wird ein Gutteil dessen, was ich da immer wieder und immer mehr zu diesem Thema in Foren schreibe, nur deshalb immer mehr, weil ich das, was ich schon vor Jahren, mittlerweile bald Jahrzehnten dazu schrieb, auch immer wieder wiederholen muss, weil's anscheinend immer noch nicht so richtig zur Kenntnis genommen worden ist