Frage zu Engine Testsuites (HTC 114 etc.)

By Reinhold Stibi Date 2024-11-02 15:16 Edited 2024-11-02 15:36

Die Engine zeigt den besten Zug von der Bewertung an. Andere Züge hätten eine schlechtere Bewertung.

Natürlich kann nach 10 Sek. bei einer schwierigen Stellung nicht die korrekte Bewertung stehen.

Das ist doch beim menschlichen Schach ähnlich; da kann man doch oft auch nicht sofort die richtige Bewertung
einschätzen aber dann nach weiteren Zügen.

Wichtig ist doch dass man den Anfangszug findet; für die weiteren Züge tut sich der Mensch und die Engine
dann leichter.

Das dürfte bei deiner Engine doch auch so sein.

Neue Partie Line 0.0
1k6/3p4/1B6/4Pp1p/1p5R/1p4p1/pP3n2/K6n w - - 0 1

Analysis by Rems M-091024-avx2 nnue: mit Ryzen 8945hs   schneller 8 Kerner
   ohne TBs

1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Kb7 4.Lxg3 Kc6 5.Lh4 Kd5 6.Lf2 Ke4 7.Le1 Kf3 8.Lf2 e5 9.Lh4 Kf4 10.Lg3+ Kg4 11.Lf2 e4 12.Le1 Kf4 13.Lh4 e3 14.Lg5+ Ke4 15.Lf4 Kd3
Schwarz steht auf Gewinn: -+ (-3.75) Tiefe: 22/45   00:00:05 61713kN
1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Kb7 4.Lxg3 Kc6 5.Lh4 Kd5 6.Lf2 Ke4 7.Le1 Kf3 8.Lf2 e5 9.Lh4 Kf4 10.Lg3+ Kg4 11.Lf2 e4 12.Le1 Kf4 13.Lh4 e3 14.Lg5+ Ke4 15.Lf4 Kd3
Schwarz steht auf Gewinn: -+ (-3.75) Tiefe: 22/45   00:00:05 70034kN

1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Kb7 4.Lxg3 Kc6 5.Lf2 e5 6.Lh4 Kd5 7.Lf2 Ke4 8.Le1 Kf3 9.Lg3 Ke3 10.Le1 f4 11.Lf2+ Kf3 12.Lh4 Ke2 13.Le1 e4 14.Lh4 e3 15.Le1 Kf3 16.Lh4 Kg2 17.Lf2 f3 18.Lh4 Kh3 19.Lf2 Kg4 20.Lg3 Kf5 21.Le1
Schwarz steht auf Gewinn: -+ (-3.53) Tiefe: 33/57   00:01:25 1063MN

Das ist eine sehr schwierige und tiefgreifende Stellung; glaube nicht dass eine andere Engine innerhalb von 5 Min. die richtige
Bewertung abgibt.

By Max Siegfried Date 2024-11-02 15:24

Übrigens verhält es sich so, dass ich gerne immer den besten Zug von der Engine haben möchte, auch wenn die Bewertung genauso schlecht ausfällt wie bei Stockfish.
Zweitens verhält es sich so, dass sehr sehr starke Spieler deutlich mehr mit dem besten Zug anfangen können als schwache Spieler, auch wenn die Bewertung nicht korrekt ist.

By Thomas Zipproth Date 2024-11-02 15:59

Max Siegfried schrieb:

Dagegen läßt sich nichts sagen.

Es ging mir mehr um den konkreten Anwendungsfall:
Ich lasse eine Partie von mir analysieren, 30s pro Zug.
Das Ergebnis ist z.B. das ab Zug 30 bis zum letzten Zug jede Stellung für mich verloren ist.
In der Regel findet die Engine in jeder Stellung sowieso einen besseren Zug als den, den ich gespielt habe.

Nun lässt sich schwer überprüfen, ob vielleicht doch in irgendeiner Stellung der Engine Zug mit dem Verlust Score doch zu einem Remis führt.
Auch GM's in den bekannten Youtube videos mit der Score Bar an der Brettseite nehmen ein Engine Ergebnis in der Regel einfach so hin, ohne es weiter zu hinterfragen.

By Thomas Zipproth Date 2024-11-02 15:36 Edited 2024-11-02 15:44

Reinhold Stibi schrieb:

Natürlich kann nach 10 Sek. bei einer schwierigen Stellung nicht die optimale Bewertung stehen aber nach
längerer Bedenkzeit dann schon.

Zumindest in diesem Fall nicht.
"Rems M 09102" bleibt auch nach langer Rechenzeit (12 Cores, 16 GB Hash, 20 Minuten) bei dieser Bewertung.

Damit bleibt es bei meiner Einschätzung:
Der korrekte Zug alleine ohne den korrekten Score (z.B. < 1.0 oder noch besser 0.0) ist keine Lösung.
Der Score des Lösungszuges muss ausdrücken, das es sich um einen fundamental besseren Zug als alle anderen (d.h. mit anderem Partieausgang) handelt.
Ansonsten hat man als Nutzer der Analyse Engine keinen Erkenntnisgewinn, man sieht nur, das alle Züge verlieren, einschließlich des Lösungszuges.

Addendum:
Das würde natürlich nicht gelten, wenn man die Stellungen als Startstellung einer Partie nähme.
Dann würde es im Partieausgang sichtbar, das der Zug besser ist.
(Siehe meine Ausführungen weiter unten).

By Kurt Utzinger Date 2024-11-02 15:42

Thomas Zipproth schrieb:

Reinhold Stibi schrieb:

Natürlich kann nach 10 Sek. bei einer schwierigen Stellung nicht die optimale Bewertung stehen aber nach
längerer Bedenkzeit dann schon.

Zumindest in diesem Fall nicht.
"Rems M 09102" bleibt auch nach langer Rechenzeit (12 Cores, 16 GB Hash, 20 Minuten) bei dieser Bewertung.

Damit bleibt es bei meiner Einschätzung:
Der korrekte Zug alleine ohne den korrekten Score (z.B. < 1.0 oder noch besser 0.0) ist keine Lösung.
Der Score des Lösungszuges muss ausdrücken, das es sich um einen fundamental besseren Zug als alle anderen (d.h. mit anderem Partieausgang) handelt.
Ansonsten hat man als Nutzer der Analyse Engine keinen Erkenntnisgewinn, man sieht nur, das alle Züge verlieren, einschließlich des Lösungszuges.

Dieser Meinung (fetter Teil) kann ich mich vollständig anschliessen.
Kurt

By Kurt Utzinger Date 2024-11-02 15:33 Upvotes 1

Thomas Zipproth schrieb:

Wird in den hier im Forum oft angeführten Stellungstests nur der richtige Zug ausgewertet oder auch die Bewertung?

Anlaß zu der Frage sind Anmerkungen zu "Rems M 09102" hier im Forum:

Zitat:

"Diese Analyse-Fähigkeiten dürften kaum zu überbieten sein."
"In der Analyse weit besser als Stockfish 17."

Nehmen wir die 4. Stellung von HTC114:

1k6/3p4/1B6/4Pp1p/1p5R/1p4p1/pP3n2/K6n w - - bm Rxh1; id "Hard-Talkchess-2020.007" ;

"Rems M 09102" zeigt in der Tat den korrekten Zug Rxh1 wesentlich früher als Stockfish an.
Aber mit einer Bewertung von -3.46 (!), d.h. die Engine "weiß" überhaupt nicht, das es sich hier um eine Lösung (Remis) handelt.
Der Score entspricht auch exakt dem von Stockfish, wenn dieser dann deutlich später ebenfalls diesen Zug ausgibt.

Jetzt zum Knackpunkt, dem Einsatz als Analyse Engine:

Nehmen wir an, ich lasse eine mir unbekannte Stellung, die mich interessiert, von "Rems M 09102" analysieren.
Z.b. die oben angeführte, von der ich aber nicht weiß, das es sich um einen Stellungstest mit bekannter Lösung handelt.

Und "Rems M 09102" gibt nach 10 Sekunden Rxh1 mit Score -3.46 aus.
Was bringt mir das jetzt?
Ich kann ja nicht erkennen, das es sich um eine "Lösung" handelt.
Der Zug hat wie alle anderen einen Verlust Score, nur einen nicht ganz so schlechten.

Hallo Thomas
Hier hat endlich jemand auf eine (grosse) Schwäche von automatisiereten Teststellungen hingewiesen.
Die vorliegende, sehr schwierige Stellung, ist ein gutes Beispiel dafür. Die Engine spielt zwar den besten
und richtigen Zug, aber hat noch keine Ahnung vom Remis, wie die Stellungsbewertung zeigt und auch
nach langer Zeit noch zeigen wird. Das Patt-Motiv liegt noch in weiter Ferne und ich gehe davon aus,
dass momentan keine Engine diese Aufgabe in annehmbarer Zeit und mit korrekter Bewertung lösen wird.
Ich habe neuerdings begonnen, die Tests händisch durchzuführen, natürlich ein Riesenaufwand. Und
hier bekäme auf der üblichen Vorgabezeit von 60s keine Engine einen Punkt für die Lösung. Trotz
dieser Einwände darf nicht vergessen werden, dass (fast) jede Engine diese Teststellung, wenn nach 
1.Txh1 weiter analysiert wird, korrekt bis zum Remis behandeln wird. Rems M-091024 natürlich
einiges schneller als Stockfish 17, so dass der Nutzen dieses Derivats eben doch gut spürbar ist.
Gruss
Kurt

By Thomas Zipproth Date 2024-11-02 15:42

Kurt Utzinger schrieb:

Trotz dieser Einwände darf nicht vergessen werden, dass (fast) jede Engine diese Teststellung, wenn nach
1.Txh1 weiter analysiert wird, korrekt bis zum Remis behandeln wird. Rems M-091024 natürlich
einiges schneller als Stockfish 17, so dass der Nutzen dieses Derivats eben doch gut spürbar ist.
Gruss
Kurt

Hallo Kurt,

da hast du recht.
Nur müßte man dann jede Stellung händisch weiteranalysieren, um zu diesem Ergebnis zu kommen.
Der Zug und der Score alleine reichen nicht.

Insofern wäre es vielleicht korrekter, die Stellungen einfach als Startstellungen einer Partie zu benutzen?
Das probiere ich bei Gelegenheit mal aus.

By Kurt Utzinger Date 2024-11-02 15:47

Thomas Zipproth schrieb:

Kurt Utzinger schrieb:

Hallo Thomas
Zum Glück ist die überwiegende Anzahl aller Teststellungen eindeutig. So müssten statt
114 Startstellungen nur wenige ausgespielt werden. Aber auch hier wäre der Aufwand
wohl grösser als die händische Weiteranalyse.
Gruss
Kurt

By Roland Riener Date 2024-11-02 17:57

Leider kann ich diesmal den Werdegang der Analyse nicht zeigen. Merkwürdig. Auf 0.00 kam die Engine nach ca. 12 Minuten.

Dies sagt mein 7 Jahre alter DualCore:

1k6/3p4/1B6/4Pp1p/1p5R/1p4p1/pP3n2/K6n w - - 0 1

Analysis by Crystal 6 PMT:

1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Kb7 4.Lxg3 Sf2 5.Lxf2 h4 6.Lxh4 e5 7.Lg3 e4 8.Lf4 Kc6 9.Lh6 Kd5 10.Lg5 Ke5 11.Le3 Kf6 12.Ld4+ Ke6 13.Lc5 Kd7 14.Lf2 Kc8 15.Le3 Kb7
= (0.00) Tiefe: 54/34 00:20:26 2718MN
Die Stellung ist ausgeglichen

By Peter Martan Date 2024-11-02 19:54 Edited 2024-11-02 20:39

Thomas Zipproth schrieb:

Insofern wäre es vielleicht korrekter, die Stellungen einfach als Startstellungen einer Partie zu benutzen?
Das probiere ich bei Gelegenheit mal aus.

Welche denn bitte, Thomas?
Die single best move game changers?

Wird der eine beste Zug nicht beim Ausspielen gewählt, ist das folgende Ergebnis ein rein zufälliges, wird er gefunden, kann im weiteren Verlauf immer noch von beiden Seiten gepatzt werden.
Welche Engines mit welcher Hardware- TC? Du siehst schon bei den Eröffnungsstellungen, wie ein etwas zu kleiner Vorteil einer Seite lauter einzelne Remis bringt und ein etwas zu großer lauter 1:1- Remispaare, das ist ja das Dilemma, und da willst du anstatt der Eröffnungsstellungen forciert gewonnene oder bei richtigem ersten Zug zwingende Remisstellungen für eng-eng-matches verwenden?
Ich verstehe vor allem nicht, ob du damit jetzt die Teststellungen testen willst (was von den Phobikern immer als Totschlagargument gegen Stellungstests als solche verwendet wurde, ich fand's immer schon die nobelste Aufgabe der Stellungstests, die Teststellungen damit zu testen) oder die Engines, wenn's doch mehr Letzteres sein soll, musst du ja jetzt dann erst wieder zunächst die Frage beantworten, welche Stellungen du für welche Spielstärke- Messungen nimmst.

Ja, andere als frühe Eröffnungsstellungen ausspielen zu lassen, das ist schon auch ein Idee, Frank Sanders hat z.B. mal hier eine ausgespielte Version eines Stellungstests gepostet:

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=166865#pid166865

Aber das sind die STS- Stellungen, die ja nicht single best move als Prinzip haben sondern ein Punktesystem zur Bewertung multipler Lösungen. Forciert gewonnene oder forciert zum Remis führende single best move- Stellungen ausspielen zu lassen, das ist einfach ein Widerspruch in sich. Entweder man kann das Ergebnis durch Analyse ermitteln, dann muss man's nicht mehr ausspielen lassen, oder man kann's nicht, dann ist's eben keine als single best move Teststellung verwendbare solche.
Ich bin jetzt dann wieder raus hier, die Sache scheint sich mir wieder mal mehr und mehr zum etwas unqualifzierten Stellungstest- Bashing zu entwickeln

By Thomas Zipproth Date 2024-11-02 20:48

Hallo Peter,

ich hoffe nicht, dass ich ein "unqualifziertes Stellungstest- Bashing" begangen habe.

Es ging mir darum herauszufinden, ob bei den Engine Tests der Score eine Rolle spielt.
Den Grund dafür habe ich im originalen Posting auch genau ausgeführt: die praktische Anwendung als Analyse Engine.

Den Grund, die HTC Stellungen mal testweise als Startstellungen einer Partie auszuführen, ist ein rein experimenteller.
Er hat nichts mit dem "Testen von Teststellungen" zu tun.
Z.b. könnte sich in der angeführten Stellung der richtige Zug durchaus lohnen, d.h. zum Remis der Partie führen.

Oder allgemein als Frage gestellt:
Wie ändert sich das Ergebnis, wenn bei den HTC Stellungen nicht der Zug bewertet wird, sondern das Ergebnis der daraus resultierenden Partie?
Die Frage finde ich einfach interessant, auch in der Relation zu einem UHO Stellungs Set mit gleich vielen Stellungen.

Vorraussichtlich morgen poste ich das Ergebnis.

By Peter Martan Date 2024-11-02 21:40 Edited 2024-11-02 22:05

Thomas Zipproth schrieb:

Es ging mir darum herauszufinden, ob bei den Engine Tests der Score eine Rolle spielt.

Du meinst wirklich die automatisch von einem GUI adjudizierten Suiten? Nein, natürlich nicht, dass du das nicht wusstest, konnte ich schon am Anfang des Threads, als du danach fragtest, nicht glauben und hielt es für eine rhetorische solche.

Zitat:

Den Grund, die HTC Stellungen mal testweise als Startstellungen einer Partie auszuführen, ist ein rein experimenteller.
Er hat nichts mit dem "Testen von Teststellungen" zu tun.
Z.b. könnte sich in der angeführten Stellung der richtige Zug durchaus lohnen, d.h. zum Remis der Partie führen.

Es ist als expermimenteller Ansatz, verzeih, einfach Unsinn, single best move game changers ausspielen zu lassen, in allen Fällen außer denen, bei denen es sich nicht um (durchanalysierbar und damit beweisbar forcierte) game changing single best moves handelt.
Beim Anlassfall, der richtige Zug kann sich hier nicht nur durchaus lohnen, er tut's auch sicher, dass eine Engine das Turmopfer bringt und das vom e- Bauern dann nicht mehr, das kommt bei vernünftiger TC nicht vor und damit ist dann auch schon alles gelaufen.
Und zur Analyse- Frage: zuerst verlangst du eine 0.00- Eval, unansichtig der Output- HV, was auch schon ein grundlegender Fehler der Beurteilungvon Engine- Output ist, dann kommst du durch Forward- Backward- Analyse zum Schluss, das ist ein echter single best move und game changer, weil alle anderen Züge für Weiß forciert verlieren, der eine aber forciert Remis hält und das schon über wenige Folgezüge klar macht, nach dem Opfern des e- Bauern ist die Sache schon klar, dass das Angebot des weißen Läufers, geopfert zu werden, von Schwarz schon nicht mehr angenommen werde darf, ist jedenfalls schon Beweis genug, dass es keinen Fortschritt mehr für Schwarz geben kann, weil Weiß ständig mit dem eigenen Patt droht.
Wozu willst du die Stellung jetzt noch ausspielen lassen, außer um Herauszufinden, dass der einzig richtige Zug als erster gewählt wird und damit das Remis feststeht, oder er nicht gewählt wird und damit Weiß verliert, wenn nicht Schwarz auch noch seinerseits patzt?

Zitat:

Oder allgemein als Frage gestellt:
Wie ändert sich das Ergebnis, wenn bei den HTC Stellungen nicht der Zug bewertet wird, sondern das Ergebnis der daraus resultierenden Partie?

Gar nicht, wenn dieselben Engines, die im Stellungstest in der TC die richtigen Züge finden, den auch in der jeweiligen TC im game playing wählen, nicht dann noch in der Folge patzen, und die gegnerischen ihrerseits im weiteren Verlauf auch die besten Züge finden. Nachdem das zusätzliche Zufalls- abhängige Faktoren sind, kannst du die Ergebnisse natürlich verwässern, die Fragestellung an die Engine im go infinite- mode beantwortest du mit dem Ausspielergebnis auch nicht, nicht, was die Evals angeht und nicht, was die Output- HV angeht. Das wären die Fragen, die du beim nicht ausgespielten Stellungstest beantworten wolltest, und wenn dir die Umgebungsvariablen der Suiten für die Stellungen, die dich interessieren, nicht passen, dann lass doch das automatische Ablaufen einer Suite von solchen Stellungen bitte sein, nicht mir zuliebe, sondern weil's dann natürlich nicht nur nicht übertragbare Ergebnisse bringt, sondern falsche, glaub' mir, ich weiß schon, auf wieviele verschieden Arten man mit was für Teststellungen was alles falsch machen kann beim Sammeln und Beurteilen von Suiten, gerade wenn wir über diejenigen reden, die aus single best moves bestehen (und eigenartiger Weise redet man gerade unter den Gegnern der Sache immer nur über die, wobei sie natürlich die schwierigsten sind, und natürlich müssen es lauter ausgesucht schwere Stellungen sein, damit die Wahrscheinlichkeit, dass man reproduzierbare und statistisch irgendwie belastbare Ergebnisse bekommt, nur ja zusätzlich möglichst klein wird, das alles macht man dann so, wenn man nicht weiß, was man tut, oder beweisen will, auf was für Arten es schief gehen kann, aber Beweis, dass es bei vernünftiger Durchführung nicht auch vernünftige Resultate erbringt, ist damit ja nicht geführt, das sollten sich diejenigen, die da immer zeigen, wie's nicht geht, auch mal eingestehen), ist es natürlich immer viel aussagekräftiger, die einzelnen Stellungen interaktiv zu analysieren, den Output über die Zeit single thread, SMP, single primary und mit MultiPV auszuwerten, time to solution, time to best line, time to best eval, mit und ohne Forward- Backward, das alles geht nur mit einzelnen Stellungen und go infinite, das ist für mich nach wie vor und immer schon Stellungstest pur, Suiten sind ein Kompromiss, viele Stellungen in praktikabler Hardware- TC zum Testen zu verwenden.

Wenn du UHO (artige)- Stellungen ausspielen lässt, nimmst du das passende (was die Länge und den einseitigen Vorteil angeht) Set für die passenden Engines und Hardware- TC. Wenn du Stellungen nimmst, die noch mehr einseitigen Vorteil haben, kannst du einen Teil der numerischen Eval- Unterschiede durch den Partiefortschritt der Nicht- Eröffnungs- Stellungen ausgleichen, aber winner bleiben winner (die eine Hälfte der game changer) und das Remis forciert und als einzige best moves herbeiführende Züge (die andere Hälfte) sind tot remis, das ausspielen zu lassen, um zu bestätigen, dass es so ist (wenn's die Engines richtig lösen) oder durch Nichtlösen scheitert und daneben auch noch Fehlerquellen im späteren Verlauf ermöglicht, das ist schlicht und einfach Hardwarezeit- Verschwendung.
Fang doch, wenn du mich fragst, wenn du schon andere als Eröffnungsstellungen ausspielen lassen willst und auch solche, die mit weiterem Partiefortschritt jedenfalls immer noch nicht zwingend gewonnen oder remis sind, nehmen willst, fang mal mit solchen wie z.B. denen an, die auch Frank Sanders im Posting vom Link genommen hat, da hättest du auch gleich einen Vergleich zu seinen Ergebnissen. Natürlich hingen auch solche sehr davon ab, welche Engines mit welcher Hareware- TC und übertragbar auf irgendwelche anderen Ergebnisse aus game playing oder nicht ausgespielten Stellungstests wären sie sowieso wieder nicht.
Aber das ist etwas, womit man ja mit Tests, die irgendwie der mittlerweile ziemlich eng gesteckten Testumgebung des eng-eng-matches widersprechen, sowieso leben muss.
Jeder soll testen, wie's ihn interessiert, ich rede gern mit Anderen über deren Methoden, wie ich die Fragen, die ich an die Engine- Entwicklung habe, und die mir nicht die Ranglisten beantworten, für mich selbst zu beantworten habe, lasse ich mir auf meine alten Tage halt nicht mehr gern sagen, dazu mach ich's schon zu lange auf die verschiedensten Arten.

Was die eine Stellung angeht, ist sie insofern keine so gute, was ihre Beurteilbarkeit angeht, wenn man auf eine genau richtige Eval auch Wert legt (und nein, das macht man bei den "üblichen" GUI- gesteuerten Suiten nicht), aber auch wieder keine so schlechte, weil ich eben trotz jetzt erst recht wieder etwas weiterer Suche immer noch keine einzige Engine gefunden habe, die den richtigen Zug wählt, aber nicht auch praktisch gleich danach das Opfern vom e- Bauern und das Opferangebot des Läufers im Output hat. Den Zug wählt keine Engine, die den Festungscharakter als solchen an Folgezügen mit dem drohenden Patt nicht anrechnet. Damit du dir da eine Menge ganzer Partien ersparst, lass einfach mal die ersten 2, 3 Züge von der Stellung aus spielen, wenn du keinem Output traust.

Die Stellung kann man in einer Suite wie der HTC114 (die Vincent Lejeune ja aber übrigens selbst in der Folge noch um weitere 6 Züge reduziert hat auf eine HTC108, die eine da ist allerdings in der auch noch enthalten) ruhig drinnen lassen, die wird nicht fälschlich gelöst, die wird von den meisten Engines in STC einfach gar nicht gelöst und von den anderen in richtiger Einschätzung der Festung, was den Fortchritt für Schwarz angeht. So gesehen müsstest du, wenn du das ausspielen lässt, von allen Engines ein Remis bekommen, die ihn wählen und ein 0-1 von allen anderen.
Da wird bei den meisten anderen Stellungen der Suite vermutlich mehr Streuung drin sein, soll heißen, dass zwar die richtigen ersten Züge gewählt werden, aber das Ergebnis nicht mit dem erwarteten übereinstimmt, aber was sagt dir das jetzt dann in Hinblick auf die Stellungen und ihr Ausspiel- Ergebnis? Es kann ebenso wie beim einzelnen ersten Zug noch an allen möglichen anderen Zügen liegen, die die einen Engines in der Folge wählen und die anderen nicht. Was du dir an Aufschluss mehr als von der Suite als solcher erwartest, die im GUI mit dem entsprechenden Feature ohne Ansicht der Evals und nur der Zugwahl in der Zeit funktioniert, das ist mir immer noch nicht klar, aber wenn du dann deine Ergebnisse zeigst, wirst du ja dazusagen, was sie für dich bedeuten.

By Thomas Zipproth Date 2024-11-02 22:31

Hallo Peter,

danke für die ausführliche Antwort.

Bzgl. dieses Punktes:

Zitat:

Nein, natürlich nicht, dass du das nicht wusstest, konnte ich schon am Anfang des Threads, als du danach fragtest, nicht glauben und hielt es für eine rhetorische solche.

Das war eine "halb-rhetorische" Frage.
Natürlich war ich ziemlich sicher, das der Score nicht ausgewertet wird.
Aber tatsächlich habe ich noch nie in meinem Leben eine "Engine Stellungstest Testsuite" wie HTC114 laufen lassen,
und weiß auch gar nicht genau, mit welchem Tool (vermutlich Fritz), das normalerweise gemacht wird.
Und wenn man etwas niemals selbst gemacht hat, kann es halt vorkommen, das man sich einer Sache sicher ist, obwohl diese nicht stimmt.
Es hätte ja auch sein können, das es spezielle Programme dafür gibt, die den Score mit einbeziehen.
Daher die Frage.

Zu den anderen Punkten:
Ich verstehe alles was du schreibst, denke ich.
Ich bin mir aber nicht sicher, worin nun das Problem besteht, oder ob wir tatsächlich irgendwo generell verschiedener Meinung sind.

- Eine Stellungs-Testsuite (single best move game changers ) misst etwas.
(Die Frage von mir war hier nur, ob die Einbeziehung des Scores den Test aussagekräftiger machen würde)
- Ein Engine-Engine Turnier mit diversen Startstellungen misst etwas.

Messen beide Methoden dasselbe, wenn nicht, was messen sie?

Ich tendiere halt immer dazu, den Ausgang einer Partie als das finale Maß aller Dinge anzusehen,
da im normalen Turnierschach nur dieses Resultat bewertet wird.

Aber das soll doch nicht heißen, dass Stellungs-Testsuites grundsätzlich keine Aussagefähigkeit haben.
Die Frage ist nur, welche genau?
Z.b. bedeutet ein gutes/besseres Abschneiden in HTC114, dass grundsätzlich alle Problemstellungen/Stellungen gut/besser gelöst werden?
Das kann eigentlich nicht sein, denn in UHO schneidet Rems deutlich schlecht als Stockfish ab (den Test poste ich morgen).
Oder schneidet die Engine nur in bestimmten Stellungen besser ab, wenn ja, wie sind diese definiert?

By Reinhold Stibi Date 2024-11-02 23:03 Edited 2024-11-02 23:09

Also das kann ich nicht glauben, dass Rems mit UHO Eröffnungen schlechter ist, als Stockfish, welcher Rems denn. Ich finde der
Rems M 091024 ist der Beste.

Rems M 091024 spielt auch im praktischen Spiel ganz hervorragend und nicht schlechter als Stockfish. Habe damit im Internet
auf Schach.de um die 1000 Partien gespielt und keine verloren und etliche gewonnen.

Es wäre schön wenn Stefan Pohl den Rems M 091024 mit UHO Eröffnungen testen könnte; er ist damit der absolute Experte-

In der Analyse ist nach meiner Meinung der M 091024 die Nr.1 im Computerschach. Das wird hier durch etliche Stellungstests
sowie eigene Stellungstest belegt, was ich hier bereits geschrieben und deren Ergebnisse mitgeteilt habe.

By Peter Martan Date 2024-11-03 00:44 Edited 2024-11-03 01:01

Thomas Zipproth schrieb:

Aber tatsächlich habe ich noch nie in meinem Leben eine "Engine Stellungstest Testsuite" wie HTC114 laufen lassen,
und weiß auch gar nicht genau, mit welchem Tool (vermutlich Fritz), das normalerweise gemacht wird.

Fritz wird viel verwendet, hat den einen zusätzlichen großen Vorteil, dass die .cbh- Dateien, die dabei rauskommen (allerdings auch erst wieder nach Umwandlung in .pgn) die einzigen sind, die die Ergebnisse so speichern, dass sie EloStatTS (Frank Schubert) zusätzlich weiter auswerten kann in WDL- Ergebnisse, die die einzelnen Stellungen zwischen je 2 Engines, die gelaufen sind, als lauter kleine Minimatches interpretiert, in deren ganze und halbe Punkte außer den Lösungen auch deren Zeiten eingehen. Dass das dann in Elo umgerechnet wird, ist eine Spielerei und macht immer wieder zusätzlich böses Blut bei denen, die Elo nur in einer einzigen ganz bestimmten Art verwendet haben wollen, aber die tun sich heutzutage ohnehin immer schwerer mit ihrer heiligen Kuh

Ich hingegen schätze an diesem zusätzlichen Tool sehr, dass es mehr als nur die Lösungszahlen pro Engine allein bewertet, dass die Lösungszeiten auch eingehen und dass vor allem jeder neue Run mit allen schon gespeicherten neu verglichen und berechnet werden.
Prinzipiell bieten fast alle größeren GUIs, die nicht ausdrücklich fast nur zum game playing gedacht sind (wie z.B. Cutechess) ähnliche Features, mit ähnlichen Einstellmöglichkeiten, die einen verwenden .pgn (statt .cbh wie Fritz) die anderen .epd als Format der Stellungen, Arena kann beides, an z.B. Shredder schätze ich sehr die Art der Darstellung der Resultate in einer Tabelle pro run, der auch die Lösungszeiten pro Stellung in Sekunden anschreibt.

Zitat:

Und wenn man etwas niemals selbst gemacht hat, kann es halt vorkommen, das man sich einer Sache sicher ist, obwohl diese nicht stimmt.
Es hätte ja auch sein können, das es spezielle Programme dafür gibt, die den Score mit einbeziehen.
Daher die Frage.

Tatsächlich hab' ich mir selbst auch schon viele Gedanken gemacht, wie man die Evals mit einbeziehen könnte, habe sogar Frank Sanders und Ferdinand Mosca schon vor längerer Zeit alle möglichen Vorstellungen für derartige Tools geschildert, Frank ist aber derzeit (auch schon wieder eine Weile her die diesbezüglich letzte Rückmeldung von ihm) etwas enthaltsam, was das Computerschach angeht, und Ferdy hat die PM, die ich ihm vor einem halben Jahr auf Talkchess dazu geschrieben hat, noch nicht einmal gelesen, die ist noch immer in der Outbox, er loggt sich dort offenbar derzeit nur sehr selten bis gar nicht ein.

Zitat:

Ich bin mir aber nicht sicher, worin nun das Problem besteht, oder ob wir tatsächlich irgendwo generell verschiedener Meinung sind.

- Eine Stellungs-Testsuite (single best move game changers ) misst etwas.
(Die Frage von mir war hier nur, ob die Einbeziehung des Scores den Test aussagekräftiger machen würde)
- Ein Engine-Engine Turnier mit diversen Startstellungen misst etwas.

Messen beide Methoden dasselbe, wenn nicht, was messen sie?

Ich lasse Stellungen nur dann ausspielen, wenn ich mir des Ergebnisses nicht sicher bin, bei single best move game changers sollte das Ergebnis dasselbe sein wie gesagt, abgesehen von den zusätzlichen Fehlerquellen, die mich halt weniger interessieren, als die Berechenbarkeiten.
Stellungstests messen prinzipiell das, was du an Output in der infinite analysis zu einer bestimmten Zeit siehst, die automatische Adjudizierung eines einzelnen best moves als gefunden oder nicht, mit oder ohne Beibehalten über eine auch zusätzlich definierbare Zahl von (ab dem nach oben Kommen) abzuwartenden weiteren Iterationen hinweg, das ist ein einfachster Weg, möglichst viele Stellungen in möglichst (für die Statistik der Ergebnisse otimierter) kurzer Zeit auszuwerten.

Zitat:

Aber das soll doch nicht heißen, dass Stellungs-Testsuites grundsätzlich keine Aussagefähigkeit haben.
Die Frage ist nur, welche genau?
Z.b. bedeutet ein gutes/besseres Abschneiden in HTC114, dass grundsätzlich alle Problemstellungen/Stellungen gut/besser gelöst werden?
Das kann eigentlich nicht sein, denn in UHO schneidet Rems deutlich schlecht als Stockfish ab (den Test poste ich morgen).
Oder schneidet die Engine nur in bestimmten Stellungen besser ab, wenn ja, wie sind diese definiert?

Thomas, das sind aber nach deiner Defintion davon schon wieder mehr so "halb-rhetorische" Fragen, ja?

Ein besseres Abschneiden in HTC114 heißt, dass die Problemstellungen des HTC114 gut/besser gelöst werden, relativ zu den anderen Engines, mit denen du die Ergebnisse vergleichst und relativ zur Hardware- TC, genau das und absolut nicht mehr oder weniger.
Jede Engine (und jeder Mensch) schneidet in bestimmten Stellungen besser ab, diese sind ausschließlich als einzelne Stellungen definiert, du kannst programm- technisch (nullmove, fortress detection, king safety...) Kategorien anlegen ebenso wie ebensolche von Stellungsmerkmalen schachlicher Art (Eröffnung, Mittelspiel, Endspiel, Figurenkonstellationen, forcierte Abspiele oder fehlende solche, bestimmte Vorteile einer bestimmten Art und Größe einer Seite...) aber mehr, als dir daraus ein paar Themen- Suiten zu basteln, hast du nicht von derlei Kriterien. Die Ergebnisse der einzelnen Stellungen ebenso wie die der einzelnen Suite sind und bleiben für sich allein und sind, wenn überhaupt, hauptsächlich dadurch vergleichbar untereinander, dass du für bestimmte engine- pools bestimmte durchschnittlich Hardware- Zeiten brauchst, um sie mehr oder weniger gut zu behandeln.
Das alles gilt aber natürlich absolut nicht nur für Teststellungen für nicht ausgespielte Stellungstests, das gilt alles ganz genau so für Eröffnungs- und andere Stellungen, von denen aus du eng-eng-matches ausspielen lassen willst. Dass du dich für irgendwie untereinander vergleichbare Ranglisten auf bestimmte Eröffnungstestsets einigst mit anderen Testern (mit gewissen Unterschieden aber im Wesentlichen doch einheitlich, was die Länge der Vorgaben angeht und dass es eben keine sicher gewonnenen und praktisch schon tot remisliche Stellungen sein sollen, ist zu jeder Zeit nur quantitativ unterschiedlich aber sonst immer einheitlich gewesen), dass du dich also auf derartige Testumgebungen festlegst, auch was die jeweils gerade zeitgemäße Hardware- TC angeht und den pool an mitspielenden Engines, das ist schlich und einfach reine Willkür. Je genauer du dich auf die Testbedingungen festlegst, desto besser übertragbar und untereinander vergleichbar sind die Ergebnisse, da fragt dann halt einfach Keiner, was sagt das jetzt genau über die Spielstärke der Engine unter ganz anderen Bedingungen aus, man ignoriert die Frage, um wenigstens in einer mehr oder weniger genau definierten Testumgebung Vergleiche anstellen zu können.
Dass die (Engines), je stärker die Hardware und sie selbst werden und je mehr es werden, die auf der starken Hardware ähnlich stark sind, desto ähnlicher werden sie einander durch den immer größer und einheitlicher werdenden Selektionsdruck der Testumgebung natürlich auch in ihren Algorithmen (mit zusätzlich großteils offen liegenden Code- Sourcen) und neuerdings in ihren neuronalen Netzen. Dadurch wird die Remishäufigkeit selbst bei VSTC wieder ihrerseits größer (an Einzelremis und oder an 1-1- Remis- Partiepaaren), nicht nur dadurch, dass es immer mehr und immer mehr ähnlich starke Engines werden, sondern auch dadurch, dass sie einander immer ähnlicher grundlegend werden in dem, was sie aus den Übereinkunfts- Testumgebungen ausspielen, es handelt sich um das Prinzip einer Selffulfilling Prophecy.

Der grundlegende Irrtum besteht darin, dass es die Elosion der "overall playing strength" überhaupt als mehr ale eine reine Illusion gibt, Spielstärke ist nicht eine, sie ist nicht stellungsunabhängig und schon gar nicht ist sie stellungsunabhängig testbar. Dass sich der Remistod nur im game playing und nicht auch im nicht ausgespielten Stellungstest zeigte und mehr und mehr auswirkte, ist natürlich auch ein frommer Wunsch, man braucht ebenso wie mehr und mehr Partien zum Unterscheiden der Engines im game playing auch mehr und mehr Teststellungen für nicht ausgespielte Stellungstests, um mehr als statistisch irrelelvante und intransitive Einzelergebnisse zu bekommen, aber die größtmögliche Diskrimination zwischen 2 Engines oder deren Versionen bekommst du allemal nach wie vor und jetzt erst recht mit einzelnen Stellungen, wenn du aus dem Output, den die Engines dazu bieten, am meisten Kriterien und Messwerte beziehst. Wie gesagt, time to solution(s, können ja natürlich durchaus mehr als einzelne sein, natürlich kann man auch mit Eröffnungsstellungen Stellungstests machen, ohne sie immer wieder schon im Vorfeld noch und noch ausspielen zu lassen, wie werden denn bitte die Eröffnungsstellungen selektiert auf ihre Tauglichkeit als ausgeglichene oder mehr oder weniger UHO- artige, wenn nicht anhand von Output- Evals? Und was bitte ist das Anderes als ein nicht ausgespielter Stellungstest, der den game playing- matches immer mehr und immer genauer und immer selektiver vorausgehen muss?) time to best eval, time to best main line, usw. usf., wenn du kein Problem damit hast, dass die Performances, die du messen kannst, nur für die eine Stellung allein gelten, hast du auch kein Remistod- Problem mehr und keines, dass du nicht genug Diskrimination zusammen bringst, die error bar deiner einen Stellung, was die Streuung der verschiedenen Zeitverläufe angeht, ist nichts im Vergleich zu anderen Messwerten und deren statistischer Schwankung, wenn sie nur aus ganzen und halben Punkten bestehen, die Ergebnisse.
Was sagen die einzelnen Stellungen und die einzelnen Suiten und die einzelnen Matches, vor allem im Vergleich zu anderen Stellungen, anderen Suiten und anderen Matches?
Ja, sorry, Thomas das hängt voll und ganz vom Auge des Betrachters ab. Wenn dich nur eine bestimmte Art der Rangliste unter bestimmten genau definierten Bedingungen des game playings interessiert, dann musst du dir keine Gedanken darüber machen, was diese Rangliste an Wert und Aussagekraft relativ zu anderen Messungen hat, Probleme mit der Vergleichbarkeit und der relativen Wichtigkeit hast du nur, wenn du dich nicht auf eine einzelne Messtechnik und Verfahrensweise festlegst. Probleme mit der ausschließlichen Relevanz deines einen für dich wichtigen Tests bekommst du dann erst wieder, wenn du mit deinem einen Test keinen Fortschritt über die explodierende Anzahl an Engines hinweg mehr nachweisen kannst, ohne ein Vielfaches der Entwicklungszeit in die Testzeit investieren zu müssen und damit genug Datenmaterial zu bekommen, und wenn durch andere Tests berechtigte Zweifel aufkommen, dass der Fortschritt, den du mit deinem einen Test noch messen kannst, noch irgendetwas mit dem Spiel Schach zu tun hat, wie es Menschen für Menschen erdacht habe. Und halt auch, wenn dich andere Schachstellungen als die, die die einander immer ähnlicher werdenden Engines selbst gegeneinander aufs Brett bringen, wenn dich andere als diese eng-eng-match-Stellungen aus menschlich- schachlicher Sicht auch noch interessieren, weil die findest du halt dort immer seltener, je besser die win or save draw Algorithmen aufeinander abgestimmt werden, und je mehr sie die eng-en-eng-matches als Datengrundlage fürs weitere Trainieren ihrer Netze verwenden.

Wovor wir einfach schon länger stehen, ist die Sinnfrage weiterer Engine- Entwicklung an und für sich, in Relation zum Hardware- Zeit- Strom- und Manpower- Aufwand, den sie kostet. Dass der Sinn die mathematisch harte Lösung des Spiels im Sinn des 32Steiners ist, das ist mir zu wenig greifbar und ich sehe es auf die Art, wie's betrieben wird, auch einfach nicht näher kommen, so ein Ziel. Und mit der sehr schwachen Lösung, dass das Spielen auch aus weißer Sicht gegen die erklärte Remisabsicht von Schwarz mit zeitgemäßen Hardware- Rechenzeiten als Unterstützung nicht mehr anders als Remis endet, wenn sich Schwarz von Anfang an seine Züge aussuchen darf und nicht irgendwelchen willkürlichen Vorgaben folgen muss, das ist ja schon länger erreicht, ob diese sehr weiche Lösung, vom einen bestimmten Mathematiker beurteilt noch etwas weniger weich wird und unter welchen Aufwendungen und Kriterien, das dann zu beurteilen, das interessiert mich als (Computer-)Schachspieler eigentlich auch nur mehr sehr am Rande. Da spielt es mir immer noch allemal mehr Rolle und sagt mir mehr als Fortschrittskontrolle neben dem selektiven game playing (das unselektive von der Grundstellung aus hat sich erledigt), wie eine bestimmte Engine eine bestimmte Stellung beurteilt mit welchem Zeitaufwand und welchem Output, ist halt so, und eigentlich bin ich ganz froh, dass es so ist, wenngleich's halt vermutlich einfach daran liegen wird, dass ich so viele dieser positions of (my personal) interest schon lange kenne und mir aus den Neuen die aussuchen kann, die mit den altbekannten irgendwas zu tun haben. Das sind für mich die wesentlichen Selektionskriterien, nach denen ich mir Stellungen für ausgespielte und für nicht ausgespielte Stellungstests aussuche. Und wenn Schach noch etwas bietet außer einer einzelnen gemeinsamen Grundstellung (wenn's nicht FRC ist), dann halt die Vielfalt an Stellungen, die davon wegführen, die Frage, welche davon wie relevant für wessen Vorstellung vom Spiel sind, stellt sich mir höchstens dann, wenn ich mich mit anderen Schachspielern oder Computerschachspielern oder Problemschach- Spielern darüber austauschen will. Und mit der Messung von bestimmten Arten von "Spielstärken" (oder - Schwächen) verhält es sich bei mir eben ähnlich, ich finde das alles nur gerade genau so wichtig im Moment und über die Zeit und im Verhältnis zueinander, wie's gerade von wem gefragt ist.
Gute Nacht.

By Lars B. Date 2024-11-02 19:03

Kurt Utzinger schrieb:

Hier hat endlich jemand auf eine (grosse) Schwäche von automatisiereten Teststellungen hingewiesen.

Endlich? Lieber Kurt, bereits vor gefühlt über 250 Jahren hat der großartige Thomas Mally diese Art des "Testens" in mehreren Artikeln sehr treffend als Piffpaffpuff-Methode bezeichnet und analytisch als die Idiotie nachgewiesen, um die es sich nun einmal handelt beim Thema "Hauptsache richtiger Zug, was interessiert mich die Bewertung".

LG
Lars

By Reinhold Stibi Date 2024-11-02 19:12 Edited 2024-11-02 19:20 Upvotes 1

Hallo Lars,

das ist doch totaler Quatsch was da Thomas Mally geschrieben hat.

Natürlich ist die Hauptsache der richtige Zug. Da kann doch für die Bewertung der Stellung bei schwierigen Stellungen die
Engine durch die Folgezüge und längere Bedenkzeiten aufbauen.

Bei den meisten Teststellungen stimmt auch die Bewertung und richtiger Zug überein.

Man kann alles übertreiben; für Teststellungen brauche ich keine Wissenschaft.

Beim menschlichen Schach wird auch viel intuitiv gespielt ohne eine 100%ige richtige Bewertung; das spielt
doch keine Rolle ob man die Abwicklung ganz erfasst hat; wichtige für den Anfang ist das der richtige Zug gefunden wird.

Grüße
Reinhold

By Thomas Plaschke Date 2024-11-02 19:45 Upvotes 1

> das ist doch totaler Quatsch was da Thomas Mally geschrieben hat.

Ich kann von dem, was ich von Thomas Mally gelesen habe behaupten, dass es sich in keinem Fall um "Quatsch" gehandelt hat. Es waren im Gegenteil ausnahmslos Beiträge, die durch ihre gedankliche Tiefe und profunde Kenntnisse über das, von dem er schrieb gekennzeichnet waren.

Wäre eine zurückhaltendere Wortwahl über jemanden, der sich hierzu nicht mehr selbst erklären kann, zu viel verlangt?

Viele Grüße
Th. Plaschke

By Reinhold Stibi Date 2024-11-02 20:07 Edited 2024-11-02 20:10

Bin nur auf das eingegangen was Lars über Thomas Mally geschrieben hat und
für mich ist dieser Teil purer Unsinn; eine andere Bewertung steht jedem frei.

Ich muss mich, besonders in der heutigen Zeit, wundern welchen Unsinn sogenannte Sachverstände
und sogenannte Experten auch in anderen Bereichen , von sich geben; es ist doch in den meisten Fällen
nur ihre persönliche Meinung.

Viele Grüße
Reinhold

By Kurt Utzinger Date 2024-11-03 12:01

Thomas Plaschke schrieb:

Volle Zustimmung ... es ist für mich auch heute noch eine Wonne, in den alten Modul-Heften zu blättern.
Kurt

By Lars B. Date 2024-11-02 20:01 Upvotes 3

Reinhold Stibi schrieb:

Lieber Reinhold,

das kann man so sehen, aber ich finde, durch Deine Sichtweise ergeben sich gewisse logische Probleme. Denn es ist bei Stellungstests ja immer die Rede von einer "Analysefähigkeit". Will man also mit einer Engine vor allem analysieren, spielt sehr wohl eine wenigstens grob sinnvolle Bewertung eine Rolle, keineswegs nur der richtige Zug (falls man nicht zufällig Großmeister ist). Geht es ums praktische Spiel, dann ist die Bewertung nicht wichtig. Aber da kannste auch gleich die Engines spielen lassen, statt Stellungen zu testen.

Also mußt Du Dich entscheiden. Geht's um Analyse, ist die Bewertung wichtig, geht's um praktisches Spiel, braucht's gar nicht erst 'nen Stellungstest. Ich sehe da keinen sinnvollen Platz für einen Stellungstest , der mit falschen Bewertungen "gewonnen" wird, weil das Ergebnis eben weder über die Analyse noch übers Spiel Aussagen treffen kann.

Thomas Mally, dies nebenbei bemerkt, gehörte zu den ganz wenigen Leuten, die mich nicht nur durch äußerst tiefes Verständnis der Thematik beeindruckt haben, sondern auch durch die ebenso seltene Fähigkeit, schwierige Sachen leicht verständlich aufzuschreiben.

Grüße
Lars

By Peter Martan Date 2024-11-02 20:20 Edited 2024-11-02 20:37

Lars B. schrieb:

Ich sehe da keinen sinnvollen Platz für einen Stellungstest , der mit falschen Bewertungen "gewonnen" wird, weil das Ergebnis eben weder über die Analyse noch übers Spiel Aussagen treffen kann.

Wie wär's mit einem Stellungstest, der (auch) mit richtigen Bewertungen gewonnen wird?
Und also schließt er messerscharf, dass nicht sein kann, was nicht sein darf.

Hier hat Thomas eine der Festungen hervorgekramt, an denen die Engines, was die Eval angeht, immer noch etwas scheitern mit STC, zeigt mir (Thomas und du) mal die Beispiele dazu, bei denen die Engine in der vorgegeben Zeit den richtigen Zug wählt, aber nicht fast gleichzeitig das Manöver mit dem Opfer vom e-Bauern und das Opferangebot vom Läufer im Output hat. Das und nur das würde bedeuten, dass sie "aus falschen Gründen" den richtigen Zug wählt. Richtige Eval allein genügt ja als Beweis oder Gegenbeweis für sich alleine erst recht nicht. Wie oft ich in diesem Forum schon geschrieben habe, das kann ich wirklich nicht mehr zählen, dass zu einem Output 4 Sachen gehören, die Stellung, der erste Halbzug, möglichst viele Folgzüge in einer HV und die Eval. Für sich allein ist nichts von alledem für irgendwas beweisend oder widerlegend, übrigens das Ausspielen auch nicht, wenn mit dem falschen ersten Zug weitergespielt wird oder in der Folge Fehler passieren.

Die Mehrzahl der Engines wird bei der Stellung einfach nicht den richtigen Zug wählen, hat sie ihn oben, braucht sie natürlich noch eine Weile für die 0.00, weil noch ein paar mal 50 Züge von Schwarz angehängt werden können, bevor kein Bauern- und Schlagzug mehr passieren kann.
Crystal 6PMT, wie auch schon von Reinhold in diesem Thread mit dieser Engine gezeigt, hat nicht nur in STC (und auch single primary, also mit MultiPV=1) den richtigen Zug oben, sondern praktisch gleichzeitig das Manöver, dass das Patt androht, und bei einem einzelnen Versuch bei mir mit 30 Threads der 16x3.5GHz- CPU und 8G hash kommt nach weiteren 5" die Eval aus dem -+ ins -/+, das heißt, sie sieht den schwarzen Gewinn nicht mehr als wahrscheinlichstes Ergebnis.

1k6/3p4/1B6/4Pp1p/1p5R/1p4p1/pP3n2/K6n w - - 0 1

Analysis by Crystal 6 PMT:

1.Txb4 Kc8 2.La7 Se4 3.Txb3 Shf2 4.Tb8+ Kc7 5.Th8 Kc6 6.Th6+ Kd5 7.Txh5 Kxe5
Schwarz hat entscheidenden Vorteil.
-+ (-2.94) Tiefe: 10/15   00:00:00
...
1.Tc4 g2 2.Tc1 Sh3 3.e6 dxe6 4.La7+ Kb7 5.Te1 Sg3 6.Txe6 Sf4 7.Tb6+ Kc7 8.Txb4 Sfe2 9.Lf2 Kc6 10.Tb8 Kd5 11.Te8 f4 12.Lc5 h4 13.Lg1 f3 14.Lf2 h3 15.Th8 Sf4 16.Td8+ Ke4
Schwarz steht klar auf Gewinn.
-+ (-5.85 --) Tiefe: 24/53   00:00:14 550MN
1.Txh1
Schwarz steht klar auf Gewinn.
-+ (-5.97 ++) Tiefe: 24/53   00:00:16 620MN
1.Txh1
Schwarz steht klar auf Gewinn.
-+ (-5.90 ++) Tiefe: 24/53   00:00:16 620MN
...
1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Ka7 4.Lb8+ Kb7 5.Lxg3 Ka6 6.Le1 f4 7.Lg3 f3 8.Lh4 Kb7 9.Lg3 Kc6 10.Lh4 Kd5 11.Le1 Ke4 12.Lh4 e5 13.Lf2 Kd5 14.Lh4 Ke6 15.Lf2 Kd6
Schwarz hat entscheidenden Vorteil.
-+ (-2.74) Tiefe: 24/53   00:00:16 626MN
...
1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Ka7 4.Lxg3 Kb7 5.Le1 e5 6.Lf2 Kc6 7.Le1 e4 8.Lg3 Kd7 9.Lf2 e3 10.Lh4 Kd6 11.Lf2 Kc7 12.Le1 Sf2 13.Lxf2 e2 14.Lh4 Kc6 15.Lg3 Kb5 16.Le1 Kc4 17.Lf2 f4 18.Lg3 Kd4 19.Lf2+ Ke4
Schwarz steht deutlich besser.
-+ (-1.64) Tiefe: 29/56   00:00:21 889MN
1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Ka7 4.Lxg3 Kb7 5.Le1 e5 6.Lf2 Kc6 7.Le1 e4 8.Lg3 Kd7 9.Lf2 e3 10.Lh4 Kd6 11.Lf2 Kc7 12.Le1 Sf2 13.Lxf2 e2 14.Lh4 Kc6 15.Lg3 Kb5 16.Le1 Kc4 17.Lf2 f4 18.Lg3 Kd4 19.Lf2+ Ke4
Schwarz steht deutlich besser.
-/+ (-1.48 ++) Tiefe: 30/41   00:00:21 914MN
...
1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Ka7 4.Lxg3 Kb7 5.Lh4 e5 6.Lf2 Ka8 7.Lg3 Sf2 8.Lxf2 e4 9.Le1 e3 10.Lf2 e2 11.Lh4 Ka7 12.Lf2+ Kb7 13.Lg3 Ka6 14.Le1 Kb5 15.Lh4 Kc5 16.Le1 Kd4 17.Lf2+ Ke4 18.Le1 f4 19.Lh4 Ke5 20.Lg3 Kd4 21.Lf2+ Kd5 22.Lg3 Kc4 23.Le1 f3 24.Lf2 Kd5 25.Lh4 Ke6 26.Lg3 Kf6 27.Lh4+ Kf5 28.Lf2 Kf4 29.Lh4
Schwarz steht besser.
-/+ (-0.84 ++) Tiefe: 39/51   00:02:00 8008MN

Ja natürlich kann man meckern, dass das kein 0.00 ist, aber das ist eben selbst unter den ausgesucht schweren single best move- Teststellungen (die ja, um das auch mal wieder nebenbei anzumerken, nur die wenigsten unter den viel zahlreicheren leichter lösbaren sind, und unter denen, die auch nicht sinlge best move getestet werden müssen, sondern z.B. mit MEA- artigen Tools verwendbar sind) eine derjenigen, die zusätzlich zum best move auch noch eine weitere noch schwerere Anforderung an die Eval stellen. Was ist mit den übrigen Stellungen der Suite und wieso hat jetzt die Engine, die nach 20" aus dem -+ kommt, mit "falscher Eval" in der einen Stellung allein genau wieviel gewonnen? Das hängt vom Teilnehmerfeld, der restlichen Suite und der Hardware- TC ab, die wenigen Engines, die hier wirklich nicht nur fäschlich -+ evaluieren, sondern auch ohne das Patt- Drohungs Manöver anzurechnen, trotz alledem den richtigen Zug in der TC oben haben, die müssen wir erst mal finden und mehr als einen einzelnen Punkt haben die sich damit ja auch immer noch nicht ergaunert. Wären das wirklich viele, die das so machten, sollte man die eine Stellung halt vielleicht einfach aus der Suite rausnehmen, oder sie nur mit Engines und Hardware- TC verwenden, bei denen die wenigen richtigen Lösungen aus den richtigen Gründen gewählt werden

By Thomas Zipproth Date 2024-11-02 20:58

Peter Martan schrieb:

Hier hat Thomas eine der Festungen hervorgekramt, ...

Hallo Peter,

tatsächlich hatte ich einfach irgendeine Stellung genommen, mir das Ergebnis der Analyse angeschaut, und dazu eine Frage gestellt.

Diese ist ja gar nicht so schlimm, sie lautet nur:
Würde ein Stellungstest nicht aussagefähiger sein, wenn man den korrekten Score mit einbezieht?

Um die prinzipielle Sinnhaftigkeit von "Engine Testsuites" bzw. Stellungstests ging es mir dabei gar nicht.

By Peter Martan Date 2024-11-02 22:49

Thomas Zipproth schrieb:

Würde ein Stellungstest nicht aussagefähiger sein, wenn man den korrekten Score mit einbezieht?

Na darauf ist die Antwort natürlich klar ja, aber weil das so evident ist, dachte ich eben, du meinst die Frage rhetorisch.
Am aussagefähigsten ist ein Stellungstest, der die ersten Züge und die die Eval einbezieht, aber auch die nicht ohne Ansicht der dem ersten Zug folgenden solchen im Output oder im Ausspielen. Was hast du von einer richtigen Eval aus falschen Folgezügen heraus? Von einer richtigen Eval mit falschen ersten Züge ja auch nicht wirklich, so what?
Oder was hast du von einem richtigen ersten Zug und einer richtigen Eval aber einer danach zu (Stellungs-) Unrecht verlorenen oder gewonnen Partie, die der korrekten Stellungsbehandlung nach hätte Remis ausgehen müssen, weil die Engine im weiteren Verlauf der Partie patzt?

Und bei einer bestimmten Art von automatisch mit entsprechenden eigenen GUI- Features beurteilten Suiten zum Stellungstesten verzichtest du der Einfachheit halber auf die Einbeziehung der Eval und der Folgezüge, damit du dir das dennoch auch mit sinnvoll zusammengestellten (für die entsprechenden Engines und Hardware- TCs) solchen bestimmten Suiten erlauben kannst, musst du "einfach" die Stellungen entsprechend gut aussuchen

By Peter Martan Date 2024-11-02 18:05 Edited 2024-11-02 18:33

Thomas Zipproth schrieb:

Ich kann ja nicht erkennen, das es sich um eine "Lösung" handelt.
Der Zug hat wie alle anderen einen Verlust Score, nur einen nicht ganz so schlechten.

Natürlich sollte die Eval auch eine von 0.00 sein, damit man auf einen Blick wüsste, dass die Engine das als Remis sieht. Das ist in dieser Stellung nur deshalb so besonders viel verlangt, weil ja erst die 50 Züge- Regel das Remis wirklich sicher bringt und noch dazu kann Schwarz diese 50 Züge, wenn er die Bauern nicht in unmittelbarer Folge der Reihe nach opfern will, immer wieder mit dem König allein machen, bis der nächste Bauernzug kommt, mit der dann neue 50 angehängt werden.

Will man sich nicht drauf verlassen, dass der richtige Zug aus den richtigen Gründen gewählt wird, kann man sich außer der Eval hingegen natürlich auch die Output- HV anschauen, die zum Zug gehört, wird in der der Nullfortschritt gezeigt, ist noch einmal mehr als die Hälfte der Aufgabe gelöst, die noch übrig bleibt, wenn der richtige Zug gewählt wird, würde ich sagen.

Und ja, wie auch schon Kurt schreibt, ist das eine Schwachstelle von manchen Stellungen, was ihre Verwendbarkeit in Suiten angeht, aber da muss man dann halt wieder selektieren zwischen solchen, bei denen leicht aus falschen Gründen "gefunden" werden kann und anderen. Hier ist ja wenigstens die Wahrscheinlichkeit, dass der Zug nach oben kommt, ohne dass das Manöver, das dahinter steht, zumindest im Ansatz richtig berechnet wird, eher klein.

Und der MultiPV- Modus, der hier z.B. auch Rems M (für MultiPV) hilft, schneller den richtigen Zug zu wählen, hilft halt beim weiter Durchrechnen bis zur 0.00- Eval nicht mehr, da bremst er eher, weil die anderen primaries time to depth kosten.

Ich hab hier mal einen aktuellen Crystal dev. probiert und habe ihn mit leerem Hash (32G, 30 threads der 16x3.5GHz- CPU) MultiPV=2 gestartet, damit der Zug schneller nach oben kommt, dann noch ein paar Minuten weiter rechnen lassen:

Engine: Crystal dev-20241015-a6f5e3220 (32768 MB)
von the Stockfish developers (see AUTHORS f

-----
15   0:01   -3.15   1.Lc7+ Kb7 2.e6 g2 3.Lh2 dxe6 4.Td4 Sg3 5.Td2 Sge4 6.Te2 Sd3 7.Lg1 Sd6 8.Txg2 Se1 9.Tg7+ Kc6 (42.624.175) 25477
15   0:01   -3.35   1.Txb4 Ka8 2.Ta4+ Kb7 3.Tc4 Sd3 4.e6 dxe6 5.Tc7+ Ka6 6.Lf2 Sb4 7.Ta7+ Kb5 8.Tb7+ Kc4 9.Txb4+ Kxb4 10.Lxg3 Kc4 11.Lh4 (42.624.175) 25477
-----
16   0:03   -3.60   1.Txb4 Ka8 2.Ta4+ Kb7 3.Tb4 Sd3 4.Txb3 Sc1 5.Tb4 Se2 6.La5+ Kc6 7.Tb6+ Kd5 8.Td6+ Kxe5 9.Td2 Sf4 10.Txd7 Sd5 11.Th7 Sf2 12.Le1 Se4 13.La5 f4 14.Txh5+ (85.061.389) 24879
16   0:03   -3.65   1.Lc7+ Kb7 2.e6 g2 3.Txb4+ Kc6 4.Lh2 dxe6 5.Td4 Se4 6.Td3 Kb5 7.Th3 Shg3 8.Lg1 f4 9.Th4 e5 10.Th2 Kc6 11.Txg2 Kd5 (85.061.389) 24879
-----
17   0:18   -2.45   1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Kb7 4.Lxg3 Kc6 5.Lh4 Kd5 6.Lg3 e5 7.Le1 e4 8.Lf2 Kc4 9.Lh4 e3 10.Lf2 Kd3 11.Lg3 f4 12.Lh4 Ke2 13.Le1 Kf3 14.Lh4 (390.703.941) 21694
16   0:18   -3.60   1.Txb4 Ka8 2.Tc4 Sd3 3.Tc3 Se1 4.Txb3 h4 5.Kxa2 Sf2 6.Ka3 h3 7.Txg3 h2 8.Tg8+ Kb7 9.Th8 h1T 10.Txh1 Sxh1 11.La5 Sg2 (390.703.941) 21694
-----
17   0:22   -2.45   1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Kb7 4.Lxg3 Kc6 5.Lh4 Kd5 6.Lg3 e5 7.Le1 e4 8.Lf2 Kc4 9.Lh4 e3 10.Lf2 Kd3 11.Lg3 f4 12.Lh4 Ke2 13.Le1 Kf3 14.Lh4 (488.422.994) 21498
17   0:22   -4.05   1.Txb4 Ka8 2.Tc4 Sd3 3.Tc3 Se1 4.Txb3 h4 5.Kxa2 Sf2 6.Ka3 h3 7.Txg3 h2 8.Tg8+ Kb7 9.Th8 h1D 10.Txh1 Sxh1 11.La5 Sg2 12.Ld2 f4 13.Lxf4 Sxf4 14.b4 (488.422.994) 21498
-----
18   0:22   -2.45   1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Kb7 4.Lxg3 Kc6 5.Lh4 Kd5 6.Lg3 e5 7.Lh4 Kd6 8.Lf2 Ke6 9.Lg3 f4 10.Le1 Kd7 11.Lf2 (489.166.158) 21494
17   0:22   -4.05   1.Txb4 Ka8 2.Tc4 Sd3 3.Tc3 Se1 4.Txb3 h4 5.Kxa2 Sf2 6.Ka3 h3 7.Txg3 h2 8.Tg8+ Kb7 9.Th8 h1D 10.Txh1 Sxh1 11.La5 Sg2 12.Ld2 f4 13.Lxf4 Sxf4 14.b4 (489.166.158) 21494
-----

-----
28   6:55   -1.50   1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Kb7 4.Lxg3 Kb6 5.Lh4 Kc6 6.Le1 Kd5 7.Lg3 Ke4 8.Le1 h4 9.Lxh4 Ke5 10.Le1 f4 11.Lf2 Kd5 12.Le1 Kc5 13.Lh4 Kc6 14.Lf2 (8.764.912.417) 21079
27   6:55   -5.20   1.Txb4 Ka8 2.Tc4 Sd3 3.Tc3 Se1 4.Txb3 h4 5.Kxa2 Sf2 6.Ta3+ Kb7 7.Ld4 Sfd3 8.b4 Sc2 9.Ta7+ Kc6 10.Ta6+ Kd5 11.Td6+ Ke4 12.Lg1 Scxb4+ 13.Ka3 Sd5 14.Ta6 (8.764.912.417) 21079

Man sieht, dass die Eval sinkt und vor allem auch der Abstand zum nächstbesten Zug verhältnismäßig größer wird. Und das Anbieten des Läuferopfers mit der Pattdrohung kommt schon auch sofort in den Output, sowie der Lösungszug die Nr.1 wird, also auch ohne weiteres Ausspielen kann man an der Stelle eigentlich schon auch von (aus den richtigen Gründen) gelöst sprechen, was das Wesentliche der Aufgabe angeht, die Eval wäre schön, wenn sie 0.00 wäre, spielt aber z.B. im game playing ja auch keine Rolle, nur um diesen viel zitierten Vergleich zwischen Stellungstest und Spielstärke der spielenden Engine hier auch zu verwenden.

Dann auf eine primary allein zurück und mit schon vollem Hash weiterrechnen lassen:

1k6/3p4/1B6/4Pp1p/1p5R/1p4p1/pP3n2/K6n w - -

Engine: Crystal dev-20241015-a6f5e3220 (32768 MB)
von the Stockfish developers (see AUTHORS f

34/74 0:01   -0.60 1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Kc8
   4.Lxg3 Kb7 5.Le1 e5 6.Lf2 Kc6 7.Lg3 Kb5
   8.Lf2 Kc4 9.Lg3 e4 10.Le1 Kd3 11.Lf2 Kc2
   12.Lg3 e3 13.Le1 e2 14.Lh4 (118.026.629) 86848

...

50/105 1:08   -0.30 1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Kc8
   4.Lxg3 Kb7 5.Lf2 Kc6 6.Le1 Kd5 7.Lf2 f4
   8.Le1 Ke4 9.Lh4 Kf5 10.Le1 Kg5
   11.Lh4+ Kg4 12.Le1 Kh3 13.Lf2 e5
   14.Lh4 (6.582.021.389) 95970

51/107 1:15   -0.30++ 1.Txh1 (7.467.850.805) 98991

Also allzu weit weg von 0.00 sind wir hier nicht mehr.

Und dann, damit man nicht weiter ewig warten muss, Forward- Backward so 8 Züge weit, danach, wieder mit vollem Hash neue Rechenzeit gestartet:

1k6/3p4/1B6/4Pp1p/1p5R/1p4p1/pP3n2/K6n w - -

Engine: Crystal dev-20241015-a6f5e3220 (32768 MB)
von the Stockfish developers (see AUTHORS f

29/71 0:01   -0.35 1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Kb7
   4.Lxg3 Kc8 5.Lf2 e5 6.Lh4 Kc7 7.Lf2 Kd7
   8.Lg3 Sf2 9.Lxf2 f4 10.Lg3 f3 11.Lf2 Kd6
   12.Lh4 e4 13.Lg3+ Kd5 14.Lf2 (144.803.746) 95960

...

42/93 0:24   -0.05++ 1.Txh1 (3.419.684.311) 138943

42/97 0:33   0.00    1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Kb7
   4.Lxg3 Ka6 5.Lh4 e5 6.Lf2 Kb7 7.Le1 Kc6
   8.Lh4 f4 9.Lf2 Kd7 10.Lh4 f3 11.Lf2 Ke6
   12.Lg3 Kd5 13.Lh4 Kc6 14.Lf2 (4.606.490.202) 136097

43/53 0:33   0.00++   1.Txh1 (4.610.238.005) 136079

...
48/55 0:58   0.00    1.Txh1 Sxh1 2.e6 dxe6 3.Lc7+ Kb7
   4.Lxg3 Ka6 5.Lh4 e5 6.Lf2 Kb7 7.Lh4 (6.207.373.437) 106826

Mich würde an der Stellung schon ewig lang interessieren, wer sie komponiert hat, falls es überhaupt eine Studie ist. Am frühesten in der Talkchess- Suche sind Postings von George Tsavdaris aus 2013 zutage zu fördern. Selbst Ajedrecista, der einer der Historiker schlechthin dort ist, was Quellen von Teststellungen angeht, hat da mal nur andere Foren- Einträge gefunden, wenn ich mich recht erinnere.

By Klaus S. Date 2024-11-02 22:14

Zitat:

Ich hab hier mal einen aktuellen Crystal dev. probiert ...

Hallo, wo habt ihr (DU) diese Engines her:

Crystal dev. und Rems M 091024 ??

War länger krank, bin nicht auf dem laufenden.

By Peter Martan Date 2024-11-02 22:56

Die Crystal- dev.- Version hat mir jemand aus den aktuellen github- Sourcen kompiliert, Rems M(ultiPV) gibt's hier (so, dass man ihn nicht auf Eduards Homepage suchen muss, diese seine site ist ja mit ziemlich viel Text)

https://outskirts.altervista.org/forum/viewtopic.php?p=65998&view=single_post#p65998

Im Posting drunter eine noch etwas jüngere Version ohne das interne MultiPV- feature.

By Max Siegfried Date 2024-11-03 13:35

HTC ist viel zu alt und zu leicht.

Ich weise noch mal auf folgendes hin:
Top Chess Engines Testsuite 2024 v2
1 Minute pro Stellung
Stockfish mit normalen Einstellungen (so wie die Engine von 99,999999% aller Benutzer verwendet wird)
Stockfish 16.1 (20%) 23/115
Stockfish 17 (44%) 51/115
Von daher macht das 'Stockfish Team alles richtig.
Wenn das genauso weiterläuft, dann liegt Stockfish 18 bei 68% mit den normalen Einstellungen, was wollt ihr denn noch?
Stockfish 19 = 92% mit den normalen Einstellungen.

By Kurt Utzinger Date 2024-11-04 14:15 Upvotes 1

Max Siegfried schrieb:

Hallo Max

Auch dieser Test hat seine Mängel, u.a. Stellungen mit Nebenlösungen, völlig praxisfremde und sinnlose Stellungen.
Nur schon in der ersten Stellung 4rr1k/pQ4pp/8/7q/2B2BbP/P1P2nP1/5PK1/R6R b - - 0 1 gewinnen 1...Txf4 wie
auch 1...Se5 kinderleicht. 

Und eines zeigt auch dieser Stellungstest: Er kann die praktische Spielstärke nicht abbilden. So schneidet Stockfish 17 
im Vergleich zu den besten Lösern ("top Engines") derart grottenschlecht ab, dass man davon ableiten müsste, dass 
Stockfish 17 gegen diese top Engines keine Chance hätte. Das ist aber bekanntermassen überhaupt nicht der Fall, 
steht doch Stockfish 17 in praktischen Partien den fraglichen top Engines in nichts oder nur derart geringfügig nach, 
dass die Differenzen vernachlässigbar sind.

Unten eine kleine Liste meiner TCE-Tests mit 3 unterschiedlichen Computern.

Gruss
Kurt

Code:

TCE 2024 v2 Test (Rangliste Leistung per 02.11.2024)          
Total
Resultat  Prozent  Progamm  CPU  Zeit  all CPUs
          
84  73.0%  Light 29 MPV  AMD Ryzen 7 6800H  60s  221
70  68.8%  Light 29 MPV  i7-8750H  60s  221
67  58.2%  Light 29 MPV  i7-1065G7  60s  221
          
75  65.2%  Rems 150824, MultiPV=2 (2VM)  AMD Ryzen 6800H  60s  215
74  64.3%  Rems 150824, MultiPV=2 (2VM)  i7-8750H  60s  215
66  57.3%  Rems 150824, MultiPV=2 (2VM)  i7-1065G7  60s  215
          
75  65.2%  Rems M-091024  AMD Ryzen 7 6800H  60s  208
69  60.0%  Rems M-091024  i7-8750H                      60s  208
64  55.6%  Rems M-091024  i7-1065G7                    60s  208
          
66  57.3%  MagicKnight  i7-8750H  60s  194
66  57.3%  MagicKnight  AMD Ryzen 7 6800H  60s  194
62  53.9%  MagicKnight  i7-1065G7  60s  194
          
33  28.6%  Stockfish 17  AMD Ryzen 7 6800H  60s  90
31  26.9%  Stockfish 17  i7-1065G7  60s  90
26  22.6%  Stockfish 17  i7-8750H  60s  90

By Max Siegfried Date 2024-11-04 15:45

Kurt Utzinger schrieb:

Max Siegfried schrieb:

<code>Hallo Max

Auch dieser Test hat seine Mängel, u.a. Stellungen mit Nebenlösungen, völlig praxisfremde und sinnlose Stellungen.
Nur schon in der ersten Stellung 4rr1k/pQ4pp/8/7q/2B2BbP/P1P2nP1/5PK1/R6R b - - 0 1 gewinnen 1...Txf4 wie
auch 1...Se5 kinderleicht.

Und eines zeigt auch dieser Stellungstest: Er kann die praktische Spielstärke nicht abbilden. So schneidet Stockfish 17
im Vergleich zu den besten Lösern ("top Engines") derart grottenschlecht ab, dass man davon ableiten müsste, dass
Stockfish 17 gegen diese top Engines keine Chance hätte. Das ist aber bekanntermassen überhaupt nicht der Fall,
steht doch Stockfish 17 in praktischen Partien den fraglichen top Engines in nichts oder nur derart geringfügig nach,
dass die Differenzen vernachlässigbar sind.

Unten eine kleine Liste meiner TCE-Tests mit 3 unterschiedlichen Computern.

Gruss
Kurt

</code>

Code:

TCE 2024 v2 Test (Rangliste Leistung per 02.11.2024)          
Total
Resultat  Prozent  Progamm  CPU  Zeit  all CPUs
          
84  73.0%  Light 29 MPV  AMD Ryzen 7 6800H  60s  221
70  68.8%  Light 29 MPV  i7-8750H  60s  221
67  58.2%  Light 29 MPV  i7-1065G7  60s  221
          
75  65.2%  Rems 150824, MultiPV=2 (2VM)  AMD Ryzen 6800H  60s  215
74  64.3%  Rems 150824, MultiPV=2 (2VM)  i7-8750H  60s  215
66  57.3%  Rems 150824, MultiPV=2 (2VM)  i7-1065G7  60s  215
          
75  65.2%  Rems M-091024  AMD Ryzen 7 6800H  60s  208
69  60.0%  Rems M-091024  i7-8750H                      60s  208
64  55.6%  Rems M-091024  i7-1065G7                    60s  208
          
66  57.3%  MagicKnight  i7-8750H  60s  194
66  57.3%  MagicKnight  AMD Ryzen 7 6800H  60s  194
62  53.9%  MagicKnight  i7-1065G7  60s  194
          
33  28.6%  Stockfish 17  AMD Ryzen 7 6800H  60s  90
31  26.9%  Stockfish 17  i7-1065G7  60s  90
26  22.6%  Stockfish 17  i7-8750H  60s  90

Welche Mängel?
1.Stellungen mit Nebenlösungen sind kein Bug, sondern ein Feature. Die Testsuite testet Stockfish in diesem Fall genauso wie eine reale Partie. Da hat er auch mehrere gute spielbare Züge und spielbare Züge sind noch lange keine Nebenlösungen und Stockfish soll in der Testsuite auch keine Nebenlösungen oder nicht Nebenlösungen spielen, sondern den besten Zug. An zweit und drittklassigen Zügen bin ich nunmal nicht interessiert. Im übrigen verwenden 99,99% aller Schachspieler Stockfish, weil sie davon ausgehen, dass dieser den besten Zug finden wird und nicht eine Engine auf Rang Witz.
2.Praxisfremde Stellungen sind kein Bug, sondern ein Feature. Wenn ich diese praxisfremden Stellungen nicht hätte, dann würde ich genauso wie du auf deiner schwachen Hardware in wenigen Sekunden alle Stellungen bis auf 2 Stück gelöst bekommen und auf meiner Hardware wären es wahrscheinlich alle Stellungen = 100%. Erkläre uns mal warum jemand mit jedes mal 100% testen sollte?
3.Sinnlose Stellungen hast du nicht einmal definiert. Außerdem können die Stellungen ziemlich offensichtlicher Weise nicht so sinnlos sein, wenn bei 1 Minute pro Stellung (80%) 93/115 gelöst werden und bei 10 Minuten pro Stellung 108/115. Offensichtlich ist nicht einmal die Engine deiner Meinung. Aber Hauptsache ich lösche 7 Stellungen damit wir 108/108 haben oder besser noch ich lösche 65 Stellungen von 115 Stellungen damit wir 50/50 haben und dann alles viel zu leicht ist und wir gar nichts mehr testen können. Oder besser noch in nehme deine Stellungen damit ich immer 100% erreiche.
4.Dieser Stellungstest kann die praktische Spielstärke abbilden, zumindest deutlich besser als andere Stellungstests. Zur Erinnerung:
1 Minute pro Stellung:
-LC0 v0.31.0 BT4 6147500 MultiPV=4 (11%) 13/115
-LC0 v0.31.0 BT4 6147500 (14%) 17/115
-Stockfish 16.1 (20%) 23/115
-Stockfish 17 ohne 7-Steiner (33%) 38/115
-ShashChess 36 (41%) 48/115
-Stockfish 17 (44%) 51/115
-Stockfish 02042024 (45%) 52/115
-Fidelio 17 (51%) 59/115
-Stockfish 17 MultiPV=4 ohne 7-Steiner (52%) 60/115
-Stockfish 17 MultiPV=4 (63%) 73/115
-ShashChess 36 High Tal MultiPV=4 (66%) 76/115
-Stockfish 16.1 MultiPV=4 (66%) 77/115
-Stockfish 02042024 MultiPV=4 (66%) 77/115 (leider nicht besser als Stockfish 16.1 MultiPV=4)
-Leptir Big-Ultra MultiPV 4 (68%) 79/115
-Leptir Ultra (69%) 80/115
-ShashChess 35 High Tal MultiPV=3 (70%) 81/115
-ShashChess 37 High Tal MultiPV=4 (anstatt 8 Kerne: 6 Kerne + MCTS ON mit MCTSThreads = 2) Total corrects (70%) 81/115
-Leptir Big-Ultra Random Op. MultiPV 4 Plies 21 Score 10000 (72%) 83/115
-ShashChess Santiago High Tal MultiPV=4 (anstatt 8 Kerne: 6 Kerne + MCTS ON mit MCTSThreads = 2) (73%) 84/115
-ShashChess 35 High Tal MultiPV=4 (73%) 85/115
-Leptir Big-Ultra (74%) 86/115
-ShashChess 36 High Tal MultiPV=4 (anstatt 8 Kerne: 6 Kerne + MCTS ON mit MCTSThreads = 2) (74%) 86/115
-Leptir Big-Ultra Random Op. MultiPV 4 Plies 21 (75%) 87/115
-ShashChess 35 High Tal MultiPV=4 (anstatt 8 Kerne: 5 Kerne + MCTS ON mit MCTSThreads = 3) (75%) 87/115
-Fidelio 17 MultiPV=4 (75%) 87/115
-Leptir Big-Ultra Random Op. MultiPV 4 (76%) 88/115
-ShashChess 34.6 High Tal MultiPV=2 (76%) 88/115
-ShashChess 35 High Tal MultiPV=4 (anstatt 8 Kerne: 7 Kerne + MCTS ON mit MCTSThreads = 1) (77%) 89/115
-ShashChess 34.6 High Tal MultiPV=5 (78%) 90/115
-ShashChess 34.6 High Tal MultiPV=4 (80%) 93/115
-ShashChess 34.6 High Tal MultiPV=3 (80%) 93/115
-ShashChess 35 High Tal MultiPV=4 (anstatt 8 Kerne: 6 Kerne + MCTS ON mit MCTSThreads = 2) (80%) 93/115

Oder für dich und andere extra einfach ausgedrückt:
Stockfish 17 mit normalen Einstellungen und ohne TB ist stärker als Stockfish 16.1 mit normalen Einstellungen.
Stockfish 17 mit normalen Einstellungen und mit TB ist stärker als Stockfish 16.1 mit normalen Einstellungen.
Stockfish 17 mit normalen Einstellungen und mit TB ist stärker als Stockfish 17 mit normalen Einstellungen und ohne TB.
Es passt doch alles.
Natürlich kann eine Dev. Version stärker abschneiden als eine offizielle Version. Bei den ganzen Dev. Versionen wäre es komisch wenn es nicht so wäre. Das ist aber die Ausnahme und diese bestätigt bekanntermaßen die Regel. Genauso wie Magnus Carlsen der stärkste Spieler der Welt ist und trotzdem nicht immer auf Platz 1, 2 oder 3 landet, weil ein anderer gerade da etwas mehr Glück hatte.
Von daher sollte es niemanden überraschen wenn eine Engine beim Durchlauf besser oder schlechter abschneidet als erwartet.
Das es bei Testsuite Stellungen offensichtlich zur Sache geht, sollte auch niemanden wundern. Von daher ist es klar das gewisse Derivate mit MultiPV=(4) und diversen anderen taktischen Einstellungen und teilweise anderem Richtung Taktik (und oder Mattsuche usw.) getunten Code bzw. besser abschneiden werden. Diese kann man auch wunderbar untereinander Vergleichen, wobei es hier Aufgrund von immer neuen Änderungen am Code und mangelndem eigenen testen vor Veröffentlichung seitens der vielen unterschiedlichen Entwickler drunter und drüber gehen kann.
Der Sinn dieser Testsuite ist übrigens wie schon seit Ewigkeiten bekannt, die Entwicklung des normalen Stockfish mit normalen Einstellungen zu testen und offensichtlich funktioniert dies wunderbar:
-Stockfish 16.1 (20%) 23/115
-Stockfish 17 ohne 7-Steiner (33%) 38/115
-Stockfish 17 (44%) 51/115
Im Gegensatz zu anderen Testsuite, lässt sich mit dieser Testsuite sogar ausrechnen, wann bzw. mit welcher Stockfish Version die Engine z.B. über 50, 60, 70, 80, 90 Prozent holen wird. Vorausgesetzt die Entwicklung verläuft genauso gut wie bisher.

By Kurt Utzinger Date 2024-11-04 18:11 Upvotes 3

Max Siegfried schrieb:

Kurt Utzinger schrieb:

Max Siegfried schrieb:

Code:

TCE 2024 v2 Test (Rangliste Leistung per 02.11.2024)          
Total
Resultat  Prozent  Progamm  CPU  Zeit  all CPUs
          
84  73.0%  Light 29 MPV  AMD Ryzen 7 6800H  60s  221
70  68.8%  Light 29 MPV  i7-8750H  60s  221
67  58.2%  Light 29 MPV  i7-1065G7  60s  221
          
75  65.2%  Rems 150824, MultiPV=2 (2VM)  AMD Ryzen 6800H  60s  215
74  64.3%  Rems 150824, MultiPV=2 (2VM)  i7-8750H  60s  215
66  57.3%  Rems 150824, MultiPV=2 (2VM)  i7-1065G7  60s  215
          
75  65.2%  Rems M-091024  AMD Ryzen 7 6800H  60s  208
69  60.0%  Rems M-091024  i7-8750H                      60s  208
64  55.6%  Rems M-091024  i7-1065G7                    60s  208
          
66  57.3%  MagicKnight  i7-8750H  60s  194
66  57.3%  MagicKnight  AMD Ryzen 7 6800H  60s  194
62  53.9%  MagicKnight  i7-1065G7  60s  194
          
33  28.6%  Stockfish 17  AMD Ryzen 7 6800H  60s  90
31  26.9%  Stockfish 17  i7-1065G7  60s  90
26  22.6%  Stockfish 17  i7-8750H  60s  90

Aus dir spricht kein praktischer Schachspieler. Für solche sind zweit- und drittbeste Züge durchaus wichtig. Lieber gewinne ich mit einem drittbesten Zug, den ich berechnen/verstehen kann, als mit dem besten Zug, der menschliche Fähigkeiten übersteigt, bis am Ende den richtigen Gewinnweg zu finden.

Zitat:

2.Praxisfremde Stellungen sind kein Bug, sondern ein Feature. Wenn ich diese praxisfremden Stellungen nicht hätte, dann würde ich genauso wie du auf deiner schwachen Hardware in wenigen Sekunden alle Stellungen bis auf 2 Stück gelöst bekommen und auf meiner Hardware wären es wahrscheinlich alle Stellungen = 100%. Erkläre uns mal warum jemand mit jedes mal 100% testen sollte?

Ich verstehe nicht, weshalb man mit völlig praxisfremden Stellungen irgendwelche Tests aufbauen soll. Da ist jemand nur zu faul, um im unendlichen Dschungel von Schachpartien etwas Passendes zu finden.

Zitat:

3.Sinnlose Stellungen hast du nicht einmal definiert. Außerdem können die Stellungen ziemlich offensichtlicher Weise nicht so sinnlos sein, wenn bei 1 Minute pro Stellung (80%) 93/115 gelöst werden und bei 10 Minuten pro Stellung 108/115. Offensichtlich ist nicht einmal die Engine deiner Meinung. Aber Hauptsache ich lösche 7 Stellungen damit wir 108/108 haben oder besser noch ich lösche 65 Stellungen von 115 Stellungen damit wir 50/50 haben und dann alles viel zu leicht ist und wir gar nichts mehr testen können. Oder besser noch in nehme deine Stellungen damit ich immer 100% erreiche.

Eine sinnlose Stellung ist z.B. die Nr. 7: Weiss steht noch in der Grundstellung mit 8 Figuren und 8 Bauern, der Gegner (Schwarz) hat noch König und 2 Bauern. Gefordert ist ein lächerliches Matt in 7, was heutige Programme à tempo ausspucken. Und soll ein Programm bestraft werden, das sofort ein Matt in 9 sieht und dann weitere Berechnungen abbricht nach dem Motto: Matt ist Matt? Sinnloser geht es nicht.

Zitat:

4.Dieser Stellungstest kann die praktische Spielstärke abbilden, zumindest deutlich besser als andere Stellungstests. Zur Erinnerung:
1 Minute pro Stellung:
-LC0 v0.31.0 BT4 6147500 (14%) 17/115
-ShashChess 34.6 High Tal MultiPV=3 (80%) 93/115

Gerade das kann der Test eben nicht, die praktische Spielstärke abbilden, vor allem nicht im Vergleich der verschiedenen Engines. Wenn dieser, dein Massstab gelten würde, müsste ShashChess 34.6 High Tal MultiPV=3  gegen LC0 v0.31.0 BT4 6147500 auf 100 Partien also mit mindestens 80 : 20 gewinnen.

Gruss
Kurt

By Max Siegfried Date 2024-11-04 18:48

Kurt Utzinger schrieb:

Max Siegfried schrieb:

Kurt Utzinger schrieb:

Max Siegfried schrieb:

Code:

TCE 2024 v2 Test (Rangliste Leistung per 02.11.2024)          
Total
Resultat  Prozent  Progamm  CPU  Zeit  all CPUs
          
84  73.0%  Light 29 MPV  AMD Ryzen 7 6800H  60s  221
70  68.8%  Light 29 MPV  i7-8750H  60s  221
67  58.2%  Light 29 MPV  i7-1065G7  60s  221
          
75  65.2%  Rems 150824, MultiPV=2 (2VM)  AMD Ryzen 6800H  60s  215
74  64.3%  Rems 150824, MultiPV=2 (2VM)  i7-8750H  60s  215
66  57.3%  Rems 150824, MultiPV=2 (2VM)  i7-1065G7  60s  215
          
75  65.2%  Rems M-091024  AMD Ryzen 7 6800H  60s  208
69  60.0%  Rems M-091024  i7-8750H                      60s  208
64  55.6%  Rems M-091024  i7-1065G7                    60s  208
          
66  57.3%  MagicKnight  i7-8750H  60s  194
66  57.3%  MagicKnight  AMD Ryzen 7 6800H  60s  194
62  53.9%  MagicKnight  i7-1065G7  60s  194
          
33  28.6%  Stockfish 17  AMD Ryzen 7 6800H  60s  90
31  26.9%  Stockfish 17  i7-1065G7  60s  90
26  22.6%  Stockfish 17  i7-8750H  60s  90

<code>Aus dir spricht kein praktischer Schachspieler. Für solche sind zweit- und drittbeste Züge durchaus wichtig. Lieber gewinne ich mit einem drittbesten Zug, den ich berechnen/verstehen kann, als mit dem besten Zug, der menschliche Fähigkeiten übersteigt, bis am Ende den richtigen Gewinnweg zu finden.
</code>

Zitat:

<code>Ich verstehe nicht, weshalb man mit völlig praxisfremden Stellungen irgendwelche Tests aufbauen soll. Da ist jemand nur zu faul, um im unendlichen Dschungel von Schachpartien etwas Passendes zu finden.</code>

Zitat:

<code>Eine sinnlose Stellung ist z.B. die Nr. 7: Weiss steht noch in der Grundstellung mit 8 Figuren und 8 Bauern, der Gegner (Schwarz) hat noch König und 2 Bauern. Gefordert ist ein lächerliches Matt in 7, was heutige Programme à tempo ausspucken. Und soll ein Programm bestraft werden, das sofort ein Matt in 9 sieht und dann weitere Berechnungen abbricht nach dem Motto: Matt ist Matt? Sinnloser geht es nicht.</code>

Zitat:

<code>Gerade das kann der Test eben nicht, die praktische Spielstärke abbilden, vor allem nicht im Vergleich der verschiedenen Engines. Wenn dieser, dein Massstab gelten würde, müsste ShashChess 34.6 High Tal MultiPV=3 gegen LC0 v0.31.0 BT4 6147500 auf 100 Partien also mit mindestens 80 : 20 gewinnen.</code>

Gruss
Kurt

Ich bin doch gar nicht derjenige der die Teststellungen lösen muss, sondern Stockfish.
Und ob du es glaubst oder nicht, die Stockfish Entwickler wollen von Stockfish den besten Zug haben und nicht den Zug der aus menschlicher Sicht für Menschen besser ist, weil im menschlichen Glauben dieser einfacher sein könnte, nur weil der Mensch es ab und zu nicht auf die Reihe kriegt den besten Zug richtig einzuschätzen und Stockfish schon.

"Ich verstehe nicht, weshalb man mit völlig praxisfremden Stellungen irgendwelche Tests aufbauen soll. Da ist jemand nur zu faul, um im unendlichen Dschungel von Schachpartien etwas Passendes zu finden."
Das ist ganz leicht zu erklären: WEIL STOCKFISH ZU STARK IST.
Das ist übrigens auch schon lange klar.
Das mit dem Faul gebe ich leidenschaftlich gerne an dich zurück, schließlich beschwerst du dich darüber das dir diese Stellungen nicht passen, suchst/findest aber selbst keine anderen, (und selbst die Schachengines sind da anderer Meinung als du) und in deiner Testsuite erreicht man locker 100%, von daher müsstest du doch bei dir anfangen. Die Top Chess Engines Testsuite 2024 v2 wird noch mindestens 3 Jahre halten bevor 100% erreicht werden.

"Eine sinnlose Stellung ist z.B. die Nr. 7: Weiss steht noch in der Grundstellung mit 8 Figuren und 8 Bauern, der Gegner (Schwarz) hat noch König und 2 Bauern. Gefordert ist ein lächerliches Matt in 7, was heutige Programme à tempo ausspucken. Und soll ein Programm bestraft werden, das sofort ein Matt in 9 sieht und dann weitere Berechnungen abbricht nach dem Motto: Matt ist Matt? Sinnloser geht es nicht."
Na wenn das Matt so lächerlich einfach ist, dann kannst du uns bestimmt erklären warum die Engines das lächerlich einfache Matt nicht finden

? Und ist es dann so lächerlich einfach oder doch sau schwer? Als die Testsuite erstellt wurde, konnten weder LC0 noch Stockfish den richtigen Zug finden und das kein einziges Mal von jeweils 1000 Versuchen. Wir sind auf deine Erklärung gespannt

.
Ja ein Programm soll bestraft werden wenn es nicht den besten Zug spielt. Menschen verlieren ihre Partien weil sie beim Matt in 9 durchschnittlich häufiger gepatzt haben als beim Matt in 7. Zeitnot ist auch ein häufig aufkommendes Problem. Usw. Nur durchschnittlich 7 benötigte Züge sind generell besser als 9 Züge.
Im übrigen testet die Testsuite die Engines nicht nur auf "Hau Drauf" Taktik Züge, sondern auch auf andere Sachen wie z.B. kürzestes Matt.

"Gerade das kann der Test eben nicht, die praktische Spielstärke abbilden, vor allem nicht im Vergleich der verschiedenen Engines. Wenn dieser, dein Massstab gelten würde, müsste ShashChess 34.6 High Tal MultiPV=3 gegen LC0 v0.31.0 BT4 6147500 auf 100 Partien also mit mindestens 80 : 20 gewinnen."
Witzig, genau dies ist damals beim Test der Fall gewesen, was nicht verwundert, da ShashChess ein sehr starkes Stockfish Derivat ist und LC0 auf meinem MacBook auf der GPU, wie soll ich sagen... etwas langsam war. (und damit meine ich super extrem langsam)

Du bestätigst ständig selbst das die Testsuite super ist

By Kurt Utzinger Date 2024-11-04 19:32 Upvotes 1

Max Siegfried schrieb:

Kurt: Gerade das kann der Test eben nicht, die praktische Spielstärke abbilden, vor allem nicht im Vergleich der verschiedenen Engines. Wenn dieser, dein Massstab gelten würde, müsste ShashChess 34.6 High Tal MultiPV=3 gegen LC0 v0.31.0 BT4 6147500 auf 100 Partien also mit mindestens 80 : 20 gewinnen."

Max: Witzig, genau dies ist damals beim Test der Fall gewesen, was nicht verwundert, da ShashChess ein sehr starkes Stockfish Derivat ist und LC0 auf meinem MacBook auf der GPU, wie soll ich sagen... etwas langsam war. (und damit meine ich super extrem langsam)

Du bestätigst ständig selbst das die Testsuite super ist

Wenn man bei einem Test eben Äpfel mit Birnenkernen vergleicht, kann natürlich nichts Gescheites herauskommen. Ich wiederhole mich an meinem gebrachten Beispiel:

Resultat Prozent Progamm CPU

84 73.0% Light 29 MPV AMD Ryzen 7 6800H

33 28.6% Stockfish 17 AMD Ryzen 7 6800H

Wenn ich also auf meinem AMD Ryzen 7 6800H diese beiden Gegner mit derart stark unterschiedlichen Testergebnissen (Light = sau stark, Stockfish schwach) einen Wettkampf auf 100 Partien austragen lasse, müsste somit etwa ein Resultat von 70 : 30 für den Light 29 MPV herausschauen, da ja der Test gemäss deiner Aussage die praktische Spielstärke abbildet. In der Realität würde dieses Match aber wohl etwa ausgeglichen enden. Mehr brauche ich dazu nicht zu sagen. Gruss Kurt

By Klaus S. Date 2024-11-04 18:15

Mit ein bisschen Formatierung könnte man es auch lesen.

By Lothar Jung Date 2024-11-04 21:04

Der Wirrwarr wird mit Formatierung auch nicht besser.

By Peter Martan Date 2024-11-04 21:21 Edited 2024-11-04 21:36

Kurt Utzinger schrieb:

Auch dieser Test hat seine Mängel, u.a. Stellungen mit Nebenlösungen, völlig praxisfremde und sinnlose Stellungen.
Nur schon in der ersten Stellung 4rr1k/pQ4pp/8/7q/2B2BbP/P1P2nP1/5PK1/R6R b - - 0 1 gewinnen 1...Txf4 wie
auch 1...Se5 kinderleicht.

Dass ich versucht hatte, auch schon anhand der ersten Stellung davon, die du hier zitierst, zu helfen, diese "Suite" zu bereinigen, ist auch schon wieder eine Weile her, angefangen damals damit

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=168572#pid168572

und mit einigen Folgepostings.
Sowas tue ich mir nicht mehr an, ich hab' genug zu tun mit besseren Suiten, wenn ich auch noch mit jeder, die vergleichsweise halt doch einfach Schmarrn ist, dasjenige, was daran nicht passt, ausbessern wollte, was hätte ich davon, außer noch mehr einzelnen? Zu wenige sind's für mich sowieso auch schon länger nicht mehr.
Jeder muss selbst wissen, was ihn an Tests und Ergebnissen interessiert, Foren sind zwar einerseits geduldig (durchaus auch mit mir

), zum Diskutieren über konkrete Schach- Fragen taugen sowieso erst recht immer nur die einzelnen Stellungen und Züge. Schon über einzelne ganze Partien lohnt sich das selten (jedenfalls nicht anders als über die einzelnen Stellungen und Züge daraus) über Suiten aus denselben Gründen nicht, es werden einfach zu viele Stellungen und Züge, von denen es zu viele Unterschiede gibt, selbst wenn eine Partie ein eindeutiges Thema haben kann und eine Suite eines haben sollte.

Man kann sie für den jeweiligen Anwendungsfall und bestimmte Fragen passend finden, dann kann man sie auch für andere solche (Fragen) adpatieren in der Anwendung und verwenden (was nicht heißen muss, dass sie dafür dann auch automatisch passen) oder nicht, dann muss man (eine oder mehrere) andere (Suiten oder Stellungen) nehmen, so what?

By Kurt Utzinger Date 2024-11-04 22:51

Peter Martan schrieb:

Kurt Utzinger schrieb:

Hallo Peter Danke für diesen Hinweis, der mir bestätigt, dass der Testsuite TCE 2024 v2 eine Palette von Verbesserungen gut tun würde. Eine Testsuite, die zwischen fast gleich starken Engines eine derart riesige Differenz der Leistungen aufzeigt und oftmals genug Lösungszüge angibt, die fast gleichwertig mit dem zweitbesten Zug sind, gefällt mir gar nicht. Je länger ich mich mit Testsuites beschäftige, desto mehr tendiere ich zur Ansicht, dass es keine gibt oder geben kann, die ein realistisches Abbild bezüglich Stärkevergleich der Engines geben. Dies auch deshalb, weil die stärksten Engines vermutlich nicht wegen der Trefferquote von so genannten Bestzügen (was in Testsuites meistens verlangt wird) an der Spitze liegen. Vielmehr sind es wohl die ganz kleinen positionellen Dinge: Jeder 3. - 5. Zug ist um 0.03 - 0.10 besser als der gegnerische, was dann am Ende eine Gewinnstellung ergibt, die dann meistens auf verschiedenen Wegen zu gewinnen ist. Eine Testsuite zu erstellen, die solche Feinheiten unterscheidet, dürfte ein Ding der Unmöglichkeit sein. In diesem Sinne können die heutigen Testsuites nur einen groben Eindruck zur realen Stärke von Engines aufzeigen - wenigstens beim Vergleich von etwa gleich starken Programmen. Und für einen Vergleich zwischen Crafty 23.05 mit Stockfish 17 geht es auch ohne Testsuite, um Klarheit der Verhältnisse zu schaffen. Gruss Kurt

By Peter Martan Date 2024-11-04 23:52 Edited 2024-11-05 00:05

Kurt Utzinger schrieb:

Je länger ich mich mit Testsuites beschäftige, desto mehr tendiere ich zur Ansicht, dass es keine gibt oder geben
kann, die ein realistisches Abbild bezüglich Stärkevergleich der Engines geben. Dies auch
deshalb, weil die stärksten Engines vermutlich nicht wegen der Trefferquote von so genannten
Bestzügen (was in Testsuites meistens verlangt wird) an der Spitze liegen.

Naja, Kurt, Bestzüge zu verlangen, ist ok., wenn es Bestzüge sind, als solche von den Nächstbestzügen ausreichend gut unterscheidbar sind, und die für die Engines und die Züge vorgegebene Hardware- TC passen. Die Frage, wie relevant dir die Stellungen, die du so verwenden kannst, fürs eng-eng-match sind (oder fürs menschliche Spiel, nur weil bestimmte Stellungen nicht von bestimmten Engines aufs Brett gebracht werden, weil die vorhergehenden Züge oder Fehler dafür fehlen, heißt das ja nicht, dass einem solche Stellungen nicht trotzdem des menschlich - schachlichen Interesses wert sein können, wie sie von Engines bewertet werden), das ist wieder eine andere Frage, die jeder, der das testen will, selbst entscheiden muss und dementsprechend die Auswahl der Stellung(en).

Zitat:

Vielmehr sind es wohl die ganz kleinen positionellen Dinge: Jeder 3. - 5. Zug ist um 0.03 - 0.10 besser als der gegnerische,
was dann am Ende eine Gewinnstellung ergibt, die dann meistens auf verschiedenen Wegen zu
gewinnen ist. Eine Testsuite zu erstellen, die solche Feinheiten unterscheidet, dürfte ein Ding
der Unmöglichkeit sein.

Warum? Hast du dich immer noch nicht mit dem Prinzip der uralten Strategic Test Suite und mit Folge- Tools wie MEA beschäftigt?

Zitat:

In diesem Sinne können die heutigen Testsuites nur einen groben
Eindruck zur realen Stärke von Engines aufzeigen - wenigstens beim Vergleich von etwa gleich
starken Programmen. Und für einen Vergleich zwischen Crafty 23.05 mit Stockfish 17 geht es
auch ohne Testsuite, um Klarheit der Verhältnisse zu schaffen.

Die heutigen test- suites sind eben nicht nur die von dir anscheinend immer noch fälschlich als die einzigen betrachteten game changing single best move- suites, und abgesehen davon ist das mit der "realen" Stärke halt einfach ein Konstrukt, eine Elosion, eine Summe von Ergebnissen (ein einzelnes solches game playing match aus einem einzelnen bestimmten engine- pool mit einer einzelnen hardware- TC und einem einzelnen Eröffnungstestset wirst du mir auch nicht nennen können, auf dass du diesen frommen Wunsch einer "realen" Stärke gründen könntest) aus einer Summe von game playing matches, wie sehr deren Testbedingungen deren Ergebnisse von einander unterscheiden, kann man selbst am Vergleich Stockfish- Crafty nicht wirklich eindeutig und "real" bestimmen, wenn's einem eben nicht nur auf die Frage ankommt, ob Stockfish stärker ist als Crafty, sondern man auch in diesem Vergleich irgendeine Quantifizierung und eine Relation zu anderen derartigen Performances und anderen Engines haben will. In dem Posting von Peter Berger im Talkchess, das ich heute schon einmal verlinkt habe, geht's ausgerechnet auch um Crafty und Stockfish, und auch wenn's dort "nur" ums game playing geht, ist die Frage nach der "Realität" von Spielstärkemessungen genau dieselbe:

https://talkchess.com/viewtopic.php?p=971161#p971161

Es ist dieselbe Frage, die du beim Betrachten jeder einzelnen Schachstellung beantworten kannst und musst, wenn du sagen willst, für wie relevant du sie für welche Aussage zum Thema Spielstärke von Engines im Vergleich zueinander hältst: wie wichtig ist dir welches Kriterium, das du schachlich an der Stellung beschreiben kannst und wieviel zählt dir welcher Messparameter, den du im Engine- Output und seinem zeitlichen Verlauf im Vergleich zu anderen Engines heranziehen kannst.
Die Frage, ob's eine game changing single best move- Stellung ist oder eine mit mehreren ähnlich guten Abspielen, unter denen keine oder nicht nur forcierte solche sind, die Frage, wie schnell dir die Engine auf welcher Hardware deine beste Hauptvariante bis zu welcher Zahl an Zügen zeigt, wie schnell sie einen der besten Züge oder den einen besten wählt, und wie gut sie all das evaluiert, die single best moves im Verhältnis zu den nächst weniger forciert gewinnenden oder das Remis sichernden, die ähnlich guten im Verhältnis zueinander, wie gut die numerischen Evals (ob in cp oder WDL- Wahrscheinlichkeiten oder in distances to mate, wenn schon anrechenbar) in welcher Zeit relativ zu anderen Engines und deren zeitlichem Output- Verlauf ist, das alles ist genau messbar, single thread (A-B) mit einzelnen Messungen, multithreaded mit entsprechend vielen Versuchen, damit Durchschnittswerte statistisch relevant sind, die Frage, wie relevant das alles für deine Vorstellung von "realer" Spielstärke ist, das ist schlicht und einfach genau das: Frage deiner persönlichen Einschätzung und deines persönlichen Interesses, deiner Vorstellung von Schach.
Aber ein kleiner Trost ist vielleicht bei solchen Spitzfindigkeiten, dass genau dieselben Überlegungen, die du da zur Auswahl von Teststellungen für nicht ausgespielte Stellungstests anstellen kannst (und halt auch musst, wenn du sie als Teststellungen verwenden willst) zur Auswahl von Teststellungen, die zum Ausspielen im game playing gedacht sind, angestellt werden müssen. Nur, weil die Engines von ihnen ausgehend, dann noch viele viele weitere Teststellungen selbst aufs Brett bringen, ist ja die Frage, welchen Anteil an denen und am Ausgang der Partien die Ausgangsstellungen haben, auch nicht egal, man könnte sogar argumentieren, im Gegenteil. Und wer sagt, dass die Ergebnisse aus dem game playing relevanter sind, wenn sie nur von frühen Eröffnungsstellungen ausgespielt werden, dass es nicht den "realen" Spielstärkeverhältnissen besser entspräche, und sie vielleicht vor allem auch Unterschiede besser hervortreten ließe, wenn man auch von späten Eröffnungs-, Mittelspiel- und Endspielstellungen ausspielen ließe?

Binsenweisheiten, ich weiß, aber soll man's deshalb ständig hartnäckig ignorieren, wenn's drum geht, sich auf eine bestimmte Messung, eine bestimmte Testumgebumg im game playing, ein bestimmtes einzelne Eröffnungstestset, eine Suite, eine bestimmte einzelne Stellung festzulegen und zu beschränken?
Die einzige Stellung mit der man das mit einer gewissen Begründung machen könnte, wäre die Grundstellung, aber selbst bei der kommt's dann noch unheimlich drauf an, welche Engines mit welcher Hardware- TC sie ausspielen. Und von den ersten 10, 20 modernen Engines wirst du mit ihr allein nicht einmal mehr ein gemeinsames Ranking zusammenbringen mit mehr als einer Hardware- TC, außer vielleicht, was die ersten 2 Plätze angeht, aber nicht einmal bei denen, wenn du Settings, Branches, Netze als Teilnehmer für sich auch gelten lässt.

Sorry, ist halt so, macht mir aber eben nix, drum kann's ich's auch ruhig so zur Kenntnis nehmen und für meine vielen verschiedenen Definitionen von Spielstärke viele verschiedene Stellungen und Testmethoden gelten lassen, ohne mir sonderlich viele Gedanken darüber machen zu müssen, welche die (auch nur für mich, geschweige denn für Andere) die relevantesten sind. Dass es keine einzig relevante Spielstärke und daher auch keine einzig relevante Art gibt, sie zu messen, darüber muss ich erst recht schon lange nicht mehr grübeln, daher auch nicht über die Frage, ob's eine einzige beste, weil relevanteste Suite gibt, (oder ob das genau diejenige wäre, die zu einem bestimmten game playing match die ähnlichsten Ergebnisse hätte, und ob man sich mit der dann dieses eine game playing match ersparen könnte) ob eine einzelne Suite überhaupt und wie sehr und im Vergleich wozu relevant ist, ebenso wenig wie, ob's ein einziges Eröffnungstestset gibt, mit dem man alle Engines mit jedweder Hardware- TC ausspielen lassen muss.
Ich glaube, ich sollte es langsame wieder gut sein lassen für heute

By Kurt Utzinger Date 2024-11-05 11:54 Upvotes 1

Peter Martan schrieb:

Zitat:

Vielmehr sind es wohl die ganz kleinen positionellen Dinge: Jeder 3. - 5. Zug ist um 0.03 - 0.10 besser als der gegnerische, was dann am Ende eine Gewinnstellung ergibt, die dann meistens auf verschiedenen Wegen zu gewinnen ist. Eine Testsuite zu erstellen, die solche Feinheiten unterscheidet, dürfte ein Ding der Unmöglichkeit sein.

Warum? Hast du dich immer noch nicht mit dem Prinzip der uralten Strategic Test Suite und mit Folge- Tools wie MEA beschäftigt?

Hallo Peter Nein, mit MEA Tools habe ich mich noch nie beschäftigt. Du meinst damit Werkzeuge, die bei der Bewertung von Zügen helfen? Von solchen Werkzeugen verspreche ich mir nicht viel, weil der Bewerter eine Engine sein müsste, die weit stärker ist als die heutigen Top Engines. Denn was bringt es, wenn Stockfish die Züge von Lc0 oder umgekehrt bewertet? Gruss Kurt

By Peter Martan Date 2024-11-05 12:31 Edited 2024-11-05 13:30

Das Prinzip von MEA ist, wie es auch schon das der STS von Swaminathan und Corbit anno dazumal war, Stellungen mit multiplen Lösungen je nach deren Wertigkeit zueinander (von gleich gut bis deutlich schlechter aber noch innerhalb einer auch frei wählbaren Range von beliebig vielen bis einzelnen Kandidatenzügen, also single best move Stellungen können schon auch verwendet werden, und sie können mit solchen mit mehreren ähnlich guten Lösungszügen in einer Suite kombiniert werden) bekommen pro Lösung verschieden viele Punkte. Die kannst du (wie's früher vom Swami und Dann gemacht wurde) in der Höhe beliebig definieren, auch kannst du bei Stellungen, die du nach der Hardware-Zeit, die die Engines brauchen, um richtig zu sortieren, ein höheres Punkteniveau vorgeben als bei leichteren.
Natürlich haben sich schon die damaligen beiden Autoren nach Engines der damaligen Zeit gerichtet, in der "Hochblüte" von STS war's Ryba. Und natürlich richtet man sich heutzutage nach Stockfish und Lc0, aber der Weg, den Ferdy z.B. auch mit einer eigenen MEA- Bewertung von STS gegangen ist, die MEA- Punkte direkt aus SF- Evals umzurechnen

https://github.com/fsmosca/STS-Rating

, ist zwar vielleicht der mit am wenigsten manueller Syntax- Arbeit, und er trägt dem Prinzip Rechnung, dass man ja sowieso jedes Engine- Rating und - Ranking aus dem Vergleich mit anderen Engines gewinnt, aber es ist sicher nicht der einzige Weg, die ersten STS- MEA- Versionen hatten einfach Punkte von 1-10 bei einzelnen bis meistens höchstens 5 Lösungen. Ed hat in den beiden ersten MEA- STS- Suiten eine, die mit SF evaluiert war und eine zweite mit Lc0 als Bewertungs- Engine mitgeliefert.
Und ja, natürlich richte auch ich mich in den Punkten, die ich vergebe, nach SF (und oder Lc0- Evals, manchmal nehm' ich noch Branches wie Crystal dazu, vor allem bei Fortresses) wo ich die halt für die richtigen nach etwas Forward- Backward und single primary- MultiPV- Wechsel halte, aber ich vergebe die Punkte nicht direkt nach der Eval, sondern nach dem Verhältnis der Evals im MultiPV zueinander und wie gesagt nach dem "Schweregrad" der Stellungen, was ihren Hardware- Zeitbedarf angeht, den die Spitzen- Engines dafür empirisch brauchen.

Das ist das einfache Prinzip, wenn's dich wirklich näher interessiert, erörtern wir das per Mail, absichtlich gebe ich jetzt hier keine Beispiele für MEA- Suiten, wie ich sie für gut halte und verwende, (die im MEA- Download enthaltenen und die vom obigen github-Link von Mosca sind auch für mich nach wie vor durchaus verwendbar) weil was auch dieser Methode natürlich innewohnt ist, wie könnte es anders sein, dass die Ergebnisse von der Wahl der Stellungen abhängt und von der vorgegebene Hardware- TC und den Engines, die miteinander verglichen werden.
Und dann ist der Vergleich von Engines auf dieser Basis ja auch absolut nicht auf MEA als Tool beschränkt, SIMEX in den Versionen von Ed Schröder hat den Kern des arbeitenden Tools mit MEA gemeinsam (in den letzten Versionen von SIMEX heißt die binary auch gleich, nämlich mea.exe). Die Wertungen an similarity ebenso wie die an anderen ratings und rankings, die du auf diese Art mit Suiten beliebiger Art und Größe bekommst, haben alle ein ähnliches Prinzip. Der nächste Schritt nach MEA hieß Temere bei Schröder, aber darüber hat er im Talkchess mittlerweile selbst schon einmal geschrieben, dass er's nicht mehr für gut hält

https://talkchess.com/viewtopic.php?p=968581#p968581

. Da wurden dann einfach ganze Datenbanken mit Partiesammlungen mit MEA ausgewertet, ja, warum nicht, aber bei >40.000 Stellungen wird halt die Hardware- Zeit, die allein schon die Bewertung braucht, etwas aufwändig, dann wird bei vernünftigem Aufwand die Rechenzeit und die Evaluierung und Zugsortierung auch bei heutiger Hardware und selbst mit Stockfish immer unzuverlässiger, und die Stellungen alle interaktiv nachzuprüfen, das tue selbst ich mir bei diesen Mengen nicht an, sonst wohl auch niemand.
Und dann sind wir hier wieder an demselben springenden Punkt: überschaubar Größen an Suiten (meine durchschnittlichen sind ziemlich einheitlich um die 1000 Stellungen groß), die in vernünftiger Hardware- Zeit durchlaufen, bringen viel mehr, wenn man ein paar davon aus verschieden Stellungsarten für verschiedene Hardware- TCs nacheinander laufen lässt, als eine riesengroße, in der Kraut und Rüben zusammengeworfen ist (wie leider auch immer wieder in kleineren Suiten), nicht nur im Charakter der Stellung, sondern vor allem auch im Schweregrad. Aus mehreren solchen Einzel- Resultaten dann eine gemeinsame Wertung vorzunehmen, indem die Punkte Stellung für Stellung und Engine für Engine als WDL- Ergebnisse ausgerechnet werden (was sich auch gleich in Elo umrechnen lässt, und das sind keine Phantasie- Elo, es sind ebenso wie im game playing aus WDL- Performances berechnete) hat Frank Sanders seinerzeit auch gebaut, siehe seine Blogs hier im Forum dazu.
Für single best move- Stellungen gibt's Ähnliches, mit einer eigenen Umrechnungsformel der Stellung- Stellung- Engine- Engine- Matches in Elo aus WDL unter Berücksichtigung der einzelnen Lösungszeiten jeder Engine und Stellung, das Programm von Frank Schubert namens EloStatTS, aber das ist mittlerweile ja hoffentlich ohnehin hinreichend bekannt und funktioniert halt nur für single best move- Suiten und für Fritz- Ergebnisse, was das GUI angeht. MEA braucht kein GUI, es ist ein command line tool.
Aus, aus, aus, interessiert ja eh schon wieder längst niemanden mehr hier