Immer schon habe ich nach Mitteldingen zwischen "klassischem" Eng-Eng-Match und "klassischem" Stellungstest gesucht, je heißer das Eisen Stellungstest (und das Eisen Eng-Eng ja erst recht) wird, umso mehr geht's mir wieder im Kopf herum.
Die Hauptkritik an den taktischen single best move - Tests war immer die Auswahl der Stellungen und ihre Anzahl in den Sammlungen.
Meine Hauptkritik an Eng-Eng für Ranglisten und Elowertung war immer dieselbe, ohne Auswahl an Eröffnungs- Teststellungen keine Ergebnisse von Interesse und Aussage, buchloses Match von der Grundstellung könnte man zwar heutzutage mit den Unmengen an Engines, die für sich schon Abwechslung bringen, auch wiederbeleben, aber der Remistod lässt auch dieses Match sterben, es sei denn für ganz für sich stehende einzelne Ergebnisse ihrerseits.
Ich müsste die Forensuche bemühen, das letzte Mal (vom ersten ganz zu schweigen) zu finden, wann ich hier über Stellungstests anhand anderer als taktischer single best move Stellungen schrieb, immer schon hätte ich dazu Output von Engines herangezogen, nicht nur den ersten Zug vergleichend, sondern auch weitere Folgezüge und Evals.
Wäre es nicht wirklich langsam an der Zeit, die Engines beim Wort zu nehmen, was ihre Evals angeht? Natürlich sind sie nach wie vor sehr davon abhängig, welche Engine an welcher Stellung, aber wäre das nicht auch schön langsam einen methodischen Vergleich wert?
Natürlich hat eine Eval ohne Output- Line länger als einen Halbzug keinerlei Aussagekraft für sich, aber in Kombination mit den Varianten ist sie doch das, worauf ständig alle Computerschachspieler zumindest auch mehr oder weniger genau schauen, nein? Ist eine Eval "korrekt", was die Output- Line und den zu erwartenden Partie- Ausgang ausgeht, oder ist sie schlicht und einfach falsch nach objektivierbaren Kritierien und in welchem Ausmaß gilt das Eine oder das Andere?
Und wenn wir diese Überlegung bei Stellungen und Zügen nicht anstellen, sei's für die Auswahl von Teststellungen oder von Stellungen, die wir selbst spielen wollen, wie wollen wir dann die schachliche Leistung von Engines überhaupt beurteilen? Wenn wir nicht wissen, woher die ganzen und die halben Punkte kommen, wird's spätestens dann knapp mit den Aussagen von Interesse, wenn die halben Punkte die Überhand so gewinnen, dass keine ganzen mehr übrig bleiben oder die ganzen nur mehr aus 1:1- Paaren kommen.
Die Eröffnungs- Testsets werden doch auch genau so zusammengestellt, nach immer mehr Vorteil für eine Seite suchend, so dass er gerade noch nicht zu groß wird: indem die Evals verschiedener Engines dieser Stellungen im Zusammenhang mit den erwarteten Remisquoten verglichen werden und mit dann am Ende wieder mit denen Ergebnissen, die herauskommen, danach werden die Eröffnungsstellungen selektiert und gesammelt. Für ausgespielte Stellungstests namens Eng-Eng-Match, sag' ich gerne in dem Zusammenhang, und zwar natürlich auch immer vielfältiger angepasst an das jeweilige Teilnehmerfeld und die Hardware- TCs, die man spielen lassen will.
Der neue Hiarcs Chess Explorer Pro hat ein Feature, das genau das, was ich da immer schon vorgeschlagen hatte und hätte, automatisiert anbietet:
Es wird eine Partie oder eine Zugfolge beliebiger Länge oder Kürze von eine Engine rückwärts analysiert (vorwärts eine vorgebene Zugzahl ausspielen zu lassen, geht sowieso mit jedem GUI, Vorwärts- Analyse einer Partie oder Variante ist schon nicht mehr so leicht zu finden, Arena z.B. kann das auch), und nicht nur, wie man's kennt, werden Alternativzüge und -Varianten dort, wo sie von den Textzügen abweichen, notiert mit Evals und Rechenzeit (-Tiefe), sondern zum Schluss wird ein Wert ausgerechnet, der aus Eval- Unterschied am Anfang und am Ende der untersuchten Variante, dividiert durch die Zahl der untersuchten Züge, besteht.
Einfach Quotient aus (Eval Ende - Eval Anfang) : Zugzahl.
Was man jetzt nur noch bräuchte, um die so ermittelten Werte unter verschiedenen Engines vergleichen zu können, wären gut durchanalysierte Testvarianten, von denen man sich nicht einmal unbedingt so genau auf die best moves festlegen müsste (was ja bei z.B. Eröffnungsstellungen nicht soo einfach ist), ähnlich gute Züge bekommen zusätzliche eigene Lines, worüber man sich als Testinhalt einigen müsste, wären "nur" Eval- Ranges für die Testvarianten an ihrem Anfang und an ihrem Ende.
Bleiben wir mal bei den Eröffnungsstellungen, die ja ohnehin das Problem bei Eng-Eng-Matches auch sind, was spricht dagegen, einfach Varianten aus den Datenbanken zu nehmen, die schon gute statistische Absicherung über die Gewinnwahrscheinlichkeiten der viel gespielten Züge haben?
In Zeiten der Evals inform von prozentuellen solchen (Gewinnwahrscheinlichkeiten) könnte man diese Art der Evals (werden ja von den meisten Engines mittlerweile auch umgerechnet und wahlweise angeboten) direkt mit denen vergleichen, die in den Datenbanken schon fertig dabei stehen, Elo- Performances der Züge stehen meistens auch gleich dabei.
So what?
Elo aus Eval, egal ob in wdl- Prozenten oder Centipawn, bei den Eröffnungsstellungen auch gleich ohne komplizierte Testmethodik zu haben, aber so leicht wollen wir's uns ja wieder nicht machen, oder?

Was man solchen Tests jedenfalls nicht mehr vorwerfen müsste: die Stellungen (Varianten) müssten nicht taktisch forciert sein, sie müssten nicht auf Mittel- und Endspiel beschränkt sein, man könnte endlich (was sowieso immer schon notwendig gewesen wäre und jetzt immer notwendiger wird) Eröffnung, Mittel- und Endspiel extra testen.
Wem die Rückwärtsanalyse allein zu selektiv ist, der kann sie ja mit Vorwärts- Ausspielen bestimmter Zugzahlen oder bis zu bestimmten Materialgrenzen kombinieren, Grundlage der Auswertung wären aber ebenfalls nicht mehr nur ganze und halbe Punkte ganzer Partien, sondern (auch) Variantenlängen und Evals.
Das auch von namhafter Mathematiker- Seite (Prof. Althöfer hatte sich vor eine Weile auch schon mal in diese Richtung Elo- kritisch geäußert) immer mehr bemängelte eindimensionale Messen wäre um ein paar Parameter mehr bereichert.
Soll ich weiter phantasieren und Beispiele dafür bringen, was ich meine, oder steigen hier eh schon Alle aus, die schon beim Thema "konventionelle Stellungstests" die Nase voll haben? Und ist das wirklich die Mehrheit, soviel wie an Stellungstest- Ergebnissen in der letzten Zeit veröffentlicht worden ist?
Ich warte erst mal erste Reaktionen ab, abwartet