Program Score % Av.Op. Elo + - Draws
1 Stockfish dev-20240728-2343f71f : 50.5/100 50.5 3498 3502 13 10 97.0 %
2 LCZero 0.31-dag-5350a2e-BT4-6147500 : 49.5/100 49.5 3502 3498 10 13 97.0 %
Hallo Stefan
Das UHO (Unbalanced Human Openings 2024) Konzept von Stefan Pohl ist meiner Meinung nach grossartig und eine der besten Ideen im Computerschach der letzten Jahre, um die Stärke von Engines zu messen. Nach meiner Erfahrung gibt es keine Testsuite, die zuverlässige Ergebnisse liefert. Das liegt zum einen daran, dass diese Tests viel zu wenige Stellungen enthalten, und zum anderen daran, dass diese Tests nicht in der Lage zu sein scheinen, die reale Stärke der Engines zu messen. Die einzige zuverlässige Testmethode schein daher, so viele Partien wie möglich zu spielen. Und da bei "normalen" Eröffnungsbüchern fast 99% aller Partien remis enden, ist die Methode von Stefan Pohl einfach genial. Denn hier werden die Stärkeunterschiede zwischen den Engines sehr deutlich. Stärkere Engines sind viel eher in der Lage, bessere Eröffnungsstellungen zum Sieg zu führen. Solche Unterschiede lassen sich mit Teststellungen allein nicht messen. Das zeigt sich insbesondere auch bei Testsuites, wo Stockfish 16.1 relativ schlecht abschneidet. Lässt man dann jedoch Stockfish mit UHO-Vorgaben gegen die Engines spielen, die bei Tests ganz vorne liegen, ist von dieser (testmässigen) Überlegenheit kaum mehr etwas zu spüren. Vielen Dank an Stefan Pohl für seine grossartige Arbeit, denn beim ganzen Projekt steht nämlich wirklich ein Riesenaufwand dahinter.
Viele Grüsse
Kurt
Hallo Peter
Eine Teststellung im Schach ist für mich eine spezifische Position auf dem Schachbrett, die verwendet wird, um die Fähigkeiten eines Spielers oder einer Schach-Engine zu bewerten. Ist der Spieler oder die Engine in der Lage, in dieser konkreten Stellung die gestellte Aufgabe (taktisch, strategisch, usw.) zu meistern. Wenn ich jedoch eine bestimmte Eröffnungsstellung ausspielen lasse, ist das für mich keine eigentliche Teststellung, sondern nur eine Ausgangsstellung. Hingegen könnte man die in den nächsten 30 - 50 Zügen entstehenden Positionen für jeden zu findenden Zug als 60 - 100 Teststellungen betrachten, gilt es doch hier, jeweils den besten Zug zu finden. So gesehen müssten die Engines mit z.B. den Eröffnungen UHO_2024_6mvs_+105_+114 (4'125 Stellungen) zwischen 222'750 und 387'750 Teststellungen absolvieren. Und dass bei dieser Vielzahl von Stellungen ungleich viel mehr Motive abgedeckt werden als in üblichen Schachstellungen ist klar. Und da die Ausgangsstellung eben wirklich "unbalanced" daherkommt, wird sich in diesen Partien bezüglich Spielstärke automatisch der Spreu vom Weizen trennen. Bei meinen Tests habe ich übrigens festgestellt, dass die Eröffnungen UHO_2024_8mvs_+100_+109 wohl etwas zu wenig "unausgeglichen" sind, um wirkliche Unterschiede genügend klar zu erkennen.
Viele Grüsse
Kurt
Hallo Stefan
Da ich bislang nur UHO 2024 verwendet habe, kann keine Verwechslung vorliegen. Absolut sicher bin ich (noch) nicht und mein Text hätte eher so lauten müssen: (Bei meinen Tests habe ich übrigens festgestellt, dass die Eröffnungen UHO_2024_8mvs_+100_+109 vielleicht etwas zu wenig "unausgeglichen" sind, um wirkliche grosse Unterschiede genügend klar zu erkennen.) Es kann natürlich an noch zu wenigen Partien liegen. Ferner am Umstand, dass meine Reference-Engine eben Stockfish 16.1 ist, die ich zu vergleichen suche mit verschiedenen top Derivaten, die in meinen Stellungstests ganz massgeblich stärker punkten als Stockfish 16.1. Und diese grossen Unterschiede haben sich bislang bei UHO_2024_8mvs_+100_+109 fast nicht ausgewirkt. Deshalb habe ich zu UHO_2024_6mvs_+105_+114 gewechselt, wo es bislang besser aussieht. Aber natürlich auch hier noch zu wenige Partien. Mich reizt es einfach zu "beweisen", dass Ergebnisse von Stellungstests mit dem Spielen von Partien bezüglich Resultaten nur schwerlich bis gar nicht vergleichbar sind. Allerdings frage ich mich, was mir diese Untersuchungen bringen. Ich brauche die Engines ja meistens nur für meine Analysen ... und wenn ein Stockfish-Derivat in der Analyse eben (viel) schneller eine bessere Einschätzung der jeweils analysierten Stellung bringt, dann brächten mir meine Untersuchungen keinen praktischen Nutzen.
Viele Grüsse
Kurt
104 94.5% Light 29 MPV-avx2
103 93.6% Beast 15 MPV-avx2
98 89.0% Cool Iris 11.80
92 83.6% Stockfish 16.1
78 70.9% Dragon 3.1 by Komodo Chess 64-bit
72 65.4% Berserk 13
37 33.6% Deep Shredder 13
vielleicht
weniger Sinn machen, UHO Vorgaben zu verwenden. Aber in einem Turnier der nur Besten unter sich sehr wohl, will man nicht die bekannte Remisquote von 98% sehen und das Gefühl haben, alle Engines sind gleich stark. So oder so scheinen mir aber UHO Vorgaben die beste Wahl, um wenigstens resultatmässig noch spürbare Unterschiede in der Rangierung/Spielstärke feststellen zu können.Hallo Frank
Hier machst du meines Erachtens einen Denkfehler. Bei den UHO-Eröffnungen wird jede Stellung
einmal mit Weiss und einmal mit Schwarz gespielt. Es herrschen also die gleichen Bedingungen.
Und wegen der Ungleichheit der Ausgangsstellung zeigt sich eben viel klarer, welche Engine
wirklich stärker spielt. Schwächere Engines können den Vorteil oftmals nicht nutzen, weil die
stärkeren Engines gegen das ungenügende Agieren der Gegner den vorhandenen Nachteil
langsam ausgleichen können. Solche Unterschiede lassen sich in Partien mit ausgeglichener
Ausgangsstellung viel seltener feststellen, zumal auch diese "schwächeren" Engines auf
einem Niveau spielen, wo sie dann durch die stärkeren Programme nur noch ausnahmsweise
überspielt werden können.
Viele Grüsse
Kurt
Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill