Frank Quisinsky schrieb:
Guten Morgen Stefan,
nur, was erwartest Du wenn zwei gleiche Programme gegeneinander antreten?
Derzeit teste ich ShashChess 20.2 in meiner KI-Liste.
Die Engine ist wie es erwartet werden konnte ca. 25 Elo hinter Stockfish vom 31.12.2021 nach jetzt über 700 Partien gegen 40 Gegner.
Aus dem Kopf heraus ... glaube die Remisquote gegen 40 Gegner ist 5% höher!
Das ist grundsätzlich gar ein gutes Ergebnis, denn in der Regel ergibt jede Änderung bei einer Kopie tatsächlich eine Verschlechterung.
Nicht zu sehen im direkten Vergleich!
Habe mir hier schon einige der Clones angesehen.
Die Remisquote steigt gegenüber dem Original immer deutlich an.
Dieses Ergebnis von ShashChess ist also wirklich gut bei einer längeren Zeitkontrolle.
Im direkten Vergleich hat jetzt nach fast 20 Partien im Match gegen Stockfish selbst, ShashChess 1x verloren (war auch die einzige Verlustpartie).
Das eine entscheidende Partie dabei war ist schon grenzwertig ... könnte nach 100 Partien auch so laufen wie bei Dir.
Das ist alles nichts neues wie ich finde!
Wenn das so einfach wäre um dann aus einem Match-Ergebnis zweier fast gleicher Programme irgend eine Aussage zu treffen wären wir mit einem Test immer schnell fertig.
Dennoch zeigt Dein Ergebnis folgendes auf:
Wenn sich immer mehr Programme angleichen gibt es solche Remisquoten.
Angleichen nicht nur im Sinne von Spielstärke.
Innerhalb der TOP-40 haben wir derzeit eine Remisquote von ca. 54%.
Je stärker das Feld wird, je höher wird die Remisquote und je höher der Zügedruchschnitt.
Je geringer die Anzahl schneller Partien, die nicht zu einem Remis führen.
Nehmen wir z. B. Wasp:
Lasse ich Wasp gegen andere Gegner spielen, die ca. +-50 bei der eigenen Spielstärke liegen komme ich auf eine Remisquote von 70% bei einer Spielstärke von ca. 3200 Elo.
Lasse ich Wasp hingegen gegen Wasp spielen liegt die Remisquote bei ca. 85% (z. B. Wasp 5.20 NN - Wasp 5.26 NN).
Setze ich das in ein Verhältnis zur Spielstärke ...
Programme die bei 3350 Elo liegen, erspielen im direkten Verlgeich verschiedener Versionen gegeneinander eine Remisquote von 95% und gegen andere Programme wieder die 15% weniger, also 80% Remisquote.
Sehe ich wenn ich meine Revenge Ergebnisse einsetze.
Und wenn ich das nun auf Stockfish reproduziere können in der Tat bei 3500 Elo wirklich teils 100% Remise dabei heraus kommen.
Sehe also nichts ungewönliches in Deinem Ergebnis, eher absolut logisches!!
Viele Grüße
Frank
Übrigens war die von Dir verwendete Stockfish Variante vor ca. einem Jahr meines Erachtens die beste Stockfish Variante die sich nicht Stockfish schimpfte.
Lag keine 25 Elo hinter dem Original, waren seinerzeit auch nur 8 Elo.
8 Elo wären es, wenn ich ShashChess 20.2 mit Stockfish vom 15.11.2021 vergleiche (gegen 40 Gegner).
Wie gesagt, ist immer alles grob gesagt das Gleiche. Mich interessiert mich das Thema auch aber fast jedes andere Thema bei Testen von Engines ist interessanter. Mit Gewalt eine Stockfish Variante zu suchen, die stärker
ist als Stockfish ... nun ja. Auch sehr langweilig bei dem produzierten Partiematerial. Ein Stellungstest schaft Abhilfe. Jeder Stellungstest produziert andere Ergebnisse. Habe selbst einen wo z. B. ShashChess 20.2
vor einer aktuelleren Stockfish Variante liegt. Ein Stellungstest ist wie Kniffeln. Ab und an gelingt der Kniffel.
Hallo Frank , ich habe genau das Ergebnis erwartet , und genau darum habe ich auch diesen Test durchgeführt .
Du kannst dich noch unter deinen Bedingungen über Verbesserungen freuen , mit 1 Core und kurzer Bedenkzeit kommt es zu weitaus weniger Remisen .
Und was ShashChess 20.2 angeht die Engine steht in meiner Fisch-Liste nach 800 Partien auf Platz 31 , satte 33 Elo hinter Kayra 1.1 . Alles jubelt hier über ShashChess 20.2 weil die Engine Stellungen ohne ende löst , die Engine sieht aber im Vergleich zu anderen Versionen von Stockfish bei kurzen Bedenkzeiten nicht besonders gut aus .
Es würde sich auch nach 200 oder 300 Partien nichts daran ändern das alle Partien Remis werden , ausgenommen es kommt dazu das eine von beiden Engines so blöd ist auf 1 e4 1.e6 zu spielen !
Ich hatte vor ca. einem Jahr einen ähnlichen Test durchgeführt , Stockfish gegen Stockfish , es kam zu 500 Remisen in Folge. 5 Züge Buch Bedenkzeit 5+5
en
Stockfish +68 Elo ?
Es hieß auch mal Ceres +100 Elo ! wo sind die 100 Elo denn hin ?
Deine Top 40 Liste ist natürlich eine ganz andere Geschichte als meine Top 40 die nur aus Fischen besteht . Mir ging es in erster Linie um die ständigen Meldungen das fortschritte gemacht werden die bei längeren Zeiten im Nichts verpuffen .