Perfekt bekommt man nicht mehr perfekter

By Frank Quisinsky Date 2022-02-25 06:29 Edited 2022-02-25 06:50

Guten Morgen Stefan,

nur, was erwartest Du wenn zwei gleiche Programme gegeneinander antreten?

Derzeit teste ich ShashChess 20.2 in meiner KI-Liste.
Die Engine ist wie es erwartet werden konnte ca. 25 Elo hinter Stockfish vom 31.12.2021 nach jetzt über 700 Partien gegen 40 Gegner.
Aus dem Kopf heraus ... glaube die Remisquote gegen 40 Gegner ist 5% höher!

Das ist grundsätzlich gar ein gutes Ergebnis, denn in der Regel ergibt jede Änderung bei einer Kopie tatsächlich eine Verschlechterung.
Nicht zu sehen im direkten Vergleich!

Habe mir hier schon einige der Clones angesehen.
Die Remisquote steigt gegenüber dem Original immer deutlich an.
Dieses Ergebnis von ShashChess ist also wirklich gut bei einer längeren Zeitkontrolle.

Im direkten Vergleich hat jetzt nach fast 20 Partien im Match gegen Stockfish selbst, ShashChess 1x verloren (war auch die einzige Verlustpartie).
Das eine entscheidende Partie dabei war ist schon grenzwertig ... könnte nach 100 Partien auch so laufen wie bei Dir.

Das ist alles nichts neues wie ich finde!

Wenn das so einfach wäre um dann aus einem Match-Ergebnis zweier fast gleicher Programme irgend eine Aussage zu treffen wären wir mit einem Test immer schnell fertig.

Dennoch zeigt Dein Ergebnis folgendes auf:
Wenn sich immer mehr Programme angleichen gibt es solche Remisquoten.
Angleichen nicht nur im Sinne von Spielstärke.

Innerhalb der TOP-40 haben wir derzeit eine Remisquote von ca. 54%.
Je stärker das Feld wird, je höher wird die Remisquote und je höher der Zügedruchschnitt.
Je geringer die Anzahl schneller Partien, die nicht zu einem Remis führen.

Nehmen wir z. B. Wasp:
Lasse ich Wasp gegen andere Gegner spielen, die ca. +-50 bei der eigenen Spielstärke liegen komme ich auf eine Remisquote von 70% bei einer Spielstärke von ca. 3200 Elo.
Lasse ich Wasp hingegen gegen Wasp spielen liegt die Remisquote bei ca. 85% (z. B. Wasp 5.20 NN - Wasp 5.26 NN).

Setze ich das in ein Verhältnis zur Spielstärke ...
Programme die bei 3350 Elo liegen, erspielen im direkten Verlgeich verschiedener Versionen gegeneinander eine Remisquote von 95% und gegen andere Programme wieder die 15% weniger, also 80% Remisquote.
Sehe ich wenn ich meine Revenge Ergebnisse einsetze.

Und wenn ich das nun auf Stockfish reproduziere können in der Tat bei 3500 Elo wirklich teils 100% Remise dabei heraus kommen.
Sehe also nichts ungewönliches in Deinem Ergebnis, eher absolut logisches!!

Viele Grüße
Frank

Übrigens war die von Dir verwendete Stockfish Variante vor ca. einem Jahr meines Erachtens die beste Stockfish Variante die sich nicht Stockfish schimpfte.
Lag keine 25 Elo hinter dem Original, waren seinerzeit auch nur 8 Elo.
8 Elo wären es, wenn ich ShashChess 20.2 mit Stockfish vom 15.11.2021 vergleiche (gegen 40 Gegner).
Wie gesagt, ist immer alles grob gesagt das Gleiche. Mich interessiert mich das Thema auch aber fast jedes andere Thema bei Testen von Engines ist interessanter. Mit Gewalt eine Stockfish Variante zu suchen, die stärker
ist als Stockfish ... nun ja. Auch sehr langweilig bei dem produzierten Partiematerial. Ein Stellungstest schaft Abhilfe. Jeder Stellungstest produziert andere Ergebnisse. Habe selbst einen wo z. B. ShashChess 20.2
vor einer aktuelleren Stockfish Variante liegt. Ein Stellungstest ist wie Kniffeln. Ab und an gelingt der Kniffel.

By Frank Quisinsky Date 2022-02-25 07:15

Der Vergleich mit Wasp war vielleicht nicht so gut.
Wasp macht vieles anders als andere Programme.

Ich behaupte:
Wenn wir Programme hätten, die gar bei 3500 Elo völlig unterschiedliche Stärken hätten, wäre die Remisquote gar niedriger als die 85% die derzeit minimal zu erwarten wären.
Da durch Open-Source alles bekannt ist was derzeit zu 3500 Elo führn könnte.

Wir haben derzeit nicht so viele Programme im direkten Vergleich wie z. B. vor 20 Jahren, die stark unterschiedlich spielen.
Vor 20 Jahren waren die Sourcen der stärksten Programmen nicht frei.

Wir hatten vor 20 Jahren viele Programme die höhere Remisquoten im Spiel gegenander prodzierten wenn es um Spielstärken ging die bei Fruit oder Crafty lagen.

Aus genau diesen Gründen stelle ich es eh in Frage, ob wir die hohen Remisquoten überhaupt so viel Beachtung schenken sollten.
Ganz einfach ... die sind im Verhältnis zur heutigen Spielstärke hausgemacht.

Wenn wir heute entscheiden das es Erbsensuppe gibt, können wir uns nicht später darüber aufregen das es Erbsensuppe gab.

By Chess Player Date 2022-02-25 08:43

Frank Quisinsky schrieb:

...

Wenn wir heute entscheiden das es Erbsensuppe gibt, können wir uns nicht später darüber aufregen das es Erbsensuppe gab.

der war gut, trifft sogar den kern

By Stefan Kleinert Date 2022-02-25 15:33

Frank Quisinsky schrieb:

Hallo Frank , ich habe genau das Ergebnis erwartet , und genau darum habe ich auch diesen Test durchgeführt .

Du kannst dich noch unter deinen Bedingungen über Verbesserungen freuen , mit 1 Core und kurzer Bedenkzeit kommt es zu weitaus weniger Remisen .

Und was ShashChess 20.2 angeht die Engine steht in meiner Fisch-Liste nach 800 Partien auf Platz 31 , satte 33 Elo hinter Kayra 1.1 .   Alles jubelt hier über ShashChess 20.2 weil die Engine Stellungen ohne ende löst , die Engine sieht aber im Vergleich zu anderen Versionen von Stockfish bei kurzen Bedenkzeiten nicht besonders gut aus .

Es würde sich auch nach 200 oder 300 Partien nichts daran ändern das alle Partien Remis werden , ausgenommen es kommt dazu das eine von beiden Engines so blöd ist auf 1 e4 1.e6 zu spielen !

Ich hatte vor ca. einem Jahr einen ähnlichen Test durchgeführt , Stockfish gegen Stockfish , es kam zu 500 Remisen in Folge.   5 Züge Buch Bedenkzeit 5+5

en

Stockfish +68 Elo ?

Es hieß auch mal Ceres +100 Elo !   wo sind die 100 Elo denn hin ?

Deine Top 40 Liste ist natürlich eine ganz andere Geschichte als meine Top 40 die nur aus Fischen besteht . Mir ging es in erster Linie um die ständigen Meldungen das fortschritte gemacht werden die bei längeren Zeiten im Nichts verpuffen .

By Frank Quisinsky Date 2022-02-25 16:44 Edited 2022-02-25 17:06

Hallo Stefan,

Kayra kenne ich ehrlicher Weise noch nicht.
Was wären die drei "besten" Stockfish Varianten aus Deiner Sicht?

Kann im weiteren Verlauf meiner Ratingliste auch mal einen anderen Clone testen.

Shash ist deswegen interessant, weil die Differenzen nach Stats im Vergleich zu SF durchaus mehr vorhanden sind
als bei Anderen die ich mir angesehen habe. Finde das geht in die Richtung einer eigenen Entwicklung.

Vielen Dank für Deinen Beitrag und ein schönes WE.

Ach so ...

"Mir ging es in erster Linie um die ständigen Meldungen das fortschritte gemacht werden die bei längeren Zeiten im Nichts verpuffen."

Ja, das ist so.
Ob längere Zeiten oder mehr Cores.

Viele Grüße
Frank

By Stefan Kleinert Date 2022-02-27 16:47 Edited 2022-02-27 16:52

Hallo Frank ,

die drei besten sind bei mir :

1 Kayra 1.1 2372
2 Fat Titz 161221    2370
3 SugaR 2.50    2390 (erst 300 gespielte Partien )

Das Netz von Fat Titz hat über 180 MB und wird bei dir wahrscheinlich nicht besonders gut abschneiden .

Sugar 2.50 läuft bei mir mit mit   nn-ac07bd334b62.nnue Netz +Lerndatei , ohne Lernfile ist Sugar genauso stark wie die anderen beiden . Wenn du kurze Gewinnpartien sehen möchtest dann teste Sugar 2.50 , theoretisch könnte ich dir auch meine Lerndatei für Sugar geben , zumindest in meiner Liste bringt das Lernfile +10 bis 20 Elo

Gruß
Stefan

By Frank Quisinsky Date 2022-02-27 16:58

Hallo Stefan,

Sugar 2.50 habe ich schon getestet.
Liegt ca. 15 Elo hinter der Stockfish Version from 31.12.2021.
In der Tat waren die Anzahl schneller Gewinnpartien vergleichbar hoch.
Es gab ein paar Verluste und mehr Remise.

Könnte Kayra mal testen.
Schaue mir alles an bzw. sollten die Sourcen frei sein.

Weiß nur noch nicht wann ich das teste.
Überlege mir etwas!

Viele Grüße
Frank

By Frank Quisinsky Date 2022-02-28 07:02 Edited 2022-02-28 07:04

Hallo Stefan,

habe mir Kayra auf meinem zweiten 5950x angesehen.
Hier teste ich hin- und wieder mit 40 in 8 und habe nun 1000 Partien zusammen.

Elo = -12 zu Stockfish vom 31122021.

Sehe kaum große Unterschiede in den Statistiken.
Anzahl an schnellen Gewinnen ist niedriger, die Remisquote ist höher als bei Stockfish.
Verloren wurde nur 1 Partie gegen Stockfish selbst.
Interessant maximal wäre, dass der Zügedurchschnitt ein Zug niedriger ist (kann natürlich bei 1200 Partien absoluter Zufall sein).
Der Zügedurchschnitt der Gewinnpartien ist 2 Züge höher als bei Stockfish.

Überlege ob ich wirklich einen Test bei 40 in 20 für die KI-Liste durchführe?
Es ist kein Clone der wirklich bahnbrechendes im Vergleich zum Original leistet.

Nur das artet wieder aus, weil dann kommen die nächsten die möchten das ich einen weiteren Stockfish Clone hinzunehme und die Liste wird von Zeit zu Zeit immer mehr unbrauchbar weil immer mehr gleiche Programme drin sind.
Das Problem hatte ich seinerzeit auch bei der SWCR Ratingliste (hatte zu viele IPP Clones drin).

Vor Kayra hatte ich eine aktuelle Stockfish Version getestet.
Ein aktueller Stockfish von letzer Woche ist 14 Elo stärker als der vom 31.12.2021, liegt bei 40 in 8 also 26 Elo vor dem Clone Kayra 1.1.

Viele Grüße
Frank

By Frank Quisinsky Date 2022-02-28 07:17

Ach so ...
Hatte mir auch ShashChess "Tal" angesehen.
Auch hier überlegte ich ob ich einen Test durchführe.

Aber der Spielstil Tal liegt 38 Elo hinter Stockfish 31.12.2021 und 13 Elo hinter den Standard-Einstellungen.
Auch nicht weniger schnelle Gewinnpartien als bei Stockfish und noch mehr Remise.

Schaue ja in der Hoffnung das wirklich mal ein Clone ...

Bin ehrlich, verliere durch diese eigentlich unnötige Testerei nur die Lust.

Wenn Du Kayra wirklich mal sehen möchtest bei 40 in 20 gegen die gleichen Gegner die StashChess 20.2 NN hatte kann ich einen Spießroutenlauf mal offiziell mit Links laufen lassen.
Aufnehmen werde ich die Engine in der KI-Liste aber nicht! Sind nur 2 verschenkte Test-Tage.

Kannst Du entscheiden!
Die Links würde ich dann ca. 10.03. ins Forum setzen.

Meinen zweiten 5950x brauche ich derzeit wieder für andere Geschichten.