"Ältere ELO-Zahlen" ...

By Frank Quisinsky Date 2011-08-23 14:08 Edited 2011-08-23 14:15

Hallo zusammen,

mich beschäftigt derzeit die Frage, ob ein ermitteltest Rating, z. b. nach 1.000 Partien, einer Engine, gegen Gegner die z. B. vor 2 Jahren aktuell waren, gegen aktuelle Gegner stand hält bzw. "gleich" ist. Ändern sich die Gegner, _kann_ sich auch ein Rating verändern. Bei _kann_ sind eher Engines betroffen die aufgrund taktischer Stärken stärker schwanken als Engines, die eher die verschiedenen Partienphasen gleichmäßiger durchlaufen.

Und an diesem _kann_ hänge ich mich auf, denn je mehr unterschiedliche Gegner vorhanden sind, desto weniger dürfte sich ein Rating gegen komplett andere Gegnerschaft verändern. Die Spielstärke Ermittlung sollte bei einer Ratingliste zu festen Aussagen führen (natürlich immer entsprechend der eingesetzten Hardware / Bedenkzeit und sonstigen Beeinflussungsfaktoren). Ist dem nicht so, stellt sich die Frage, wie genau wir Ratings überhaupt verinnerlichen können.

Auch aus dieser Betrachtungsweise heraus läuft Cyclone xTreme Wrath erneut in der SWCR, nicht nur um durch die erneute Testerei für die SWCR-32 und geplante Aufnahme zur SWCR-64 zu bewirken, dass die Liste aller SWCR Partien genauer wird (derzeit 1.5 Punkte Differenz - SWCR-64 zu SWCR-32 -, vermutlich zu wenige Vergleichsengines).

Was haben wir derzeit:
Cyclone xTreme Wrath erzielte nach 1.080 Partien 2.673 SWCR ELO (vor dem laufenden SWCR-32 Update Turnier) gegen Gegner, die ca. vor 1.5 - 2 Jahren aktuell waren. Hinzugekommen durch das laufende SWCR-32 Turnier sind bislang ca. 600 Partien für Cyclone. Das Rating steht derzeit bei 2.673 ELO, Punktlandung. Nun ja, schön und gut aber auch nur ein Anhaltspunkt mehr.

Natürlich kann das nicht anhand einer Engine getestet werden aber von Zeit zu Zeit versuche ich diese Experimente mit meiner Liste durchzuführen. Sofern also sehr bald das Oldie Mix Turnier startet, können wird ca. 14 ältere Engines z. B. vergleichen mit der CEGT.

Letztendlich um lediglich ein wenig mehr Gewissheit zu bekommen, wie genau ermittelte Ratings aus der Vergangenheit wirklich sind. Vermutlich sehr genau aber vermutlich auch nur dann wenn wirklich ausreichend Gegner vorliegen und es sich nicht um "launische" Engines handelt. Auch das hat wenig zu tun mit der Anzahl der Partien. Cyclone xTreme Wrath ist aber eigentlich launisch. Von den Fruit Clones sehr aggressiv, vermeidet eher den Figurenabtausch und dadurch entstehen meist fantastische Stellungen. Computerschach bei voller Entfaltung!

Viele Fragen werden anhand der Ratinglisten beantwortet, sofern die entsprechenden Rückschlüsse erfolgen. Ein Punkt der mich selbst immer wieder animiert um Aussagen zu den Ratings besser einzuschätzen.

Viele Grüße
Frank

By Frank Quisinsky Date 2011-08-23 14:36

Noch einer ...

schaue ich so auf meine Excel Tabellen fällt z. b. folgendes auf:

Sjeng, Zappa, IvanHoe, Rybka, Komodo, Shredder, Spark
spielen beständig!

Warum ist das so?
- höhere Remisquote
- Stärken und Schwächen sind eindeutig
- besser programmiert
- etc, etc.

Stockfish, Junior, Hannibal, GullChess, Spike ...
spielen z. B. launisch
- ausgeprägte Schwächen oder Stärken?

Bei Junior ist es das Endspiel, GullChess spielt total ruhig unauffällig und hat einige Aussetzer im Endspiel. Hannibal geht mit vielen Stellungstypen extrem gut um, bei anderen eher gegenteilig. Die Entwicklung scheint noch lange nicht abgeschlossen zu sein. Spike spielt sehr viele Stellungen extrem ausgeglichen und bei anderen ist alles möglich. Stockfish gibt zu viele Partien Remis ab, fällt durch eine gute Taktik auf. Stockfish hat auch ein gutes Endspiel aber gibt zu früh Remis, gerade in der Partienphase in der schwächere Engines patzen.

Um mal ein paar Beispiele zu nennen!
Das alles wirkt sich auf ein Rating aus. Die Engines beginnen meist zu schwanken, schön in den ELO-Entwicklungskurven zu erkennen. Wobei hier auch nur um 10 ELO wenn es schon über 1.000 Partien gegangen ist.

Um die Aussagen vom Vorposting etwas klarer in Position zu stellen.

Macht z. B. auch Aussagen deutlich schwieriger ...
Diese Engine gehört zu den Taktikern oder eher zu den positionellen Programmen. Cyclone wäre z. B. eher der Stratege mit fehlendem Wissen im Endspiel und viele Partien werden hier vergeigt. Kommen wir dann auch wieder zu der Aussage, auch Fruit spielt vergleichbar wie Cyclone, klar! Schauen wir uns die Mittelspielstatistiken an dann fällt auf, dass der Unterschied zwischen den TOPs und Cyclone / Fruit viel geringer ist als die ELO aussagt. Schauen wir auf das späte Mittelspiel und frühe Endspiel ... ja dann wissen wir wo her die extrem hohen Zahlen bei den derzeitigen TOP 7 mit Houdini, Critter, Komodo, Stockfish, Rybka, IvanHoe und Fire her kommen. Vom Thema abgedriftet.

Wahrscheinlich ist es so, dass ermittelte Ratings aus der Vergangenheit OK sind. Bei Engines die größere Schwankungen aufweisen vielleicht hier und dort etwas abweichen. Aber so sicher bin ich mir mit diesen Aussagen gar nicht. Es fällt auf beim Betrieb einer Ratingliste, Dinge die einfach nur auffallen.

Gruß
Frank