SWCR: Interessante Statistik

By Frank Quisinsky Date 2011-10-19 00:12 Edited 2011-10-19 00:18

Hallo,

in der SWCR-32 und SWCR-64 müssen möglichst viele gleiche Engines spielen, damit die beiden Listen zu einer großen Listen zusammengefügt werden können. Durch Cyclone xTreme Wrath, Bright 0.5c und TogaII 1.4 Beta 5c kamen jetzt auf einen Schlag direkt drei neue "Vergleichsengines" hinzu. Dies als Vorbeitung zum Oldie-Mix Turnier, da durch dieses Turnier direkt 18 neue Engines in die SWCR eingehen.

Schauen wir uns jetzt mal die Ergebnisse der Vergleichsengines näher an:
Natürlich macht es nur Sinn 32bit Engines als Vergleichsengines einzusetzen.
Die SWCR-32 ist eine reine 32bit Liste
Die SWCR-64 ist eine 64bit Liste, hier spielen auch Engines die nicht als 64bit Versionen zur Verfgügung stehen

Code:

01. Shredder 12 w32
SWCR-32 = 2.800 ELO nach 3.600 Partien
SWCR-64 = 2.800 ELO nach 3.698 Partien ... klar auf diese Engine wird geeicht.

02. Sjeng c't 2010 w32
SWCR-32 = 2.794 ELO nach 2.320 Partien
SWCR-64 = 2.787 ELO nach 2.858 Partien -07

03. Spike 1.4 Leiden w32
SWCR-32 = 2.786 ELO nach 2.600 Partien
SWCR-64 = 2.779 ELO nach 2.418 Partien -07

04. Hiarcs 13.2 w32
SWCR-32 = 2.762 ELO nach 1.800 Partien
SWCR-64 = 2.755 ELO nach 1.698 Partien -07

05. Hiarcs 13.1 w32
SWCR-32 = 2.736 ELO nach 1.200 Partien
SWCR-64 = 2.738 ELO nach 1.680 Partien +02

06. Cyclone xTreme Wrath w32 (NEU hinzugekommen)
SWCR-32 = 2.673 ELO nach 2.120 Partien
SWCR-64 = 2.683 ELO nach 1.338 Partien +10

07. TogaII 1.4 Beta 5c w32 (NEU hinzugekommen)
SWCR-32 = 2.664 ELO nach 1.360 Partien
SWCR-64 = 2.666 ELO nach 1.377 Partien +02

08. Bright 0.5c w32 (NEU hinzugekommen)
SWCR-32 = 2.633 ELO nach 2.000 Partien
SWCR-64 = 2.627 ELO nach 1.337 Partien -06

09. Jonny 4.00 w32
SWCR-32 = 2.621 ELO nach 1.720 Partien
SWCR-64 = 2.611 ELO nach 1.977 Partien -10

10. ChessTiger 2.007 w32
SWCR-32 = 2.552 ELO nach 1.400 Partien
SWCR-64 = 2.569 ELO nach 1.976 Partien +17

11. Zarkov 6.44 w32
SWCR-32 = 2.473 ELO nach 1.080 Partien
SWCR-64 = 2.471 ELO nach 1.136 Partien -02

Gemixt wird also alles in der SWCR aller Partien und diese Werte halbieren sich.

Meine Zielsetzung war, dass die SWCR auf ca. 10-15 ELO genaue Werte ausgeben sollte. Dieses Ziel ist denke ich erreicht. Sehe derzeit keine Engine bei der ich größere Abweichungen vermute.

Das ChessTiger Ergebnis ist interessant aber sehr sehr leicht erklärbar.
ChessTiger punktet überraschend gegen sehr starke Engines, wie die TOP-7 besser. Durch die vielen Updates von Critter, Stockfish, IvanHoe, Rybka etc. hat ChessTiger auch deutlich mehr Partien gegen diese Engines gespielt. Das wirkt sich auf die ELO. In der SWCR-32 spielen die IPPs noch nicht lange und mithin ist die ELO niedriger. Das heißt, dass ChessTiger durchaus aufgrund seiner Stärken in der Lage ist gegen super starke Engines besser abzuschneiden. Lösche ich z. B. die Partien aus der SWCR-64 gegen die TOP-7 ... siehe da ... 2.555 anstatt 2.569 ELO. Nun ja, der alte ChessTiger hat einiges an Besonderheiten drin und erringt daher überdurchschnittlich mehr Remise als andere Engines gleicher Spielstärke gegen die TOPs.

Mit anderen Worten verzerren die Listen durch Programme die oft upgedatet wurden bzw. Programme die gleiche Sorucen benutzen um ca. 15 ELO maximal. Diese Eindrücke werden bestätigt durch Statistiken die ich mir und dort hierzu anfertige (würde jetzt den Rahmen sprengen das alles zu schreiben, ist auch kompliziert und ich weiß nicht ob meine Auswertungen auch wirklich stimmen da ich sehr experimental eigene Ideen zu Statistiken umsetze).

Anderes gutes Beispiel ist Jonny 4.00. Spielt wirklich gegen klar besser deutlich schwächer. Lösche ich die Ergebnisse gegen die TOP-7 bzw. die vielen Updates der TOP-7 siehe da, identisches Ergebnis zur SWCR-32. 10 ELO sind wirklich bei diesen Partiezahlen viel Holz und wenn genauer geschaut wird ist es auch hier einfach (ohne Zufallsbegründungen suchen zu müssen) Ergebnisse zu erklären.

Toga ist auch interessant.
Die gleiche Toga Engines spielte gegen die gleichen Gegner in der SWCR-32 und SWCR-64.
Das Ergebnis müsste gleich sein, es sind 2 ELO Differenz (normal nach 1.360 Partien).
Sehr sehr genau!

Nun, was können wir festhalten:
Die beiden SWCR Listen zu mixen sorgt eher für ausgewogenere Ergebnisse im einstelligen Bereich. Dennoch ist es so, das Programme die gleiche Sourcen nutzen, gleiche Stärken und Schwächen haben oder oft upgedatet werden für Ungenauigkeiten innerhalb der SWCR sorgen die sich um ca. 5 Punkte bewegen.

Das kann eine Ratingliste nicht besser in den Griff bekommen, dauerhaft nicht!

Ich finde dennoch das dies sehr gute Ergebnisse sind und auch sehr gut wiedergespiegelt wird wie genau die beiden SWCR Listen eigentlich sind, nicht zuletzt durch die enorme Anzahl an Gegner (weniger Partien werden notwendig).

Also, die SWCR-32 und SWCR-64 überprüft sich gegenseitig auf Genauigkeit. Auch anhand anderen Beispielen, z. B. Loop oder Onno Ergebnisse unterschiedlicher Versionen aber gleicher Spielstärke kann festgestellt werden wie genau diese Liste ist. Zur Zeit sehe ich nicht ein Zufallsergebnis. Alles liegt im gewünschten Bereich von maximalen Abweichungen (die sehr selten sind) von derzeit 15 ELO (SWCR aller Partien). Genauer gesagt, es gibt zwei Engines in der SWCR aller Partien wo ich Ungenauigkeiten von ca. 10 ELO vermute. Werde ich mir im nächsten Jahr mal näher ansehen. Zwei von jetzt 175 getesteten Engines.

Viele Grüße
Frank

By Frank Quisinsky Date 2011-10-19 00:32

Hallo zusammen,

vielleicht interessiert das auch weniger, aber es sind interessante Erkenntnisse für andere die an Ratinglisten basteln.
Also ein interner SWCR Vergleich, da die SWCR-32 und die SWCR-64 gesondert berechnet und werden bzw. organisiert werden.
Die SWCR-64 fügt einfach alles zuammen und dafür werden diese Vergleichsengines benötigt. Je mehr Engines hinzukommen, desto mehr Vergleichsengines werden benötigt.

Die durchschnittliche Abweichung unter Beachtung vom 64bit Zuwachs der SWCR-32 zur SWCR-64 liegt bei 0.8 ELO

Erwartet durch die Aufnahme der drei neuen Vergleichsengines, lag vorher bei 1.7 ELO.
Viel mehr ist da im Moment nicht zu optimieren.

Booot und Fritz würden auf dem Programm stehen wenn ich weiter machen würde, was ich immer noch nicht genau weis ob ich das tun sollte.
Meine Booot und Fritz würden dann Vergleichsengines 12 udn 13 werden aber die 0.8 ELO kann ich dann nur gering weiter nach unten drücken.
Bzw. steigt diese Zahl auch wieder durch das Oldie-Mix Turnier auf ca. 1.2 ELO.

Sehr kompliziert aber das Konzept was ich durchziehe um eine gute Ratingliste zu produzieren.
Also 32bit zusammen zu lassen, 64bit zusammen zu lassen um dann dennoch zu mixen.
Vergleichen was zu vergleichen ist.

Nochmal kurz zum Oldie-Mix:
Es spielen viele Versionen von ehemals starken Engines die nicht mehr upgedatet werden.
Dadurch hätte ich ja die Basis viele neue Amateure aufzunehmen weil ich sinnvollere Spießroutenläufe starten kann.

Möchte ich Glass aufnehmen, hätte ich sofort 30 Gegner im Bereich von 300 ELO dazwischen, macht mehr Sinn als Glass gegen Houdini und Co antreten zu lassen.
Aus vielen Gründen für den weiteren Ausbau der Liste ist das Oldie-Mix wichtig.

Aber sei es drum ...
Interessiert wahrscheinlich auch nur am Rande

Genug!

Gruß
Frank

By Frank Quisinsky Date 2011-10-19 00:44

Einer noch

Würde ChessTiger 2007 z. B. nur gegen die TOP-7 spielen, hätte die Engines gar 2.601 ELO anstatt tatsächlich ca. 2.555

Macht die Sache noch ein wenig deutlicher und es macht auch Spass mal ein wenig zu forschen anstatt immer nur alles mit Zufallsergebnisse zu begründen was totaler Nonsens ist.

Oder Jonny hätte anstatt 2.615 lediglich 2.590!