CEGT - Update vom 08.11.2009

By Frank Quisinsky Date 2009-11-09 21:03

Hi Wolfgang,

da lag ich mit meiner Spark Einschätzung völlig daneben. Dachte nach ca. 60 Partien eher an 25 ELO weniger als Bright. Nun, mit mehr Partien in einem Testturnier scheint Spark derzeit gar 62 ELO besser zu sein (sind aber auch erst 150 Partien). Mir ist aufgefallen, dass Spark oftmals Endspiele verliert, weil in ausgeglichener Stellung Bauern gegeben werden. Auch andere Endspiele werden vergeigt, wieder andere sehr gut gespielt.

Na ja, bei Shredder 12 lag ich auch nicht unbedingt richtig. Erst nach fast 200 Partien zeigte sich, das Shredder ca. 75-100 ELO hinter Rybka 3 liegt.
(immer nach meinen Testmethoden, Ponder = On, 32Bit, ein CPU-Kern pro Engine).

So kann das gehen und insofern gut das es die Ratinglisten wie CEGT und CCRL gibt.

Wie auch immer:
Wenn diese Endspielschwächen bei Spark behoben sind kann das durchaus bis 50 ELO ausmachen. Da liegt offenbar sehr viel Potential in Spark !!

Viele Grüße
Frank

PS:
Wobei ich aber bleibe ist das Rybka 3 mit Ponder und einer CPU deutlich besser als CCRL bei mir abschneidet und auch besser als in CEGT. Setze ich die Zahlen ins Verhältnis liegen zwischen CEGT und CCRL bei Rybka 3 32Bit 1 CPU auch mehr als 20 ELO Differenz, trotz der vielen Partien ...

Bei mir nach jetzt 250 Partien spielt Rybka 3 ca. 60 ELO stärker als in CCRL (40 in 10).
Bei meiner abgebrochenen Ratingliste waren es auch nach ca. 250 Partien ca. 50 ELO stärker bei mir als in CCRL (40 in 20).

Begründung 1:
Liegt am Pondern (denke wenn überhaupt macht das aber maximal 20 ELO aus).

Begründung 2:
Noch zu wenige Partien ... dennoch wäre 60 ELO Unterschied nach 250 Partien weit über der ErrorBar

Begründung 3:
Rybka fehlen starke Gegner. Da ich von jeder Engine nur eine Version in meiner Liste habe und nicht x Rybkas mit verschiedenen Cores 32/64bit steht Rybka mit der hohen Spielstärke so ziemlich allein auf weiter Flur. In meinen Ratinglisten habe ich stets die Erfahrung gemacht, das die besten und die schlechtesten Engines minimal falsch bewertet werden (egal wie viele Partien gespielt wurden).

Beispiel:
Ratingliste mit 20 Engines.
Nummer 1 weicht nach oben aus, Nummer 20 nach unten im Vergleich zu größeren Ratinglisten.
Nummer 20 spielt also 20-30 ELO schlechter und Nummer 1 spielt 20-30 ELO besser.
ELOstat kann nicht alles ausgleichen und ganz genau ELO Zahlen kann dieses Programm nicht generieren.

Gruß
Frank

By Wolfgang Battig Date 2009-11-10 15:13

[quote="Frank Quisinsky"]
Hi Wolfgang,

da lag ich mit meiner Spark Einschätzung völlig daneben. Dachte nach ca. 60 Partien eher an 25 ELO weniger als Bright. ....

[/quote]

Hi Frank,

ja, Spark überrascht ein wenig. Bei 40/20, deren Ergebnisse ich gerade gepostet habe, sind es +60 zu Bright 0.5c (beide 1CPU und über 300 Partien).
Trotzdem halte ich die Engine noch für etwas überbewertet, zumal der Autor nicht von größeren Unterschieden ausgeht.

Bei 40/3 sieht es aber auch sehr gut aus, vielleicht kann Spark den guten Einstieg ja bestätigen. Bis zum nächsten Update hoffe ich mal, dass wir im Blitz für w32 und x64 je mind. 1000 Partien haben, dann dürfte zumindest da Klarheit bestehen.

Viele Grüße
Wolfgang

By Frank Quisinsky Date 2009-11-10 16:50

Hi Wolfgang,

bei mir sind es jetzt im direkten Vergleich:
Spark 0.3 zu Bright 0.4a = 121 ELO nach 180 Partien.

Allerdings ist das auch nur ein Blitz-Test-Turnier (Partie in 5 Minuten, 128Mb Hash, ponder = On auf AMD 4600 x2 2.4 GHz).
Sind 10 Engines mit in etwa gleicher Spielstärke im Turnier.

Allerdings spielt Bright 0.4c bei dieser Bedenkzeit wirklich schwach. Es werden oftmals Bauern stehen gelassen, gerade gesehen das gar Springer im Endspiel für Nichts abgegeben werden. Vielleicht liegt es auch an den egbbs Datenbanken die Bright 0.4c ja nutzt, Spark 0.3 spielt bekanntlich ohne. Habe derzeit keine Erklärung dafür. Bei anderen Bedenkzeiten, z. B. 40 in 10 oder so passiert das nicht !!

Ein besserer Vergleich wäre zu:
Spark 0.3 zu Glaurung 2.2 = +23 nach 180 Partien.
Spark 0.3 zu Loop 13.6 = +7 nach 180 Partien.

Immer mit einer CPU und x32.
Das deckt sich dann wieder absolut mit der CEGT, gar mit diesen niedrigen Bedenkzeiten bei meinem Test-Turnier.

Werde mich also selbst ausführlicher mit Spark 0.3 beschäftigen, lohnt sich ... spielt sehr interessant !!

Viele Grüße
Frank

By Frank Quisinsky Date 2009-11-10 16:51

[quote="Frank Quisinsky"]
Hi Wolfgang,

bei mir sind es jetzt im direkten Vergleich:
Spark 0.3 zu Bright 0.4a = 121 ELO nach 180 Partien.

Allerdings ist das auch nur ein Blitz-Test-Turnier (Partie in 5 Minuten, 128Mb Hash, ponder = On auf AMD 4600 x2 2.4 GHz).
Sind 10 Engines mit in etwa gleicher Spielstärke im Turnier.

Allerdings spielt Bright 0.4c bei dieser Bedenkzeit wirklich schwach. Es werden oftmals Bauern stehen gelassen, gerade gesehen das gar Springer im Endspiel für Nichts abgegeben werden. Vielleicht liegt es auch an den egbbs Datenbanken die Bright 0.4c ja nutzt, Spark 0.3 spielt bekanntlich ohne. Habe derzeit keine Erklärung dafür. Bei anderen Bedenkzeiten, z. B. 40 in 10 oder so passiert das nicht !!

Ein besserer Vergleich wäre zu:
Spark 0.3 zu Glaurung 2.2 = +23 nach 180 Partien (meine Spark spielt 23 ELO besser als Glaurung 2.2)
Spark 0.3 zu Loop 13.6 = +7 nach 180 Partien (meine Spark spielt 7 ELO besser als Loop 13.6)

Immer mit einer CPU und x32.
Das deckt sich dann wieder absolut mit der CEGT, gar mit diesen niedrigen Bedenkzeiten bei meinem Test-Turnier.

Werde mich also selbst ausführlicher mit Spark 0.3 beschäftigen, lohnt sich ... spielt sehr interessant !!

Viele Grüße
Frank
[/quote]

By Wolfgang Battig Date 2009-11-10 15:02

40 / 20:

Hier noch die Informationen zum 40/20-Update:

Neue Partien: 2.612
Gesamtzahl: 361.408

NEU
Bright 0.5c 2CPU: 2840 - 110 Partien
Bright 0.5c 1CPU: 2823 - 310 Partien
Hier scheint etwas noch nicht zu stimmen, denn erstens ist der Abstand zwischen 1 und 2 CPU viel zu gering und die 2CPU-Version liegt 37 ELO hinter der 0.4a, während bei 1CPU die neue Version - wie erwartet nur leicht - die Nase vorn hat (+12). Hier sind vor allem für die 2CPU noch viel mehr Partien notwendig.
Spark 0.3 x64 überrascht positiv mit einem Rating von 2883 nach 349 Partien, was +60 zu Bright 0.5c mit 1CPU bedeutet. Auch dies erscheint noch ein wenig viel, mehr Partien werden hier Klarheit bringen.

BugChess2 v1.6.4 x64 liegt nach noch zu wenig Partien (126) 33 Punkte vor der Version 1.6.3, die wir allerdings mit 32bit getestet haben (war die überhaupt schon 64bit-fähig?).

Folgende Engines werden in den nächsten Wochen verstärkt getestet, da sie entweder neu sind oder viel zu wenig Partien haben (aktuelle Zahl in Klammern):
- Gaviota 0.74 w32   (50)
- Deep Shredder 12 w32 2CPU   (79)
- Stockfish 1.5.1 w32 2CPU    (72)
- Bison 9.8 w32 (neu)
- Rodin 2.3a (73)
- Scorpio 2.2 w32 2CPU    (55)

UPDATES
Hier hat es keine größeren Verschiebungen gegeben, lediglich Stockfish 1.5.1 x64 1CPU (-15) und Tornado 3.21a x64 2CPU (-14) haben nennenswerte Veränderungen erfahren.

By Günther Höhne Date 2009-11-10 15:51

[quote="Wolfgang Battig"]
BugChess2 v1.6.4 x64 liegt nach noch zu wenig Partien (126) 33 Punkte vor der Version 1.6.3, die wir allerdings mit 32bit getestet haben (war die überhaupt schon 64bit-fähig?).
[/quote]

Hallo Wolfgang,

BugChess war 64bit-fähig bereits in Version 1.6.2.

Gruß
Günther