NEBB-Ranglisten: Critter 1.4

By Stefan Pohl Date 2012-01-02 06:39

Hallo zusammen,

Hier nun die neueste Version der NEBB-Ranglisten (Naked Engine Bullet und Blitz). Zur Erinnerung zunächst nochmals die genauen Testbedingungen:
50 Ultrakurzvorgabestellungen (1.a3 a6, 1.a3 b6 etc. (ohne Stellungen mit gezogenem f-Bauer, weil Engines das aufgrund der Königssicherheit als schlecht bewerten, außer der symmetrischen Stellung 1.f3 f6, weil ich sonst nur auf 49 Stellungen gekommen wäre). 256 MB Hash, 1 Core (Intel Q9550 2.83 GHz Quad, no SSE support, Vista 64bit) pro Engine, LittleBlitzerGUI (keine Partieaufgabe, Remis erst bei 200 Zügen), kein Pondern, keine Tablebases, nur die allerbesten Engines, wobei hier z.Zt. unterhalb von Stockfish eine große Spielstärkelücke besteht, was sich aber in der Zukunft natürlich ändern kann.
Als Bedenkzeiten habe ich für die Bulletliste 1 Minute Basiszeit + 500 ms Fischerbonus gewählt. Die Blitzliste spielt unter identischen Bedingungen, aber mit der 4fachen Zeit, nämlich 4 Minuten Basis + 2 Sekunden Fischerbonus. Beide Ranglisten werden mit bayeselo erstellt und an der schwächsten Engine der Blitzliste gefixt (z.Zt. Stockfish 2.1.1), weil ja die möglichen Elo-Abweichungen in den zwei Listen natürlich auf den Spitzenplätzen besonders interssant sind. Der Fixpunkt wurde auf 3000 Elo gesetzt, einfach weil man damit unten in der Liste mit einer glatten 000er-Zahl beginnt, was besonders den Vergleich beider Listen vereinfacht. Entscheidend sind aber natürlich nicht die Absolutwerte, sondern die Differenzen...
Die beste Freeware-Engine wird als solche gekennzeichnet, außerdem werden alle Engines, die nicht Multi-Core fähig sind, gekennzeichnet, weil letzteres in der heutigen Zeit der Multicoreprozessoren m.E. einen schwerwiegenden Mangel darstellt.

Hier nun die NEBB-Ranglisten mit den Ergebnissen von Critter 1.4:

Blitzliste (4'+2'')


Rank Name                       Elo    +    - games score oppo. draws 
   1 Houdini 2.0c x64          3104   18   18   800   60%  3041   40% 
   2 Houdini 1.5a x64          3100   18   18   800   59%  3041   41% (best freeware) 
   3 Critter 1.4 64-bit        3083   19   19   700   55%  3052   47% 
   4 Komodo 4 x64              3074   18   18   800   53%  3053   43% (singlecore) 
   5 Critter 1.2 64-bit        3055   18   18   800   51%  3049   45% 
   6 Ivanhoe B46fa x64         3043   16   16   900   48%  3054   51% 
   7 Komodo 3 x64              3031   19   19   700   47%  3049   46% (singlecore) 
   8 Rybka 4.1 x64             3028   17   17   900   46%  3056   46% 
   9 RobboLito 0.09 x64        3013   17   17   900   43%  3058   50% (singlecore) 
  10 Stockfish 2.1.1 JA 64bit  3000   17   17   900   41%  3059   42%

Bulletliste (1'+500 ms)


Rank Name                       Elo    +    - games score oppo. draws 
   1 Houdini 2.0c x64          3122   18   18   800   63%  3039   37% 
   2 Houdini 1.5a x64          3102   18   18   800   60%  3039   38% (best freeware) 
   3 Critter 1.4 64-bit        3094   19   19   700   57%  3050   43% 
   4 Critter 1.2 64-bit        3067   18   18   800   53%  3046   43% 
   5 Komodo 4 x64              3054   18   18   800   50%  3057   38% (singlecore) 
   6 Ivanhoe B46fa x64         3046   17   17   900   49%  3054   47% 
   7 Komodo 3 x64              3023   19   19   700   46%  3052   37% (singlecore) 
   8 Rybka 4.1 x64             3019   17   17   900   44%  3057   40% 
   9 RobboLito 0.09 x64        3007   17   17   900   42%  3058   44% (singlecore) 
  10 Stockfish 2.1.1 JA 64bit  3000   17   17   900   41%  3059   38%

Critter 1.4 ist die Nummer 2 hinter den Houdinis und liegt im Blitz nur noch 21 Elo hinter Houdini 2.0c. Sehr interessant auch, daß Critter 1.4 im Bullet besser als im Blitz ist und zwar in gleichem Maße wie die Vorgängerversion 1.2: Version 1.2 ist 12 Elo besser im Bullet als im Blitz und Version 1.4 ist 11 Elo besser im Bullet. Das spricht für die statistische Stabilität meiner Testmethodik.

Grüße an alle - Stefan

P.S: Die neue Stockfishversion 2.2 ist verbuggt. Auf meinem Quad (kein SSE support, Vista 64bit) verliert sie im Bullet-Testlauf ca. 40% aller Partien auf Zeit (trotz 500ms Fischerbonus)!!! Das ist natürlich indiskutabel und daher kann diese Version nicht getestet werden, bis ein bugfix vorliegt. Version 2.1.1 zeigt dieses Verhalten nicht.
Das hat ja bei Stockfish leider schon Tradition, daß die allererste Ausgabe einer neuen Version kurz nach Erscheinen durch ein Bugfix ersetzt werden muß. Was bei Ivanhoe zu abfälligen bis höhnischen Kommentaren im Forum führt, scheint bei Stockfish komischerweise außer mir keinen zu stören.
Nun ja, wie dem auch sei, auf jeden Fall kann ich die neue Version 2.2 zur Zeit leider nicht testen. Sollte eine funktionierende Version veröffentlicht werden, hole ich den Test natürlich nach.