Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / NEBB-Ranglisten: Stockfish 2.2.1 JA
- By Stefan Pohl Date 2012-01-09 06:52
Hallo zusammen,

Hier nun die neueste Version der NEBB-Ranglisten (Naked Engine Bullet und Blitz).
Zur Erinnerung zunächst nochmals die genauen Testbedingungen:
50 Ultrakurzvorgabestellungen (1.a3 a6, 1.a3 b6 etc. (ohne Stellungen mit gezogenem f-Bauer, weil Engines das aufgrund der Königssicherheit als schlecht bewerten, außer der symmetrischen Stellung 1.f3 f6, weil ich sonst nur auf 49 Stellungen gekommen wäre). 256 MB Hash, 1 Core (Intel Q9550 2.83 GHz Quad, no SSE support, Vista 64bit) pro Engine, LittleBlitzerGUI (keine Partieaufgabe, Remis erst bei 200 Zügen), kein Pondern, keine Tablebases, nur die allerbesten Engines, wobei hier z.Zt. unterhalb von Stockfish eine große Spielstärkelücke besteht, was sich aber in der Zukunft natürlich ändern kann.
Als Bedenkzeiten habe ich für die Bulletliste 1 Minute Basiszeit + 500 ms Fischerbonus gewählt. Die Blitzliste spielt unter identischen Bedingungen, aber mit der 4fachen Zeit, nämlich 4 Minuten Basis + 2 Sekunden Fischerbonus. Beide Ranglisten werden mit bayeselo erstellt und an der schwächsten Engine der Blitzliste gefixt (z.Zt. Stockfish 2.1.1), weil ja die möglichen Elo-Abweichungen in den zwei Listen natürlich auf den Spitzenplätzen besonders interssant sind. Der Fixpunkt wurde auf 3000 Elo gesetzt, einfach weil man damit unten in der Liste mit einer glatten 000er-Zahl beginnt, was besonders den Vergleich beider Listen vereinfacht. Entscheidend sind aber natürlich nicht die Absolutwerte, sondern die Differenzen...
Die beste Freeware-Engine wird als solche gekennzeichnet, außerdem werden alle Engines, die nicht Multi-Core fähig sind, gekennzeichnet, weil letzteres in der heutigen Zeit der Multicoreprozessoren m.E. einen schwerwiegenden Mangel darstellt.

Hier nun die NEBB-Ranglisten mit den Ergebnissen von Stockfish 2.2.1 JA 64bit (2 time losses im Bullet, 1 time loss im Blitz):

Blitzliste (4'+2'')

Rank Name                       Elo    +    - games score oppo. draws
   1 Houdini 2.0c x64          3106   17   17   900   60%  3040   39%
   2 Houdini 1.5a x64          3099   17   17   900   59%  3040   41% (best freeware)
   3 Critter 1.4 64-bit        3082   18   18   800   55%  3050   46%
   4 Komodo 4 x64              3072   17   17   900   53%  3051   42% (singlecore)
   5 Critter 1.2 64-bit        3055   18   18   800   51%  3049   45%
   6 Ivanhoe B46fa x64         3042   16   16  1000   48%  3052   51%
   7 Stockfish 2.2.1 JA 64bit  3034   19   19   700   46%  3064   41%
   8 Komodo 3 x64              3031   19   19   700   47%  3049   46% (singlecore)
   9 Rybka 4.1 x64             3028   16   16  1000   46%  3054   46%
  10 RobboLito 0.09 x64        3016   16   16  1000   44%  3055   50% (singlecore)
  11 Stockfish 2.1.1 JA 64bit  3000   17   17   900   41%  3059   42%


Bulletliste (1'+500 ms)

Rank Name                       Elo    +    - games score oppo. draws
   1 Houdini 2.0c x64          3122   18   18   900   63%  3037   36%
   2 Houdini 1.5a x64          3102   18   17   900   60%  3037   36% (best freeware)
   3 Critter 1.4 64-bit        3093   18   18   800   57%  3047   41%
   4 Critter 1.2 64-bit        3067   18   18   800   53%  3047   43%
   5 Komodo 4 x64              3054   17   17   900   50%  3054   38% (singlecore)
   6 Ivanhoe B46fa x64         3042   16   16  1000   48%  3052   47%
   7 Stockfish 2.2.1 JA 64bit  3028   20   20   700   45%  3063   36%
   8 Komodo 3 x64              3023   19   20   700   46%  3052   37% (singlecore)
   9 Rybka 4.1 x64             3020   16   16  1000   45%  3054   39%
  10 RobboLito 0.09 x64        3010   16   16  1000   43%  3055   45% (singlecore)
  11 Stockfish 2.1.1 JA 64bit  3000   17   17   900   41%  3059   38%

Der neue Stockfish scort gegen starke Gegner besonders gut, daher konnte er in meinen "Champions League"-Ranglisten - im Gegensatz zur IPON - erstmals Rybka 4.1 überholen, wenn auch nur knapp. Das sollte auch statistisch recht sicher sein, da es in beiden Ranglisten, die ja von einander unabhängig ausgespielt werden, geklappt hat und zwar einmal um 6 und einmal um 8 Elo. Der Elo-Zuwachs im Blitz liegt zur alten Version bei wirklich beachtlichen 34 Elo und im Bullet bei ebenso beachtlichen 28 Elo.
In allen 1400 absolvierten Partien gab es insg. 3 time losses. Auch noch zu viel, aber nicht ergebnisverzerrend. Genau wie die alte Version scort auch Stockfish 2.2.1 mit beiden Bedenkzeitstufen etwa gleich, nun allerdings mit minimaler Steigerung bei längerer Bedenkzeit, aber das kann auch eine statistische Schwankung sein, da es sich nur um eine knapp 1% höhere Erfolgsquote handelt.

Grüße an alle - Stefan
Up Topic Hauptforen / CSS-Forum / NEBB-Ranglisten: Stockfish 2.2.1 JA

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill