Hallo zusammen,
Hier nun die neueste Version der NEBB-Ranglisten (Naked Engine Bullet und Blitz). Zur Erinnerung zunächst nochmals die genauen Testbedingungen:
50 Ultrakurzvorgabestellungen (1.a3 a6, 1.a3 b6 etc. (ohne Stellungen mit gezogenem f-Bauer, weil Engines das aufgrund der Königssicherheit als schlecht bewerten, außer der symmetrischen Stellung 1.f3 f6, weil ich sonst nur auf 49 Stellungen gekommen wäre). 256 MB Hash, 1 Core (Intel Q9550 2.83 GHz Quad, no SSE support, Vista 64bit) pro Engine, LittleBlitzerGUI (keine Partieaufgabe, Remis erst bei 200 Zügen), kein Pondern, keine Tablebases, nur die allerbesten Engines, wobei hier z.Zt. unterhalb von Stockfish eine große Spielstärkelücke besteht, was sich aber in der Zukunft natürlich ändern kann.
Als Bedenkzeiten habe ich für die Bulletliste 1 Minute Basiszeit + 500 ms Fischerbonus gewählt. Die Blitzliste spielt unter identischen Bedingungen, aber mit der 4fachen Zeit, nämlich 4 Minuten Basis + 2 Sekunden Fischerbonus. Beide Ranglisten werden mit bayeselo erstellt und an der schwächsten Engine der Blitzliste gefixt (z.Zt. Stockfish 2.1.1), weil ja die möglichen Elo-Abweichungen in den zwei Listen natürlich auf den Spitzenplätzen besonders interssant sind. Der Fixpunkt wurde auf 3000 Elo gesetzt, einfach weil man damit unten in der Liste mit einer glatten 000er-Zahl beginnt, was besonders den Vergleich beider Listen vereinfacht. Entscheidend sind aber natürlich nicht die Absolutwerte, sondern die Differenzen...
Die beste Freeware-Engine wird als solche gekennzeichnet, außerdem werden alle Engines, die nicht Multi-Core fähig sind, gekennzeichnet, weil letzteres in der heutigen Zeit der Multicoreprozessoren m.E. einen schwerwiegenden Mangel darstellt.
Hier nun die NEBB-Ranglisten mit den Ergebnissen von Critter 1.4:
Blitzliste (4'+2'')
Rank Name Elo + - games score oppo. draws
1 Houdini 2.0c x64 3104 18 18 800 60% 3041 40%
2 Houdini 1.5a x64 3100 18 18 800 59% 3041 41% (best freeware)
3 Critter 1.4 64-bit 3083 19 19 700 55% 3052 47%
4 Komodo 4 x64 3074 18 18 800 53% 3053 43% (singlecore)
5 Critter 1.2 64-bit 3055 18 18 800 51% 3049 45%
6 Ivanhoe B46fa x64 3043 16 16 900 48% 3054 51%
7 Komodo 3 x64 3031 19 19 700 47% 3049 46% (singlecore)
8 Rybka 4.1 x64 3028 17 17 900 46% 3056 46%
9 RobboLito 0.09 x64 3013 17 17 900 43% 3058 50% (singlecore)
10 Stockfish 2.1.1 JA 64bit 3000 17 17 900 41% 3059 42%
Bulletliste (1'+500 ms)
Rank Name Elo + - games score oppo. draws
1 Houdini 2.0c x64 3122 18 18 800 63% 3039 37%
2 Houdini 1.5a x64 3102 18 18 800 60% 3039 38% (best freeware)
3 Critter 1.4 64-bit 3094 19 19 700 57% 3050 43%
4 Critter 1.2 64-bit 3067 18 18 800 53% 3046 43%
5 Komodo 4 x64 3054 18 18 800 50% 3057 38% (singlecore)
6 Ivanhoe B46fa x64 3046 17 17 900 49% 3054 47%
7 Komodo 3 x64 3023 19 19 700 46% 3052 37% (singlecore)
8 Rybka 4.1 x64 3019 17 17 900 44% 3057 40%
9 RobboLito 0.09 x64 3007 17 17 900 42% 3058 44% (singlecore)
10 Stockfish 2.1.1 JA 64bit 3000 17 17 900 41% 3059 38%
Critter 1.4 ist die Nummer 2 hinter den Houdinis und liegt im Blitz nur noch 21 Elo hinter Houdini 2.0c. Sehr interessant auch, daß Critter 1.4 im Bullet besser als im Blitz ist und zwar in gleichem Maße wie die Vorgängerversion 1.2: Version 1.2 ist 12 Elo besser im Bullet als im Blitz und Version 1.4 ist 11 Elo besser im Bullet. Das spricht für die statistische Stabilität meiner Testmethodik.
Grüße an alle - Stefan
P.S: Die neue Stockfishversion 2.2 ist verbuggt. Auf meinem Quad (kein SSE support, Vista 64bit) verliert sie im Bullet-Testlauf ca. 40% aller Partien auf Zeit (trotz 500ms Fischerbonus)!!! Das ist natürlich indiskutabel und daher kann diese Version nicht getestet werden, bis ein bugfix vorliegt. Version 2.1.1 zeigt dieses Verhalten nicht.
Das hat ja bei Stockfish leider schon Tradition, daß die allererste Ausgabe einer neuen Version kurz nach Erscheinen durch ein Bugfix ersetzt werden muß. Was bei Ivanhoe zu abfälligen bis höhnischen Kommentaren im Forum führt, scheint bei Stockfish komischerweise außer mir keinen zu stören.
Nun ja, wie dem auch sei, auf jeden Fall kann ich die neue Version 2.2 zur Zeit leider nicht testen. Sollte eine funktionierende Version veröffentlicht werden, hole ich den Test natürlich nach.