Hallo zusammen,
Hier nun die neueste Version der NEBB-Ranglisten (Naked Engine Bullet und Blitz).
Die genauen Testbedingungen gibt es am Ende des Postings, da sie inzwischen bekannt sein dürften...
Ich habe den neuen Intel-Compile von Stockfish 2.2.2 für die NEBB-Ranglisten getestet, obwohl es sich laut der Autoren nur um ein bugfix handelt, das den angeblich sehr selten auftretenden Fehler behebt, daß Stockfish zu schnell und ohne richtig zu rechnen Züge ausführt. Der Plan war ursprünglich, die Version 2.2.1, die bisher als neueste gelistet war, aus den Listen zu streichen und alle Partien herauszurechnen und das bugfix (2.2.2) dafür zu integrieren. Natürlich nach einem kompletten Testlauf und zwar gegen die genau gleichen Gegner wie die Version 2.2.1, denn ich lehne es prinzipiell ab, Engineversionen in meinen Listen zu führen, die ich gar nicht getestet habe, nur weil die Autoren meinen, daß der Test nicht lohne, da es nur ein bugfix sei, so wie das in der IPON gerade mit Stockfish 2.2.2 gemacht wurde. Warum das für jeden Tester eine Todsünde ist, sollte eigentlich klar sein - ein Tester darf niemals auf die Autoren von Engines hören, wenn es um Spielstärke geht -, aber das Ergebnis, daß Stockfish 2.2.2 bei mir erzielte, macht es nochmals eindrücklich sichtbar. Zumal sich auch in den Foren die Meldungen häufen, daß die Version 2.2.2 besser ist.
Stockfish 2.2.2 spielte je 100 Partien gegen die neuesten Engineversionen in den beiden Listen und auch 100 gegen den eigentlich veralteten RobboLito 0.09, weil die Stockfish 2.2.1 vor RobboLito 0.10 erschienen und bei mir gelistet war und deshalb gegen Robbo 0.10 und 0.09 gespielt hat, um maximale Chancengleichheit und Ergebnissicherheit zu gewährleisten.
Das bemerkenswerte Ergebnis war, daß das sogenannte bugfix 2.2.2 im Blitz 14 Elo und im Bullet sogar 21 Elo besser war, als die Version 2.2.1.(!!!). Daher habe ich mich entschlossen, die neue Version als eigenständig zu behandeln und die alte Version 2.2.1 nicht aus den NEBB-Listen zu streichen. Offensichtlich treten der oder die bugs, die in der neuen Version gefixt wurden, im praktischen Spiel weit häufiger auf, als die Autoren dachten. Daß die neue Version 2.2.2 ca. 5% höhere Knotenleistungen erzielt, spielt nämlich in der praktischen Spielstärke keine meßbare Rolle.
Hier nun die NEBB-Ranglisten mit den Ergebnissen von Stockfish 2.2.2:
Blitzliste (4'+2'')
Rank Name Elo + - games score oppo. draws
1 Houdini 2.0c x64 3111 16 16 1100 61% 3040 38%
2 Houdini 1.5a x64 3099 16 16 1100 59% 3040 40% (best freeware)
3 Critter 1.4 64-bit 3084 16 16 1000 56% 3047 47%
4 Komodo 4 x64 3071 16 15 1100 53% 3049 43% (singlecore)
5 Critter 1.2 64-bit 3055 18 18 800 51% 3049 45%
6 Stockfish 2.2.2 JA 64bit 3050 18 18 800 49% 3059 45%
7 Ivanhoe B46fa x64 3041 15 14 1200 49% 3050 52%
8 Stockfish 2.2.1 JA 64bit 3036 18 18 800 47% 3059 42%
9 Komodo 3 x64 3031 19 19 700 47% 3050 46% (singlecore)
10 Rybka 4.1 x64 3027 15 15 1200 46% 3051 46%
11 RobboLito 0.10 x64 3026 18 18 800 44% 3065 51%
12 RobboLito 0.09 x64 3013 15 15 1100 43% 3055 49% (singlecore)
13 Stockfish 2.1.1 JA 64bit 3000 17 17 900 41% 3059 42%
Bulletliste (1'+500 ms)
Rank Name Elo + - games score oppo. draws
1 Houdini 2.0c x64 3121 16 16 1100 63% 3037 36%
2 Houdini 1.5a x64 3100 16 16 1100 60% 3037 36% (best freeware)
3 Critter 1.4 64-bit 3092 16 16 1000 58% 3044 43%
4 Critter 1.2 64-bit 3067 18 18 800 53% 3047 43%
5 Komodo 4 x64 3053 16 16 1100 51% 3050 38% (singlecore)
6 Ivanhoe B46fa x64 3042 15 15 1200 49% 3049 48%
7 Stockfish 2.2.2 JA 64bit 3041 18 19 800 47% 3059 39%
8 RobboLito 0.10 x64 3032 18 18 800 45% 3061 46%
9 Komodo 3 x64 3024 20 20 700 46% 3052 37% (singlecore)
10 Rybka 4.1 x64 3021 15 15 1200 46% 3050 41%
11 Stockfish 2.2.1 JA 64bit 3020 19 19 800 44% 3059 37%
12 RobboLito 0.09 x64 3012 16 16 1100 44% 3053 44% (singlecore)
13 Stockfish 2.1.1 JA 64bit 3000 17 18 900 41% 3059 38%
Testbedingungen der NEBB-Ranglisten:
50 Ultrakurzvorgabestellungen (1.a3 a6, 1.a3 b6 etc. (ohne Stellungen mit gezogenem f-Bauer, weil Engines das aufgrund der Königssicherheit als schlecht bewerten, außer der symmetrischen Stellung 1.f3 f6, weil ich sonst nur auf 49 Stellungen gekommen wäre). 256 MB Hash, 1 Core (Intel Q9550 2.83 GHz Quad, no SSE support, Vista 64bit) pro Engine, LittleBlitzerGUI (keine Partieaufgabe, Remis erst bei 200 Zügen), kein Pondern, keine Tablebases, nur die allerbesten Engines, wobei hier z.Zt. unterhalb von Stockfish eine große Spielstärkelücke besteht, was sich aber in der Zukunft natürlich ändern kann.
Als Bedenkzeiten habe ich für die Bulletliste 1 Minute Basiszeit + 500 ms Fischerbonus gewählt. Die Blitzliste spielt unter identischen Bedingungen, aber mit der 4fachen Zeit, nämlich 4 Minuten Basis + 2 Sekunden Fischerbonus. Beide Ranglisten werden mit bayeselo erstellt und an der schwächsten Engine der Blitzliste gefixt (z.Zt. Stockfish 2.1.1), weil ja die möglichen Elo-Abweichungen in den zwei Listen natürlich auf den Spitzenplätzen besonders interssant sind. Der Fixpunkt wurde auf 3000 Elo gesetzt, einfach weil man damit unten in der Liste mit einer glatten 000er-Zahl beginnt, was besonders den Vergleich beider Listen vereinfacht. Entscheidend sind aber natürlich nicht die Absolutwerte, sondern die Differenzen...
Die beste Freeware-Engine wird als solche gekennzeichnet, außerdem werden alle Engines, die nicht Multi-Core fähig sind, gekennzeichnet, weil letzteres in der heutigen Zeit der Multicoreprozessoren m.E. einen schwerwiegenden Mangel darstellt.
Gelistete ältere Engineversionen werden übrigens - von Houdini 1.5a abgesehen, weil diese z.Zt den Titel "beste Freeware" innehat und diesen natürlich verteidigen muß - in den Test-Spießrutenläufen neuer Engines/Versionen nicht mehr als Gegner berücksichtigt. Sie bleiben gelistet, um die Fortschritte in neuen Versionen bekannter Engines zu dokumentieren, sind aber ansonsten "Karteileichen", die nicht mehr zum Einsatz als Gegner für neue Engines/Versionen kommen. Das hatten wohl einige Leute irgendwie falsch verstanden, daher will ich das hier nochmal ausdrücklich klargestellt haben. Als Beispiel: Als ich jetzt aktuell RobboLito 0.10 getestet habe, spielte dieser 100 Partien gegen Komodo 4 aber keine gegen Komodo 3. Ebenso 100 Partien gegen Critter 1.4 aber keine gegen Critter 1.2 usw. usw. Critter 1.2 und Komodo 3 spielen also gar nicht mehr mit, bleiben aber gelistet. Ebenso RobboLito 0.09 und Stockfish 2.1.1. etc.
Wer die Partien der NEBB-Rangliste haben will, kann mir seine eMail-Adresse per PM hier oder auf talkchess mitteilen, ich schicke dann in Kürze die Partien als PGN-File. Bitte dazu angeben, ob nur Bullet, nur Blitz oder beide Partiedatensätze gewünscht werden.
Dieses Angebot erfolgt, damit Transparenz und Glaubwürdigkeit der NEBB-Ranglisten gewährleistet sind.
Grüße an alle - Stefan