Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / NEBB-Ranglisten: Stockfish 2.2.2 JA Intel-Compile
- - By Stefan Pohl Date 2012-01-23 11:59
Hallo zusammen,

Hier nun die neueste Version der NEBB-Ranglisten (Naked Engine Bullet und Blitz).
Die genauen Testbedingungen gibt es am Ende des Postings, da sie inzwischen bekannt sein dürften...

Ich habe den neuen Intel-Compile von Stockfish 2.2.2 für die NEBB-Ranglisten getestet, obwohl es sich laut der Autoren nur um ein bugfix handelt, das den angeblich sehr selten auftretenden Fehler behebt, daß Stockfish zu schnell und ohne richtig zu rechnen Züge ausführt. Der Plan war ursprünglich, die Version 2.2.1, die bisher als neueste gelistet war, aus den Listen zu streichen und alle Partien herauszurechnen und das bugfix (2.2.2) dafür zu integrieren. Natürlich nach einem kompletten Testlauf und zwar gegen die genau gleichen Gegner wie die Version 2.2.1, denn ich lehne es prinzipiell ab, Engineversionen in meinen Listen zu führen, die ich gar nicht getestet habe, nur weil die Autoren meinen, daß der Test nicht lohne, da es nur ein bugfix sei, so wie das in der IPON gerade mit Stockfish 2.2.2 gemacht wurde. Warum das für jeden Tester eine Todsünde ist, sollte eigentlich klar sein - ein Tester darf niemals auf die Autoren von Engines hören, wenn es um Spielstärke geht -, aber das Ergebnis, daß Stockfish 2.2.2 bei mir erzielte, macht es nochmals eindrücklich sichtbar. Zumal sich auch in den Foren die Meldungen häufen, daß die Version 2.2.2 besser ist.
Stockfish 2.2.2 spielte je 100 Partien gegen die neuesten Engineversionen in den beiden Listen und auch 100 gegen den eigentlich veralteten RobboLito 0.09, weil die Stockfish 2.2.1 vor RobboLito 0.10 erschienen und bei mir gelistet war und deshalb gegen Robbo 0.10 und 0.09 gespielt hat, um maximale Chancengleichheit und Ergebnissicherheit zu gewährleisten.
Das bemerkenswerte Ergebnis war, daß das sogenannte bugfix 2.2.2 im Blitz 14 Elo und im Bullet sogar 21 Elo besser war, als die Version 2.2.1.(!!!). Daher habe ich mich entschlossen, die neue Version als eigenständig zu behandeln und die alte Version 2.2.1 nicht aus den NEBB-Listen zu streichen. Offensichtlich treten der oder die bugs, die in der neuen Version gefixt wurden, im praktischen Spiel weit häufiger auf, als die Autoren dachten. Daß die neue Version 2.2.2 ca. 5% höhere Knotenleistungen erzielt, spielt nämlich in der praktischen Spielstärke keine meßbare Rolle.

Hier nun die NEBB-Ranglisten mit den Ergebnissen von Stockfish 2.2.2:

Blitzliste (4'+2'')

Rank Name                       Elo    +    - games score oppo. draws
   1 Houdini 2.0c x64          3111   16   16  1100   61%  3040   38%
   2 Houdini 1.5a x64          3099   16   16  1100   59%  3040   40% (best freeware)
   3 Critter 1.4 64-bit        3084   16   16  1000   56%  3047   47%
   4 Komodo 4 x64              3071   16   15  1100   53%  3049   43% (singlecore)
   5 Critter 1.2 64-bit        3055   18   18   800   51%  3049   45%
   6 Stockfish 2.2.2 JA 64bit  3050   18   18   800   49%  3059   45%
   7 Ivanhoe B46fa x64         3041   15   14  1200   49%  3050   52%
   8 Stockfish 2.2.1 JA 64bit  3036   18   18   800   47%  3059   42%
   9 Komodo 3 x64              3031   19   19   700   47%  3050   46% (singlecore)
  10 Rybka 4.1 x64             3027   15   15  1200   46%  3051   46%
  11 RobboLito 0.10 x64        3026   18   18   800   44%  3065   51%
  12 RobboLito 0.09 x64        3013   15   15  1100   43%  3055   49% (singlecore)
  13 Stockfish 2.1.1 JA 64bit  3000   17   17   900   41%  3059   42%


Bulletliste (1'+500 ms)

Rank Name                       Elo    +    - games score oppo. draws
   1 Houdini 2.0c x64          3121   16   16  1100   63%  3037   36%
   2 Houdini 1.5a x64          3100   16   16  1100   60%  3037   36% (best freeware)
   3 Critter 1.4 64-bit        3092   16   16  1000   58%  3044   43%
   4 Critter 1.2 64-bit        3067   18   18   800   53%  3047   43%
   5 Komodo 4 x64              3053   16   16  1100   51%  3050   38% (singlecore)
   6 Ivanhoe B46fa x64         3042   15   15  1200   49%  3049   48%
   7 Stockfish 2.2.2 JA 64bit  3041   18   19   800   47%  3059   39%
   8 RobboLito 0.10 x64        3032   18   18   800   45%  3061   46%
   9 Komodo 3 x64              3024   20   20   700   46%  3052   37% (singlecore)
  10 Rybka 4.1 x64             3021   15   15  1200   46%  3050   41%
  11 Stockfish 2.2.1 JA 64bit  3020   19   19   800   44%  3059   37%
  12 RobboLito 0.09 x64        3012   16   16  1100   44%  3053   44% (singlecore)
  13 Stockfish 2.1.1 JA 64bit  3000   17   18   900   41%  3059   38%


Testbedingungen der NEBB-Ranglisten:

50 Ultrakurzvorgabestellungen (1.a3 a6, 1.a3 b6 etc. (ohne Stellungen mit gezogenem f-Bauer, weil Engines das aufgrund der Königssicherheit als schlecht bewerten, außer der symmetrischen Stellung 1.f3 f6, weil ich sonst nur auf 49 Stellungen gekommen wäre). 256 MB Hash, 1 Core (Intel Q9550 2.83 GHz Quad, no SSE support, Vista 64bit) pro Engine, LittleBlitzerGUI (keine Partieaufgabe, Remis erst bei 200 Zügen), kein Pondern, keine Tablebases, nur die allerbesten Engines, wobei hier z.Zt. unterhalb von Stockfish eine große Spielstärkelücke besteht, was sich aber in der Zukunft natürlich ändern kann.
Als Bedenkzeiten habe ich für die Bulletliste 1 Minute Basiszeit + 500 ms Fischerbonus gewählt. Die Blitzliste spielt unter identischen Bedingungen, aber mit der 4fachen Zeit, nämlich 4 Minuten Basis + 2 Sekunden Fischerbonus. Beide Ranglisten werden mit bayeselo erstellt und an der schwächsten Engine der Blitzliste gefixt (z.Zt. Stockfish 2.1.1), weil ja die möglichen Elo-Abweichungen in den zwei Listen natürlich auf den Spitzenplätzen besonders interssant sind. Der Fixpunkt wurde auf 3000 Elo gesetzt, einfach weil man damit unten in der Liste mit einer glatten 000er-Zahl beginnt, was besonders den Vergleich beider Listen vereinfacht. Entscheidend sind aber natürlich nicht die Absolutwerte, sondern die Differenzen...
Die beste Freeware-Engine wird als solche gekennzeichnet, außerdem werden alle Engines, die nicht Multi-Core fähig sind, gekennzeichnet, weil letzteres in der heutigen Zeit der Multicoreprozessoren m.E. einen schwerwiegenden Mangel darstellt.

Gelistete ältere Engineversionen werden übrigens - von Houdini 1.5a abgesehen, weil diese z.Zt den Titel "beste Freeware" innehat und diesen natürlich verteidigen muß - in den Test-Spießrutenläufen neuer Engines/Versionen nicht mehr als Gegner berücksichtigt. Sie bleiben gelistet, um die Fortschritte in neuen Versionen bekannter Engines zu dokumentieren, sind aber ansonsten "Karteileichen", die nicht mehr zum Einsatz als Gegner für neue Engines/Versionen kommen. Das hatten wohl einige Leute irgendwie falsch verstanden, daher will ich das hier nochmal ausdrücklich klargestellt haben. Als Beispiel: Als ich jetzt aktuell RobboLito 0.10 getestet habe, spielte dieser 100 Partien gegen Komodo 4 aber keine gegen Komodo 3. Ebenso 100 Partien gegen Critter 1.4 aber keine gegen Critter 1.2 usw. usw. Critter 1.2 und Komodo 3 spielen also gar nicht mehr mit, bleiben aber gelistet. Ebenso RobboLito 0.09 und Stockfish 2.1.1. etc.

Wer die Partien der NEBB-Rangliste haben will, kann mir seine eMail-Adresse per PM hier oder auf talkchess mitteilen, ich schicke dann in Kürze die Partien als PGN-File. Bitte dazu angeben, ob nur Bullet, nur Blitz oder beide Partiedatensätze gewünscht werden.
Dieses Angebot erfolgt, damit Transparenz und Glaubwürdigkeit der NEBB-Ranglisten gewährleistet sind.

Grüße an alle - Stefan
Parent - - By Michael Scheidl Date 2012-01-23 13:42
Danke; dann hatte dieser Sofortzüge-Bug offenbar doch eine meßbare Spielstärkewirkung. Die auffällige Einzelniederlage gegen Fritz 5.32 hatte es eigentlich schon angedeutet. Vermutlich kann Stockfish 2.2.2 niemals "auf normale Weise" gegen Fritz 5.32 verlieren.

(Bei ganz genauer Betrachtung sieht man zwar, daß sich die Errormargins der Ratings von 2.2.1 und 2.2.2 überlappen... aber wegen einer Hundertstel Versionsnummer braucht man ja nichts auf die Goldwaage legen.)
Parent - By Stefan Pohl Date 2012-01-23 13:58
[quote="Michael Scheidl"]
Danke; dann hatte dieser Sofortzüge-Bug offenbar doch eine meßbare Spielstärkewirkung. Die auffällige Einzelniederlage gegen Fritz 5.32 hatte es eigentlich schon angedeutet. Vermutlich kann Stockfish 2.2.2 niemals "auf normale Weise" gegen Fritz 5.32 verlieren.

(Bei ganz genauer Betrachtung sieht man zwar, daß sich die Errormargins der Ratings von 2.2.1 und 2.2.2 überlappen... aber wegen einer Hundertstel Versionsnummer braucht man ja nichts auf die Goldwaage legen.)
[/quote]

Hallo Michael,

das stimmt zwar, aber dabei mußt du bedenken, daß ich ja immer 2 komplett identische Testläufe aber mit unterschiedlicher Bedenkzeit absolviere. Diese beiden Testruns sind also komplett voneinander unabhängig. Wenn nun - wie im konkreten Fall - BEIDE Ergebnisse deutlich nach oben weisen, so schränkt das die Wahrscheinlichkeit, daß es sich um einen Errorbar-Ausreißer handelt extrem ein. Das ist ja auch einer der Gründe, warum ich 2 Testdurchläufe mache.
Zum anderen habe ich festgestellt, daß meine Testergebnisse, seit ich die Ultrakurz-Vorgabestellungen verwende, sich sehr viel früher einpendeln, als wenn man klassische Vorgabestellungen benutzt. Warum das so ist, ist mir leider immer noch unklar, aber es ist ein Fakt, daß bei keinem Testlauf, den ich für NEBB gemacht habe, ab Partie 400 das Ergebnis bis zum Ende (meist 700 Partien, bei Stocki jetzt sogar 800) sich noch um mehr als 0.5% geändert hat. Das finde ich wirklich bemerkenswert,zumal ich bei früheren Tests mit klassischen Vorgabestellungen wirklich weit später noch weit größere Schwankungen hatte. Und nicht nur ich, das gab es auch schon in der IPON und der SWCR.

Gruß - Stefan
Up Topic Hauptforen / CSS-Forum / NEBB-Ranglisten: Stockfish 2.2.2 JA Intel-Compile

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill