LS-Rangliste: Stockfish 2.3.1

By Stefan Pohl Date 2012-10-14 08:42

Hallo zusammen,

Hier nun die LS-Rangliste mit Stockfish 2.3.1. Leider nur eine minimale Steigerung von +5 Elo zur 2.2.2. Wenn ich bei allen Engines auf dem aktuellen Stand bin, was noch etwas dauern wird, werde ich mir sicher noch einige der Stockfish Entwicklungsversionen anschauen. Die Version vom 27.07.2012 war seinerzeit in der alten LS-Rangliste schon 10 Elo besser als 2.2.2...

Testbedingungen: Notebook mit Intel i7-2630QM Prozessor (4 Kerne, 2GHz Takt, Windows 7 64bit Home Premium). Geschwindigkeit der Hardware: Houdini 2.0c auf einem Core etwa 2.2 Mio Kn/s, auf 4 Cores etwa 7.5 Mio Kn/s (bei vollem Brett), FritzMark=20.2. HyperThreading off.
Bedenkzeit: 45''+500ms Fischerbonus (ca. knapp 90 Sekunden pro Partie je Engine), keine Tablebases, 1 Core/Thread und 64 MB Hash pro Engine, kein Pondern, 500 Vorgabestellungen aus der Frank Q. Datenbank (von mir handverlesen, nur Hauptsysteme (kein Holländisch etc.)). Gespielt wird bis zum Matt oder bis zum Remis, die GUI gibt keine Partie auf und auch Remis erst bei 500 Zügen - also gar nicht). Benutzt wird die LittleBlitzerGUI. Dazu merke ich hier nochmal an: Alle Partien wurden/werden im Gauntlet-Modus gespielt, weil nur so die Vorgabestellungen auch alle sequentiell und mit vertauschten Farben korrekt abgespielt werden. Die Ranglisten werden mit bayeselo (mm 0 1) erstellt und die Ergebnisse an Robbolito 0.085g3 x64 mit 3000 Elo gefixt.

Hier nun zunächst die LS-Rangliste mit den besten Engineversionen (nur offizielle Releases, keine Entwicklungsversionen und auch keine Spezialsettings) (jeder gegen jeden, je 1000 Partien):


Rank Name                    Elo    +    - games score oppo. draws 
   1 Houdini 2.0c x64       3103    5    5 10000   62%  3016   43% 
   2 Critter 1.6a x64       3070    5    5 10000   57%  3020   52% 
   3 Strelka 5.5 x64        3069    5    5 10000   57%  3020   52% (singlecore)
   4 Komodo 5 x64           3057    5    5 10000   55%  3021   44% (singlecore)
   5 Ivanhoe 46h x64        3021    5    5 10000   49%  3025   55% (best open source)
   6 Robbolito 0.10 x64s    3019    5    5 10000   49%  3025   55% 
   7 Rybka 4.1 x64s         3012    5    5 10000   48%  3025   47% 
   8 Robbolito 0.085g3 x64  3000    5    5 10000   46%  3027   54% (singlecore)(Ippolit 2009)
   9 Stockfish 2.3.1 x64s   3000    5    5 10000   46%  3027   45% 
  10 Saros 3.0 x64          2988    5    5 10000   44%  3028   48% 
  11 Bouquet 1.4 x64s       2929    5    5 10000   35%  3034   43%

Dazu die Einzelergebnisse des aktuellen Test-Gauntlets:


Stockfish 2.3.1 x64s   - Komodo 5 x64              425.0 - 575.0    +197/=456/-347    42.50%
Stockfish 2.3.1 x64s   - Critter 1.6a x64          412.5 - 587.5    +182/=461/-357    41.25%
Stockfish 2.3.1 x64s   - Strelka 5.5 x64           408.0 - 592.0    +176/=464/-360    40.80%
Stockfish 2.3.1 x64s   - Houdini 2.0c x64          371.0 - 629.0    +183/=376/-441    37.10%
Stockfish 2.3.1 x64s   - Ivanhoe 46h x64           463.5 - 536.5    +215/=497/-288    46.35%
Stockfish 2.3.1 x64s   - Rybka 4.1 x64s            466.5 - 533.5    +242/=449/-309    46.65%
Stockfish 2.3.1 x64s   - Robbolito 0.10 x64s       460.0 - 540.0    +226/=468/-306    46.00%
Stockfish 2.3.1 x64s   - Robbolito 0.085g3 x64     494.0 - 506.0    +261/=466/-273    49.40%
Stockfish 2.3.1 x64s   - Bouquet 1.4 x64s          610.5 - 389.5    +417/=387/-196    61.05%
Stockfish 2.3.1 x64s   - Saros 3.0 x64             509.0 - 491.0    +288/=442/-270    50.90%

Dann noch die komplette LS-Rangliste:


Rank Name                    Elo    +    - games score oppo. draws 
   1 Houdini 2.0c x64       3104    5    5 11000   62%  3015   42% 
   2 Houdini 1.5a x64       3084    5    5 10000   59%  3017   44% (best freeware (multicore))
   3 Critter 1.6a x64       3072    5    5 12000   57%  3024   52% 
   4 Strelka 5.5 x64        3072    5    5 12000   57%  3024   52% (singlecore)
   5 Komodo 5 x64           3059    5    5 12000   55%  3025   44% (singlecore)
   6 Ivanhoe 46h x64        3021    4    4 12000   49%  3028   53% (best open source)
   7 Robbolito 0.10 x64s    3019    5    5 12000   49%  3028   54% 
   8 Rybka 4.1 x64s         3013    5    5 12000   48%  3029   46% 
   9 Stockfish 2.3.1 x64s   3001    5    5 10000   46%  3028   45% 
  10 Robbolito 0.085g3 x64  3000    5    5 12000   46%  3030   52% (singlecore)(Ippolit 2009)
  11 Stockfish 2.2.2 x64s   2996    5    5 11000   45%  3033   44% 
  12 Saros 3.0 x64          2988    5    5 12000   44%  3031   46% 
  13 Bouquet 1.4 x64s       2930    5    5 12000   35%  3036   43%

(x64=64bit version, x64s=64bit SSE42-version)

Gelöschte Betas, Entwicklungsversionen, Settings: keine
Abgebrochene Test-Gauntlets (wegen zu schwachen Ergebnisses): keine

Wer die Partien der LS-Rangliste haben will, kann mir seine eMail-Adresse per PM hier oder auf talkchess mitteilen, ich schicke dann in Kürze die Partien als PGN-File. Dieses Angebot erfolgt, damit Transparenz und Glaubwürdigkeit der Rangliste gewährleistet ist.

Grüße an alle - Stefan

By Thomas Schoenegger Date 2012-10-14 10:57

Danke dir Stefan. Also eine Bestätigung aller anderen Tests, welche ich so beiläufig mitbekommen habe.Ich meine damit, dass diese +5 sich bei längeren BZ wohl nicht großartig auswirken werden. Denoch bin ich überzeugt, dass sich für Analysen die 2.3.1 besser eignet, da gewisse Stellungen die ältere Version nicht lösen konnte. Ich kann mich da an ein Posting im Talkchess forum erinnern, welche eine Bauernumwandlung in einen Springer zur richtigen Lösung hatte (wenn ich mich nicht täusche), welche die 2.3.1 sofort erkannte. Weiß jetzt aber nicht mehr wer und wann dieses gepostet wurde.
Neuere Compiles teste ich nicht mehr, da diese "Qi", alle Intel optimierte Compiles sind. Wurde von AMD Benutzer schon kritisiert. Compiles, welche nur auf bestimmte Rechner funktionieren sind für mich realitätsfremd, auch wenn diese besser scoren als die 2.3.1.
Gruß Thomas

By Stefan Pohl Date 2012-10-15 09:52

[quote="Thomas Schoenegger"]
Neuere Compiles teste ich nicht mehr, da diese "Qi", alle Intel optimierte Compiles sind. Wurde von AMD Benutzer schon kritisiert. Compiles, welche nur auf bestimmte Rechner funktionieren sind für mich realitätsfremd, auch wenn diese besser scoren als die 2.3.1.
[/quote]

Hi Thomas,

jetzt gibt es eine neue Version (14.10.12), die in 3 Compilaten vorliegt (auch nicht-Intel-optimiert und auch ohne popcount). Siehe dazu mein gerade neu eröffneter Thread (neue Stockfish-Entwicklungsversion (14.10.12) (dort auch der Link zu den Compilaten)...Vielleicht für dich dann wieder interessant. Interessant vor allem auch wegen des neuen Remisfaktors als Parameter! (Contempt Factor). Warum dieser Parameter nicht bei allen Engines Standard ist, kann ich sowieso nicht begreifen, zumal er einfach zu implementieren ist.

Gruß - Stefan