LS-Rangliste: Gull 2 beta2

By Stefan Pohl Date 2012-08-15 07:15

Hallo zusammen,

Hier das Ergebnis der Gull 2 beta2, da die Endfassung leider noch auf sich warten läßt. Da es eine Beta ist, wird sie nur in der kompletten LS-Rangliste gelistet, nicht in der Best-Liste. Anmerkung: Nur 2 timelosses auf 11000 Partien, keine Hänger - für eine Beta prima.

Testbedingungen: Notebook mit Intel i7-2630QM Prozessor (4 Kerne, 2GHz Takt, Windows 7 64bit Home Premium). Geschwindigkeit der Hardware: Houdini 2.0c auf einem Core etwa 2.1 Mio Kn/s, auf 4 Cores etwa 7.5 Mio Kn/s (bei vollem Brett), FritzMark=20.2. HyperThreading off.
Bedenkzeit: 20''+250ms Fischerbonus (ca. 40 Sekunden pro Partie je Engine), keine Tablebases, 1 Core/Thread und 64 MB Hash pro Engine, kein Pondern, 500 Vorgabestellungen aus der Frank Q. Datenbank (von mir handverlesen, nur Hauptsysteme (kein Holländisch etc.)). Gespielt wird bis zum Matt oder bis zum Remis, die GUI gibt keine Partie auf und auch Remis erst bei 500 Zügen - also gar nicht). Benutzt wird die LittleBlitzerGUI. Dazu merke ich hier nochmal an: Alle Partien wurden/werden im Gauntlet-Modus gespielt, weil nur so die Vorgabestellungen auch alle sequentiell und mit vertauschten Farben korrekt abgespielt werden. Die Ranglisten werden mit bayeselo (mm 0 1) erstellt und die Ergebnisse an Robbolito 0.085g3 x64 mit 3000 Elo gefixt.

Hier nun zunächst die LS-Rangliste mit den besten Engineversionen (nur offizielle Releases, keine Entwicklungsversionen und auch keine Spezialsettings) (jeder gegen jeden, je 1000 Partien):


Rank Name                    Elo    +    - games score oppo. draws 
   1 Houdini 2.0c x64       3118    5    5 10000   64%  3016   40% 
   2 Strelka 5.5 x64        3077    5    5 10000   58%  3020   48% (singlecore)
   3 Critter 1.6a x64       3067    5    5 10000   57%  3021   49% 
   4 Komodo 5 x64           3050    5    5 10000   54%  3023   41% (singlecore)
   5 Ivanhoe 46h x64        3027    5    5 10000   50%  3025   52% (best open source)
   6 Robbolito 0.10 x64s    3024    5    5 10000   50%  3025   53% 
   7 Rybka 4.1 x64s         3011    5    5 10000   48%  3027   43% 
   8 Robbolito 0.085g3 x64  3000    5    5 10000   46%  3028   49% (singlecore)(Ippolit 2009)
   9 Saros 3.0 x64          2995    5    5 10000   45%  3028   44% 
  10 Stockfish 2.2.2 x64s   2973    5    5 10000   42%  3030   40% 
  11 Bouquet 1.4 x64s       2935    5    5 10000   36%  3034   41%

Dazu die Einzelergebnisse des aktuellen Test-Gauntlets:


Gull 2 beta2 x64   - Houdini 2.0c x64          297.0 - 703.0    +105/=384/-511    29.70%
Gull 2 beta2 x64   - Critter 1.6a x64          358.5 - 641.5    +97/=523/-380    35.85%
Gull 2 beta2 x64   - Strelka 5.5 x64           360.5 - 639.5    +120/=481/-399    36.05%
Gull 2 beta2 x64   - Komodo 5 x64              377.0 - 623.0    +175/=404/-421    37.70%
Gull 2 beta2 x64   - Ivanhoe 46h x64           430.5 - 569.5    +146/=569/-285    43.05%
Gull 2 beta2 x64   - Robbolito 0.085g3 x64     448.0 - 552.0    +168/=560/-272    44.80%
Gull 2 beta2 x64   - Robbolito 0.10 x64s       441.0 - 559.0    +154/=574/-272    44.10%
Gull 2 beta2 x64   - Rybka 4.1 x64s            458.0 - 542.0    +221/=474/-305    45.80%
Gull 2 beta2 x64   - Saros 3.0 x64             472.5 - 527.5    +221/=503/-276    47.25%
Gull 2 beta2 x64   - Stockfish 2.2.2 x64s      488.5 - 511.5    +269/=439/-292    48.85%
Gull 2 beta2 x64   - Bouquet 1.4 x64s          558.0 - 442.0    +313/=490/-197    55.80%

Dann noch die komplette LS-Rangliste:


Rank Name                     Elo    +    - games score oppo. draws 
   1 Houdini 2.0c x64        3119    5    5 15000   65%  3010   38% 
   2 Houdini 1.5a x64        3085    5    5 10000   58%  3029   42% (best freeware (multicore))
   3 Strelka 5.5 x64         3077    5    5 15000   59%  3013   46% (singlecore)
   4 Critter 1.6a x64        3067    5    5 15000   58%  3014   48% 
   5 Komodo 5 x64            3050    5    5 12000   55%  3015   41% (singlecore)
   6 Ivanhoe 46h x64         3027    4    5 15000   52%  3017   50% (best open source)
   7 Robbolito 0.10 x64s     3021    5    4 15000   51%  3017   51% 
   8 Rybka 4.1 x64s          3011    4    5 15000   49%  3018   42% 
   9 Robbolito 0.085g3 x64   3000    5    5 15000   47%  3018   48% (singlecore)(Ippolit 2009)
  10 Komodo 4 x64s           3000    5    5 11000   46%  3030   38% (singlecore)
  11 Saros 3.0 x64           2995    5    5 14000   46%  3023   44% 
  12 Stockfish 120727Q x64s  2983    6    6  9000   42%  3041   40% 
  13 Gull 2 beta2 x64        2975    5    5 11000   43%  3025   49% 
  14 Stockfish 2.2.2 x64s    2973    5    5 14000   43%  3023   39% 
  15 Saros 3.2 x64           2958    5    6  9000   39%  3033   43% 
  16 Bouquet 1.4 x64s        2935    5    5 11000   37%  3029   42%

(x64=64bit version, x64s=64bit SSE42-version)

Gelöschte Betas, Entwicklungsversionen, Settings: (Stockfish 120622: Elo 2979), (Houdini 2.0c T3-setting: Elo 3114 (-5 to default))

Wer die Partien der LS-Rangliste haben will, kann mir seine eMail-Adresse per PM hier oder auf talkchess mitteilen, ich schicke dann in Kürze die Partien als PGN-File. Dieses Angebot erfolgt, damit Transparenz und Glaubwürdigkeit der Rangliste gewährleistet ist.

Grüße an alle - Stefan

By Thomas Schoenegger Date 2012-08-15 08:39

Hallo Stefan, danke dir für deine tolle LS-Rangliste. Die Stockfish VE_09 wird ja als sehr stark eingestuft (FRC 40/4 +20, hat dort 1000 Spiele bereits absolviert und liegt auf Rang drei, hier muss das Team um Stockfish wohl etwas richtig gemacht haben. Das Compile ist von Velmarin, er weist ausdrücklich hin, daß er es nur compiliert hat. Vielleicht geht ja bei Stocki doch noch was weiter und wir werden ein offizielles Release irgendwann zu sehen bekommen.

Grüße
Thomas Schönegger

By Stefan Pohl Date 2012-08-16 08:11

[quote="Thomas Schoenegger"]
Hallo Stefan, danke dir für deine tolle LS-Rangliste. Die Stockfish VE_09 wird ja als sehr stark eingestuft (FRC 40/4 +20, hat dort 1000 Spiele bereits absolviert und liegt auf Rang drei, hier muss das Team um Stockfish wohl etwas richtig gemacht haben. Das Compile ist von Velmarin, er weist ausdrücklich hin, daß er es nur compiliert hat. Vielleicht geht ja bei Stocki doch noch was weiter und wir werden ein offizielles Release irgendwann zu sehen bekommen.

Grüße
Thomas Schönegger
[/quote]

Danke für das Lob, so langsam scheinen sich ja doch ein paar Leute für statistisch wirklich aussagefähige Tests zu interessieren - freut mich (nicht für mich, sondern fürs Computerschach an sich!).

Stockfish VE_09 läuft gerade, wird aber wohl bald abgebrochen, denn nach 4500 Partien liegt sie nur minimal besser als die offizielle, alte 2.2.2 und somit ca. 8-10 Elo schlechter als die 120727Q, die bei mir schon gelistet ist.
Daß Stocki im FRC gut ist, liegt übrigens einfach daran, daß FRC aggressiv spielende Engines sehr begünstigt, daher schneidet Stocki im FRC immer überproportional gut ab.

Gruß - Stefan

By Michael Scheidl Date 2012-08-15 11:38

Danke; rein von der Spielstärke her ist diese neue Gull-Version somit sehr interessant. Doch unterscheidet sie sich "ausreichend" von Robbolito, Ivanhoe(*) etc.? Vielleicht lasse ich einen sog. Analysevergleich in Fritz laufen, bin aber noch nicht sicher ob das für einen Stilvergleich taugt und wie viele Partien dazu analysiert werden sollten...

*) aus der Readme:

Zitat:

"A derivative of Gull 1.2 (program structure, board representation, move generators etc.) & Ivanhoe (versions 63 & 46: evaluation). Whether future versions will retain Ivanhoe's evaluation is still undecided."

Das könnte sich also ohnehin wieder ändern.

By Stefan Pohl Date 2012-08-16 08:14

[quote="Michael Scheidl"]
Danke; rein von der Spielstärke her ist diese neue Gull-Version somit sehr interessant. Doch unterscheidet sie sich "ausreichend" von Robbolito, Ivanhoe(*) etc.? Vielleicht lasse ich einen sog. Analysevergleich in Fritz laufen, bin aber noch nicht sicher ob das für einen Stilvergleich taugt und wie viele Partien dazu analysiert werden sollten...

[/quote]

Das wäre sicher eine interessante Sache, probier das doch mal und teil uns das hier mit. Problem ist natürlich heutzutage was ist eben "ausreichend" (s.o.). Da ich das nicht wirklich definieren kann, habe ich bei Enginetests bisher nur von primitiven 1:1 Clonen, bei denen nur mit dem Hex-Editor rumgepfuscht wurde (Deep Matrix 3000), abgesehen und sonst alles mit reingenommen.

Gruß - Stefan

By Simon Gros Date 2012-08-16 08:30

Kurze Frage: gibt es einen Grund weshalb Komodo 5 ohne SSE42 eingesetzt wurde? An der Hardware kann es nicht liegen, da einige andere Engines als SSE42-Version gelistet sind wie z.B. Robbolito 0.10 x64, Rybka 4.1 ... Die Autoren von Komodo streichen immer wieder heraus, daß SSE42 für ihre Engine einiges bringt.
Simon_G

By Stefan Pohl Date 2012-08-16 10:18

[quote="Simon Gros"]
Kurze Frage: gibt es einen Grund weshalb Komodo 5 ohne SSE42 eingesetzt wurde? An der Hardware kann es nicht liegen, da einige andere Engines als SSE42-Version gelistet sind wie z.B. Robbolito 0.10 x64, Rybka 4.1 ... Die Autoren von Komodo streichen immer wieder heraus, daß SSE42 für ihre Engine einiges bringt.
Simon_G
[/quote]

Komodo 5 erkennt beim Start der Engine automatisch, ob es auf einem SSE4.2 kompatiblen Computer läuft, das war bei Komodo 4 noch nicht der Fall. Es sind also gewissermaßen beide Versionen in der Engine enthalten. Bei Critter 1.6a ist es ebenso.

Gruß - Stefan

By Stefan Pohl Date 2012-08-16 10:21

[quote="Simon Gros"]
Kurze Frage: gibt es einen Grund weshalb Komodo 5 ohne SSE42 eingesetzt wurde? An der Hardware kann es nicht liegen, da einige andere Engines als SSE42-Version gelistet sind wie z.B. Robbolito 0.10 x64, Rybka 4.1 ... Die Autoren von Komodo streichen immer wieder heraus, daß SSE42 für ihre Engine einiges bringt.
Simon_G
[/quote]

Komodo 5 und Critter 1.6a erkennen beim Start selbsständig, ob der Computer SSE4.2 unterstützt und stellen sich darauf ein. Also sind in diesen Engines beide Versionen enthalten. Nur bei expliziten SSE4.2-Versionen gebe ich das in der LS-Rangliste an, damit der Nutzer weiß, daß er eine ganz spezielle Version braucht.

Gruß - Stefan