Hallo zusammen,
Hier das Ergebnis der Gull 2 beta2, da die Endfassung leider noch auf sich warten läßt. Da es eine Beta ist, wird sie nur in der kompletten LS-Rangliste gelistet, nicht in der Best-Liste. Anmerkung: Nur 2 timelosses auf 11000 Partien, keine Hänger - für eine Beta prima.
Testbedingungen: Notebook mit Intel i7-2630QM Prozessor (4 Kerne, 2GHz Takt, Windows 7 64bit Home Premium). Geschwindigkeit der Hardware: Houdini 2.0c auf einem Core etwa 2.1 Mio Kn/s, auf 4 Cores etwa 7.5 Mio Kn/s (bei vollem Brett), FritzMark=20.2. HyperThreading off.
Bedenkzeit: 20''+250ms Fischerbonus (ca. 40 Sekunden pro Partie je Engine), keine Tablebases, 1 Core/Thread und 64 MB Hash pro Engine, kein Pondern, 500 Vorgabestellungen aus der Frank Q. Datenbank (von mir handverlesen, nur Hauptsysteme (kein Holländisch etc.)). Gespielt wird bis zum Matt oder bis zum Remis, die GUI gibt keine Partie auf und auch Remis erst bei 500 Zügen - also gar nicht). Benutzt wird die LittleBlitzerGUI. Dazu merke ich hier nochmal an: Alle Partien wurden/werden im Gauntlet-Modus gespielt, weil nur so die Vorgabestellungen auch alle sequentiell und mit vertauschten Farben korrekt abgespielt werden. Die Ranglisten werden mit bayeselo (mm 0 1) erstellt und die Ergebnisse an Robbolito 0.085g3 x64 mit 3000 Elo gefixt.
Hier nun zunächst die LS-Rangliste mit den besten Engineversionen (nur offizielle Releases, keine Entwicklungsversionen und auch keine Spezialsettings) (jeder gegen jeden, je 1000 Partien):
Rank Name Elo + - games score oppo. draws
1 Houdini 2.0c x64 3118 5 5 10000 64% 3016 40%
2 Strelka 5.5 x64 3077 5 5 10000 58% 3020 48% (singlecore)
3 Critter 1.6a x64 3067 5 5 10000 57% 3021 49%
4 Komodo 5 x64 3050 5 5 10000 54% 3023 41% (singlecore)
5 Ivanhoe 46h x64 3027 5 5 10000 50% 3025 52% (best open source)
6 Robbolito 0.10 x64s 3024 5 5 10000 50% 3025 53%
7 Rybka 4.1 x64s 3011 5 5 10000 48% 3027 43%
8 Robbolito 0.085g3 x64 3000 5 5 10000 46% 3028 49% (singlecore)(Ippolit 2009)
9 Saros 3.0 x64 2995 5 5 10000 45% 3028 44%
10 Stockfish 2.2.2 x64s 2973 5 5 10000 42% 3030 40%
11 Bouquet 1.4 x64s 2935 5 5 10000 36% 3034 41%
Dazu die Einzelergebnisse des aktuellen Test-Gauntlets:
Gull 2 beta2 x64 - Houdini 2.0c x64 297.0 - 703.0 +105/=384/-511 29.70%
Gull 2 beta2 x64 - Critter 1.6a x64 358.5 - 641.5 +97/=523/-380 35.85%
Gull 2 beta2 x64 - Strelka 5.5 x64 360.5 - 639.5 +120/=481/-399 36.05%
Gull 2 beta2 x64 - Komodo 5 x64 377.0 - 623.0 +175/=404/-421 37.70%
Gull 2 beta2 x64 - Ivanhoe 46h x64 430.5 - 569.5 +146/=569/-285 43.05%
Gull 2 beta2 x64 - Robbolito 0.085g3 x64 448.0 - 552.0 +168/=560/-272 44.80%
Gull 2 beta2 x64 - Robbolito 0.10 x64s 441.0 - 559.0 +154/=574/-272 44.10%
Gull 2 beta2 x64 - Rybka 4.1 x64s 458.0 - 542.0 +221/=474/-305 45.80%
Gull 2 beta2 x64 - Saros 3.0 x64 472.5 - 527.5 +221/=503/-276 47.25%
Gull 2 beta2 x64 - Stockfish 2.2.2 x64s 488.5 - 511.5 +269/=439/-292 48.85%
Gull 2 beta2 x64 - Bouquet 1.4 x64s 558.0 - 442.0 +313/=490/-197 55.80%
Dann noch die komplette LS-Rangliste:
Rank Name Elo + - games score oppo. draws
1 Houdini 2.0c x64 3119 5 5 15000 65% 3010 38%
2 Houdini 1.5a x64 3085 5 5 10000 58% 3029 42% (best freeware (multicore))
3 Strelka 5.5 x64 3077 5 5 15000 59% 3013 46% (singlecore)
4 Critter 1.6a x64 3067 5 5 15000 58% 3014 48%
5 Komodo 5 x64 3050 5 5 12000 55% 3015 41% (singlecore)
6 Ivanhoe 46h x64 3027 4 5 15000 52% 3017 50% (best open source)
7 Robbolito 0.10 x64s 3021 5 4 15000 51% 3017 51%
8 Rybka 4.1 x64s 3011 4 5 15000 49% 3018 42%
9 Robbolito 0.085g3 x64 3000 5 5 15000 47% 3018 48% (singlecore)(Ippolit 2009)
10 Komodo 4 x64s 3000 5 5 11000 46% 3030 38% (singlecore)
11 Saros 3.0 x64 2995 5 5 14000 46% 3023 44%
12 Stockfish 120727Q x64s 2983 6 6 9000 42% 3041 40%
13 Gull 2 beta2 x64 2975 5 5 11000 43% 3025 49%
14 Stockfish 2.2.2 x64s 2973 5 5 14000 43% 3023 39%
15 Saros 3.2 x64 2958 5 6 9000 39% 3033 43%
16 Bouquet 1.4 x64s 2935 5 5 11000 37% 3029 42%
(x64=64bit version, x64s=64bit SSE42-version)
Gelöschte Betas, Entwicklungsversionen, Settings: (Stockfish 120622: Elo 2979), (Houdini 2.0c T3-setting: Elo 3114 (-5 to default))
Wer die Partien der LS-Rangliste haben will, kann mir seine eMail-Adresse per PM hier oder auf talkchess mitteilen, ich schicke dann in Kürze die Partien als PGN-File. Dieses Angebot erfolgt, damit Transparenz und Glaubwürdigkeit der Rangliste gewährleistet ist.
Grüße an alle - Stefan
By Thomas Schoenegger
Date 2012-08-15 08:39
Hallo Stefan, danke dir für deine tolle LS-Rangliste. Die Stockfish VE_09 wird ja als sehr stark eingestuft (FRC 40/4 +20, hat dort 1000 Spiele bereits absolviert und liegt auf Rang drei, hier muss das Team um Stockfish wohl etwas richtig gemacht haben. Das Compile ist von Velmarin, er weist ausdrücklich hin, daß er es nur compiliert hat. Vielleicht geht ja bei Stocki doch noch was weiter und wir werden ein offizielles Release irgendwann zu sehen bekommen.
Grüße
Thomas Schönegger
[quote="Thomas Schoenegger"]
Hallo Stefan, danke dir für deine tolle LS-Rangliste. Die Stockfish VE_09 wird ja als sehr stark eingestuft (FRC 40/4 +20, hat dort 1000 Spiele bereits absolviert und liegt auf Rang drei, hier muss das Team um Stockfish wohl etwas richtig gemacht haben. Das Compile ist von Velmarin, er weist ausdrücklich hin, daß er es nur compiliert hat. Vielleicht geht ja bei Stocki doch noch was weiter und wir werden ein offizielles Release irgendwann zu sehen bekommen.
Grüße
Thomas Schönegger
[/quote]
Danke für das Lob, so langsam scheinen sich ja doch ein paar Leute für statistisch wirklich aussagefähige Tests zu interessieren - freut mich (nicht für mich, sondern fürs Computerschach an sich!).
Stockfish VE_09 läuft gerade, wird aber wohl bald abgebrochen, denn nach 4500 Partien liegt sie nur minimal besser als die offizielle, alte 2.2.2 und somit ca. 8-10 Elo schlechter als die 120727Q, die bei mir schon gelistet ist.
Daß Stocki im FRC gut ist, liegt übrigens einfach daran, daß FRC aggressiv spielende Engines sehr begünstigt, daher schneidet Stocki im FRC immer überproportional gut ab.
Gruß - Stefan
Danke; rein von der Spielstärke her ist diese neue Gull-Version somit sehr interessant. Doch unterscheidet sie sich "ausreichend" von Robbolito, Ivanhoe(*) etc.? Vielleicht lasse ich einen sog.
Analysevergleich in Fritz laufen, bin aber noch nicht sicher ob das für einen
Stilvergleich taugt und wie viele Partien dazu analysiert werden sollten...
*) aus der Readme:
Zitat:
"A derivative of Gull 1.2 (program structure, board representation, move generators etc.) & Ivanhoe (versions 63 & 46: evaluation). Whether future versions will retain Ivanhoe's evaluation is still undecided."
Das könnte sich also ohnehin wieder ändern.
[quote="Michael Scheidl"]
Danke; rein von der Spielstärke her ist diese neue Gull-Version somit sehr interessant. Doch unterscheidet sie sich "ausreichend" von Robbolito, Ivanhoe(*) etc.? Vielleicht lasse ich einen sog. Analysevergleich in Fritz laufen, bin aber noch nicht sicher ob das für einen Stilvergleich taugt und wie viele Partien dazu analysiert werden sollten...
[/quote]
Das wäre sicher eine interessante Sache, probier das doch mal und teil uns das hier mit. Problem ist natürlich heutzutage was ist eben "ausreichend" (s.o.). Da ich das nicht wirklich definieren kann, habe ich bei Enginetests bisher nur von primitiven 1:1 Clonen, bei denen nur mit dem Hex-Editor rumgepfuscht wurde (Deep Matrix 3000), abgesehen und sonst alles mit reingenommen.
Gruß - Stefan
By Simon Gros
Date 2012-08-16 08:30
Kurze Frage: gibt es einen Grund weshalb Komodo 5 ohne SSE42 eingesetzt wurde? An der Hardware kann es nicht liegen, da einige andere Engines als SSE42-Version gelistet sind wie z.B. Robbolito 0.10 x64, Rybka 4.1 ... Die Autoren von Komodo streichen immer wieder heraus, daß SSE42 für ihre Engine einiges bringt.
Simon_G
[quote="Simon Gros"]
Kurze Frage: gibt es einen Grund weshalb Komodo 5 ohne SSE42 eingesetzt wurde? An der Hardware kann es nicht liegen, da einige andere Engines als SSE42-Version gelistet sind wie z.B. Robbolito 0.10 x64, Rybka 4.1 ... Die Autoren von Komodo streichen immer wieder heraus, daß SSE42 für ihre Engine einiges bringt.
Simon_G
[/quote]
Komodo 5 erkennt beim Start der Engine automatisch, ob es auf einem SSE4.2 kompatiblen Computer läuft, das war bei Komodo 4 noch nicht der Fall. Es sind also gewissermaßen beide Versionen in der Engine enthalten. Bei Critter 1.6a ist es ebenso.
Gruß - Stefan
[quote="Simon Gros"]
Kurze Frage: gibt es einen Grund weshalb Komodo 5 ohne SSE42 eingesetzt wurde? An der Hardware kann es nicht liegen, da einige andere Engines als SSE42-Version gelistet sind wie z.B. Robbolito 0.10 x64, Rybka 4.1 ... Die Autoren von Komodo streichen immer wieder heraus, daß SSE42 für ihre Engine einiges bringt.
Simon_G
[/quote]
Komodo 5 und Critter 1.6a erkennen beim Start selbsständig, ob der Computer SSE4.2 unterstützt und stellen sich darauf ein. Also sind in diesen Engines beide Versionen enthalten. Nur bei expliziten SSE4.2-Versionen gebe ich das in der LS-Rangliste an, damit der Nutzer weiß, daß er eine ganz spezielle Version braucht.
Gruß - Stefan