Neue LS-Rangliste (Erstausgabe)

By Stefan Pohl Date 2012-10-09 15:56

Hallo zusammen,

hier nun die allererste Ausgabe der neuen Lightspeed-Rangliste (LS-Rangliste). Nunmehr mit mehr als doppelter Bedenkzeit (45''+500ms statt 20''+250ms wie bisher). Damit hat eine Engine pro Partie ca. knapp 90 Sekunden Bedenkzeit, wobei bei vollem Brett ca. 2-3 Sekunden gerechnet werden kann und im Endspiel immer mindestens eine halbe Sekunde. Die durchschnittliche Bedenkzeit, gemittelt über alle Partien und Züge, die die LittleBlitzerGUI anzeigt, ist für alle Engines etwa knapp 1 Sekunde pro Zug.
Bisher sind die neuen Versionen von Stockfish, Bouquet, Saros, Robbolito noch nicht enthalten. Ebenso die Gull 2 beta2. Das alles folgt nun, nachdem die Erstausgabe fertiggestellt ist.
Man beachte aber, daß Houdini 1.5a in der Komplettliste (unten) enthalten ist und 21 Elo hinter Houdini 2.0c liegt, was genau der Prognose von R.Houdart für seine Engines entspricht (+20 Elo für 2.0c hatte er - soweit mir bekannt - genannt). Eine echte Punktlandung sozusagen.

Testbedingungen: Notebook mit Intel i7-2630QM Prozessor (4 Kerne, 2GHz Takt, Windows 7 64bit Home Premium). Geschwindigkeit der Hardware: Houdini 2.0c auf einem Core etwa 2.1 Mio Kn/s, auf 4 Cores etwa 7.5 Mio Kn/s (bei vollem Brett), FritzMark=20.2. HyperThreading off.
Bedenkzeit: 45''+500ms Fischerbonus (ca. knapp 90 Sekunden pro Partie je Engine), keine Tablebases, 1 Core/Thread und 64 MB Hash pro Engine, kein Pondern, 500 Vorgabestellungen aus der Frank Q. Datenbank (von mir handverlesen, nur Hauptsysteme (kein Holländisch etc.)). Gespielt wird bis zum Matt oder bis zum Remis, die GUI gibt keine Partie auf und auch Remis erst bei 500 Zügen - also gar nicht). Benutzt wird die LittleBlitzerGUI. Dazu merke ich hier nochmal an: Alle Partien wurden/werden im Gauntlet-Modus gespielt, weil nur so die Vorgabestellungen auch alle sequentiell und mit vertauschten Farben korrekt abgespielt werden. Die Ranglisten werden mit bayeselo (mm 0 1) erstellt und die Ergebnisse an Robbolito 0.085g3 x64 mit 3000 Elo gefixt.

Hier nun zunächst die LS-Rangliste mit den besten Engineversionen (nur offizielle Releases, keine Entwicklungsversionen und auch keine Spezialsettings) (jeder gegen jeden, je 1000 Partien):


Rank Name                    Elo    +    - games score oppo. draws 
   1 Houdini 2.0c x64       3104    5    5 10000   62%  3016   43% 
   2 Critter 1.6a x64       3071    5    5 10000   57%  3019   52% 
   3 Strelka 5.5 x64        3070    5    5 10000   57%  3020   52% (singlecore)
   4 Komodo 5 x64           3058    5    5 10000   55%  3021   44% (singlecore)
   5 Ivanhoe 46h x64        3020    5    5 10000   49%  3024   54% (best open source)
   6 Robbolito 0.10 x64s    3018    5    5 10000   49%  3025   56% 
   7 Rybka 4.1 x64s         3012    5    5 10000   48%  3025   47% 
   8 Robbolito 0.085g3 x64  3000    5    5 10000   46%  3026   53% (singlecore)(Ippolit 2009)
   9 Stockfish 2.2.2 x64s   2994    5    5 10000   45%  3027   45% 
  10 Saros 3.0 x64          2988    5    5 10000   44%  3028   47% 
  11 Bouquet 1.4 x64s       2930    5    5 10000   35%  3034   44%

Dann noch die komplette LS-Rangliste:


Rank Name                    Elo    +    - games score oppo. draws 
   1 Houdini 2.0c x64       3105    5    5 10000   62%  3017   43% 
   2 Houdini 1.5a x64       3084    5    5 10000   59%  3017   44% (best freeware (multicore))
   3 Critter 1.6a x64       3073    5    5 11000   57%  3026   52% 
   4 Strelka 5.5 x64        3073    5    5 11000   57%  3026   52% (singlecore)
   5 Komodo 5 x64           3060    5    5 11000   55%  3028   43% (singlecore)
   6 Ivanhoe 46h x64        3021    5    5 11000   49%  3031   54% (best open source)
   7 Robbolito 0.10 x64s    3019    5    5 11000   48%  3031   55% 
   8 Rybka 4.1 x64s         3013    5    5 11000   47%  3032   46% 
   9 Robbolito 0.085g3 x64  3000    5    5 11000   45%  3033   53% (singlecore)(Ippolit 2009)
  10 Stockfish 2.2.2 x64s   2996    5    5 11000   45%  3033   44% 
  11 Saros 3.0 x64          2988    5    5 11000   43%  3034   47% 
  12 Bouquet 1.4 x64s       2931    5    5 11000   35%  3039   43%

(x64=64bit version, x64s=64bit SSE42-version)

Gelöschte Betas, Entwicklungsversionen, Settings: keine
Abgebrochene Test-Gauntlets (wegen zu schwachen Ergebnisses): keine

Wer die Partien der LS-Rangliste haben will, kann mir seine eMail-Adresse per PM hier oder auf talkchess mitteilen, ich schicke dann in Kürze die Partien als PGN-File. Dieses Angebot erfolgt, damit Transparenz und Glaubwürdigkeit der Rangliste gewährleistet ist.

Grüße an alle - Stefan

By U. Haug Date 2012-10-09 17:16

Hallo Stefan,

dir weiterhin viel Spaß beim Erstellen deiner Liste.
Welche Resultate und welche Partien herauskommen, wenn man einer Engine "knapp eine Sekunde Bedenkzeit pro Zug" gibt, interessiert mich persönlich nicht. Ich hoffe für dich, dass die Mehrheit anders denkt...

Nette Grüße,

Ulrich

By Stefan Pohl Date 2012-10-10 07:40

[quote="U. Haug"]
Hallo Stefan,

dir weiterhin viel Spaß beim Erstellen deiner Liste.
Welche Resultate und welche Partien herauskommen, wenn man einer Engine "knapp eine Sekunde Bedenkzeit pro Zug" gibt, interessiert mich persönlich nicht. Ich hoffe für dich, dass die Mehrheit anders denkt...

Nette Grüße,

Ulrich
[/quote]

Wie schon erwähnt ist knapp 1 Sekunde der angezeigte Mitttelwert der LittleBlitzerGUI, der sich auf alle Züge einer Engine in allen Partien bezieht. Da ich alle Partien bis zum Matt oder Remis per Schachregel zu Ende spielen lasse, sind viele Partien sehr, sehr lang und das zieht die durchschnittliche Zugzeit nach unten, da in langen Endspielen meist im Tempo des Fischerbonus (also 0.5 Sekunden pro Zug) gezogen wird. In der frühen Phase der Partie (Mittelspiel, volles Brett) liegen die Zugzeiten im Schnitt bei 2-3 Sekunden pro Zug.
Man darf Engines nicht zu sehr vom menschlichen Blickwinkel aus betrachten. Was für einen Menschen kaum zu Nachdenken reicht (0.5-3 Sekunden) ist auf einem modernen Computer eine sehr, sehr lange Zeit. Houdini rechnet z.B. in nur einer Sekunde auf meinem Rechner (mit einem der vier Cores!) mehr als 2.1 Millionen Stellungen durch. Es ist noch gar nicht so lange her, da brauchten Rebel und Co. auf meinem PC für nur 700000 Stellungen volle Turnierbedenkzeit (3 Minuten!) und niemand hätte damals der SSDF-Liste (die mit Turnierbedenkzeit erstellt wurde) Irrelevanz wegen zu kurzer Bedenkzeiten vorgeworfen...Der Mensch neigt eben dazu alles mit seinen Maßstäben zu messen. Aber das ist für moderne Computer einfach unsinnig.

Gruß - Stefan

By Kurt Utzinger Date 2012-10-09 20:28

Hallo Stefan

??? "Bouquet 1.4" ???, noch nie gehört und ein Beweis dafür,
dass ich längstens nicht mehr uptodate bin.

Gruss
Kurt

By Stefan Pohl Date 2012-10-10 07:19

[quote="Kurt Utzinger"]
Hallo Stefan

??? "Bouquet 1.4" ???, noch nie gehört und ein Beweis dafür,
dass ich längstens nicht mehr uptodate bin.

Gruss
Kurt
[/quote]

Hallo Kurt,

ich sags ja ungern, aber inzwischen gibt es schon Bouquet 1.5 (soll deutlich stärker sein und wird auch bald von mir getestet)...

Wenn du uptodate sein willst, empfehle ich unbedingt das immortalchess-forum (eigentlich Russisch, aber es gibt eine Englisch-Sektion)(dort tummeln sich die Macher von Ivanhoe, Bouquet und Co., sowie die Compilierer PeterPan und Q) und das chess2u-forum mitzulesen. Da gibts immer das Allerneuste der Ippolits und Stockfishe, inklusive der Engines fertig compiliert zum download...

http://immortalchess.net/forum/forumdisplay.php?f=27
http://www.chess2u.com/

Gruß - Stefan

By Kurt Utzinger Date 2012-10-10 21:42

Hallo Stefan
Danke für die Infos. Persönlich haben mich Ivanhoe, Ippolits und Co.
nie interessiert. Wenn ich es mir recht überlege, hatte ich wohl überhaupt
noch nie eine solche Engine auf meiner Platte.
Mfg
Kurt

By Michael Scheidl Date 2012-10-10 22:47

Zitat:

Wenn ich es mir recht überlege, hatte ich wohl überhaupt
noch nie eine solche Engine auf meiner Platte.

Diese Engines kosten nichts und sind Top-10. Es ist nicht schwer, je nach Geschmack eine Auswahl zu treffen. Mir gefällt Ivanhoe 46h; davon gibt es "übersichtlichere" Versionen mit weniger Engineoptionen, getrennt nach Gameplay- oder Analyseanwendung. Die sog. Triplebases, das sind die Ivanhoe-Endspielbitbases, sind ein herausragender Leistungsfaktor. Des weiteren dürfte die neue Robbolitoversion 0.21Q von Bedeutung sein (oder werden).

Wir "alten Recken" müssen halbwegs am Ball bleiben, sonst kennen wir uns bald überhaupt nicht mehr aus

By Kurt Utzinger Date 2012-10-11 09:51

[quote="Michael Scheidl"]

Wir "alten Recken" müssen halbwegs am Ball bleiben, sonst kennen wir uns bald überhaupt nicht mehr aus

[/quote]

Da spricht mir einer aus dem Herzen

Kurt

By Frank Brenner Date 2012-10-09 21:48

Hallo Stefan,

vielen Dank für die umfangreiche und ausserordentlich aussagekräftige Liste.

Mich interessieren die Ergebnisse sehr, vor allem verwendest du sehr viele unterschiedliche Startstellungen was mir an deiner Liste sehr gut gefällt.

Könntest du vielleicht die alte ls Liste mit den noch schnelleren Spielzeiten zum Vergleich dazu posten?

Gruß Frank

By Stefan Pohl Date 2012-10-10 06:56

[quote="Frank Brenner"]
Hallo Stefan,

vielen Dank für die umfangreiche und ausserordentlich aussagekräftige Liste.

Mich interessieren die Ergebnisse sehr, vor allem verwendest du sehr viele unterschiedliche Startstellungen was mir an deiner Liste sehr gut gefällt.

Könntest du vielleicht die alte ls Liste mit den noch schnelleren Spielzeiten zum Vergleich dazu posten?

Gruß Frank
[/quote]

Hallo Frank,

eine kurze Suche im CSS-Forum-Archiv und man kann alle alten Ausgaben nachlesen (Vorteil, wenn man Listen postet und keine Homepage unterhält...). Aber ich poste hier mal die für den Vergleich wohl relevanteste Version:

Bedenkzeit für die folgenden Listen 20''+250ms. Also ca. 40 Sekunden pro Engine/Partie im Schnitt. Die erste Liste (beste Versionen) ist bis auf die Bedenkzeit absolut identisch zur neuen LS-best-Liste...

Hier nun zunächst die LS-Rangliste mit den besten Engineversionen (nur offizielle Releases, keine Entwicklungsversionen und auch keine Spezialsettings) (jeder gegen jeden, je 1000 Partien):


Rank Name                    Elo    +    - games score oppo. draws 
   1 Houdini 2.0c x64       3118    5    5 10000   64%  3016   40% 
   2 Strelka 5.5 x64        3077    5    5 10000   58%  3020   48% (singlecore)
   3 Critter 1.6a x64       3067    5    5 10000   57%  3021   49% 
   4 Komodo 5 x64           3050    5    5 10000   54%  3023   41% (singlecore)
   5 Ivanhoe 46h x64        3027    5    5 10000   50%  3025   52% (best open source)
   6 Robbolito 0.10 x64s    3024    5    5 10000   50%  3025   53% 
   7 Rybka 4.1 x64s         3011    5    5 10000   48%  3027   43% 
   8 Robbolito 0.085g3 x64  3000    5    5 10000   46%  3028   49% (singlecore)(Ippolit 2009)
   9 Saros 3.0 x64          2995    5    5 10000   45%  3028   44% 
  10 Stockfish 2.2.2 x64s   2973    5    5 10000   42%  3030   40% 
  11 Bouquet 1.4 x64s       2935    5    5 10000   36%  3034   41%

Dann noch die komplette LS-Rangliste:


Rank Name                     Elo    +    - games score oppo. draws 
   1 Houdini 2.0c x64        3119    5    5 14000   64%  3014   38% 
   2 Houdini 1.5a x64        3085    5    5 10000   58%  3030   42% (best freeware (multicore))
   3 Strelka 5.5 x64         3078    5    5 14000   59%  3017   46% (singlecore)
   4 Critter 1.6a x64        3068    5    5 14000   57%  3017   48% 
   5 Komodo 5 x64            3049    5    5 11000   54%  3020   41% (singlecore)
   6 Ivanhoe 46h x64         3028    5    5 14000   51%  3020   50% (best open source)
   7 Robbolito 0.10 x64s     3022    5    5 14000   50%  3020   51% 
   8 Rybka 4.1 x64s          3012    5    5 14000   49%  3021   42% 
   9 Komodo 4 x64s           3000    5    5 11000   46%  3031   38% (singlecore)
  10 Robbolito 0.085g3 x64   3000    5    5 14000   47%  3022   48% (singlecore)(Ippolit 2009)
  11 Saros 3.0 x64           2996    5    5 13000   46%  3027   43% 
  12 Stockfish 120727Q x64s  2983    6    6  9000   42%  3041   40% 
  13 Stockfish 2.2.2 x64s    2973    5    5 13000   43%  3027   39% 
  14 Saros 3.2 x64           2959    5    6  9000   39%  3033   43% 
  15 Bouquet 1.4 x64s        2936    6    5 10000   36%  3035   41%

(x64=64bit version, x64s=64bit SSE42-version)

Gelöschte Betas, Entwicklungsversionen, Settings: (Stockfish 120622: Elo 2979),

Ich hoffe das war hilfreich. Gruß - Stefan

By Stefan Pohl Date 2012-10-10 07:12

Hallo nochmal,

nachdem ich nun auch mal die alte (20''+250ms) und die neue LS-best-Liste (45''+500ms) verglichen habe (danke Frank für die Anregung!) fällt folgendes auf:

1) Der Abstand von der besten zur schlechtesten Engine wird insgesamt etwas geringer. Das war zu erwarten, denn je mehr Bedenkzeit, desto mehr rücken alle Einzelergebnisse tendenziell an die 50%-Marke heran. (Was ja auch der Grund dafür ist, daß Junior mit mehr Zeit gegen die besten Gegner nichtmehr ganz so grausam eingeht. Das nährt dann die Illusion, er würde mit mehr Bedenkzeit besser spielen. Gleiches gilt für Hiarcs).
2) Die einzige Engine die mit mehr Zeit wirklich stark zulegt, ist Stockfish 2.2.2 (+21 Elo!), aber eben nicht Komodo 5 (nur +8), letzteres versuchen die Komodo-Entwickler ja immer zu propagieren, aber da ist wohl mehr der Wunsch der Vater des Gedanken...
3) Die einzige Engine, die wirklich mit mehr Zeit meßbar abbaut ist Houdini 2.0c (-14 Elo).
4) Alle anderen Ergebnisse schwanken zwischen beiden Listen nur sehr gering und kaum außerhalb der Errorbar.
5) Die Remisquoten steigen mit der längeren Bedenkzeit bei allen Engines um ca. 3% an. Auch das war mit steigender Bedenkzeit zu erwarten, da das schachliche Niveau eben auch steigt.
6) Die Reihenfolge der Engines in beiden Listen bleibt gleich bis auf Stockfish, der in der neuen LS-best-Liste einen Platz gutmachen kann, da er mit mehr Zeit eben so stark zulegt.

Gruß - Stefan

By Stefan Pohl Date 2012-10-10 07:44

[quote="Stefan Pohl"]

6) Die Reihenfolge der Engines in beiden Listen bleibt gleich bis auf Stockfish, der in der neuen LS-best-Liste einen Platz gutmachen kann, da er mit mehr Zeit eben so stark zulegt.
[/quote]

Ups, da habe ich glatt übersehen, daß auch Critter und Strelka die Plätze getauscht haben (wohl noch nicht so ganz wach gewesen). Da sie in beiden Listen aber sehr eng beieinander liegen und sich auch ihr Ergebnis nicht stark verändert hat, ist das eine normale statistische Schwankung.

Gruß - Stefan

By Thomas Schoenegger Date 2012-10-10 08:03

Hallo Stefan, eine Frage. Du spielst doch Gaunlet? Ich sehe in der kompletten LS-Liste 12 Engines und es müssten doch für alle 11.000 gespielte Partien haben. Sowohl Houdini 1.5a als auch die 2.0c haben 10.000. Ich glaube damit wäre auch die Punktlandung der 21 Elo erklärt, glaube zumindest ich. An der Rangliste wird sich aber nichts ändern.
Grüße Thomas

By Stefan Pohl Date 2012-10-10 09:56

[quote="Thomas Schoenegger"]
Hallo Stefan, eine Frage. Du spielst doch Gaunlet? Ich sehe in der kompletten LS-Liste 12 Engines und es müssten doch für alle 11.000 gespielte Partien haben. Sowohl Houdini 1.5a als auch die 2.0c haben 10.000. Ich glaube damit wäre auch die Punktlandung der 21 Elo erklärt, glaube zumindest ich. An der Rangliste wird sich aber nichts ändern.
Grüße Thomas
[/quote]

Anscheinend habe ich mich bisher da nicht klar genug ausgedrückt, daher hier nochmal meine "Spielregeln":
Eine neue Engine/Engineversion spielt immer ein Gauntlet gegen die Engines in der LS-best-Liste. Einzige Ausnahme: Wenn eine Vorgängerversion in der LS-best-Liste schon verzeichnet ist, so spielt die neue Engineversion gegen diese nicht. In der LS-komplett-Liste werden hingegen einfach alle bisher gespielten Partien gesammelt und komplett ausgewertet.
Die Vorgehensweise war daher bis zu diesem Posting folgende: Zunächst wurde ein RoundRobin (aufgesplittet in einzelne Gauntlets, weil die LittleBlitzerGUI im RR-Modus Vorgabestellungen zufällig auswählt, was wir natürlich nicht haben wollen!) mit Houdini 1.5a und den anderen 10 Engines gespielt (somit hatte jede dieser 11 Engines 10000 Partien absolviert). Damit war die erste Ausgabe der LS-best-Liste fertig. Dann hat Houdini 2.0c Houdini 1.5a in der LS-best-Liste ersetzt, indem Houdini 2.0c ein Gauntlet gegen alle 10 Gegner der LS-best-Liste gespielt hat (aber eben nicht gegen Houdini 1.5a). Daher haben sowohl Houdini 2.0c und auch Houdini 1.5a je 10000 Partien absolviert, die anderen 10 Engines aber je 1000 mehr, da diese gegen beide Houdinis je 1000 Partien absolviert haben. Daher haben in der LS-komplett-Liste beide Houdinis je 10000 Partien und die anderen Engines 11000 Partien absolviert.

Ich hoffe, damit ist alles klar. Gruß -Stefan

By Frank Brenner Date 2012-10-10 19:31

Danke für die Auflistung der alten Listen.

>

2) Die einzige Engine die mit mehr Zeit wirklich stark zulegt, ist Stockfish 2.2.2 (+21 Elo!), aber eben nicht Komodo 5 (nur +8), letzteres versuchen die Komodo-Entwickler ja immer zu propagieren, aber da ist wohl mehr der Wunsch der Vater des Gedanken...
3) Die einzige Engine, die wirklich mit mehr Zeit meßbar abbaut ist Houdini 2.0c (-14 Elo).

Guck mal auf Houdini 1.5a. Die alte version baut bei der längeren Bedenkzeit nur um -1 ab (anstelle -14) , aber ich bin mir sicher dass Houdard diesbezüglich keine solch große "Verschlechterung" in Houdini 2 realisiert hat, deswegen denke ich dass solche Schlussfolgerungen 2) und 3) aus dem Material nicht ableitbar sind.
Ich denke dass es noch andere Faktoren gibt welche eine kleine Streung der Werte verursachen. Möglicherweise der in der Engine eingebaute Zeiteinteilungsalgorithmus.

By Kurt Utzinger Date 2012-10-10 13:13

hallo stefa
danke duer diese interessanten kommentare.
gruss
kurt