TEB-Rangliste: Critter 1.6

By Stefan Pohl Date 2012-06-19 14:03

Hallo zusammen,

TEB-Rangliste nun mit Critter 1.6. Praktisch identisches Ergebnis (+2 Elo). Da hatten wir wohl alle mehr erhofft...

Hier nun die neue TEB-Rangliste (TopEngineBullet), erstellt mit bayeselo, gefixt mit 3000 Elo an Robbolito 0.085g3. Obwohl Rangliste eigentlich übertrieben ist, de facto ist es eher so eine Art ChampionsLeague...


Rank Name                    Elo    +    - games score oppo. draws 
   1 Houdini 2.0c x64       3096   10   10  3000   61%  3025   45% 
   2 Strelka 5.5 x64        3074    9    9  3300   57%  3032   54% (singlecore)
   3 Houdini 1.5a x64       3074   10   10  3000   58%  3025   46% (best freeware (multicore))
   4 Critter 1.6 x64        3058    9    9  3000   55%  3031   54% 
   5 Critter 1.4a x64s      3056    9    9  3000   54%  3031   53% 
   6 Ivanhoe 46h x64        3023    9    9  3300   48%  3036   56% (best open source)
   7 Komodo 4 x64s          3020    9    9  3300   47%  3036   43% (singlecore)
   8 Robbolito 0.10 x64s    3015    9    9  3300   46%  3037   55% 
   9 Rybka 4.1 x64s         3010    9    9  3300   46%  3037   47% 
  10 Stockfish 2.2.2 x64s   3001    9    9  3300   44%  3038   46% 
  11 Robbolito 0.085g3 x64  3000    9    9  3300   44%  3038   54% (singlecore)(Ippolit 2009)
  12 Deep Saros 3.0 x64     2993    9    9  3300   43%  3039   48%

Die Engines in der Rangliste haben nach ihrem Namen entweder x64 stehen (=normale 64bit Version) oder ein x64s (=64bit SSE42 Version). Letzteres wird natürlich immer benutzt, wenn eine solche spezielle Version zur Verfügung steht.

Testbedingungen: Notebook mit Intel i7-2630QM Prozessor (4 Kerne, 2GHz Takt, Windows 7 64bit Home Premium). Geschwindigkeit der Hardware: Houdini 2.0c auf einem Core etwa 2.1 Mio Kn/s, auf 4 Cores etwa 7.5 Mio Kn/s (bei vollem Brett), FritzMark=20.2.
Bedenkzeit: 60''+750ms Fischerbonus (ca. 2 Minuten pro Partie je Engine), keine Tablebases, 1 Core/Thread und 256 MB Hash pro Engine, kein Pondern, 150 Vorgabestellungen aus der Frank Q. Datenbank (von mir handverlesen, nur Hauptsysteme (kein Aljechin, Holländisch etc.)). Gespielt wird bis zum Matt oder bis zum Remis, die GUI gibt keine Partie auf und auch Remis erst bei 500 Zügen - also gar nicht). Benutzt wird die LittleBlitzerGUI. Dazu merke ich hier nochmal an: Alle Partien wurden/werden im Gauntlet-Modus gespielt, weil nur so die Vorgabestellungen auch alle sequentiell und mit vertauschten Farben korrekt abgespielt werden.

Wer die Partien der TEB-Rangliste haben will, kann mir seine eMail-Adresse per PM hier oder auf talkchess mitteilen, ich schicke dann in Kürze die Partien als PGN-File. Dieses Angebot erfolgt, damit Transparenz und Glaubwürdigkeit der Rangliste gewährleistet ist.

Grüße an alle - Stefan

By Clemens Keck Date 2012-06-19 18:55

Stefan

Championsleague?!
DAs ist fast ne reine Robbo-Ippo-undCo-Bullet Liste. Für mich keinesfalls eine Chamionsleague.

Gruß, Clemens

By Stefan Pohl Date 2012-06-19 19:33

[quote="Clemens Keck"]
Stefan

Championsleague?!
DAs ist fast ne reine Robbo-Ippo-undCo-Bullet Liste. Für mich keinesfalls eine Chamionsleague.

Gruß, Clemens
[/quote]

Tja, so sieht die Spitze des Computerschachs zur Zeit nun mal aus. Ähnlich wie bei der Fußball-Championsleague, wo überbezahlte Fußball-Legionäre von Verein zu Verein wechseln und dennoch jeder Fan "seinen" Verein unterstützt, obwohl dieser nur noch ein Fußball-Legionär-Sammelbecken ist, kann man den Status Quo in beiden Fällen sicher als semi-optimal bezeichnen. Die Problematik der Ippodichte ist mir durchaus bewußt und ich würde es auch begrüßen, wenn es mehr starke Engines gäbe, die nicht von Ippolit abstammen, aber die gibt es nun mal zur Zeit nicht. Zudem öffnet man durch den Boykott einzelner Engines der Willkür Tür und Tor, denn wo fängt ausreichende Eigenleistung an und wo hört Cloning auf? Die Grenze ist einfach zu unscharf. Für mich sind nur 100% Clone tabu, wo nur mit dem HEX-Editor rumgepfuscht wurde (wie Deep Matrix 3000), alles andere lasse ich zu (sofern es freeware ist - kommerzielle Engines sollten schon die beste OpenSource-Engine übertreffen (z.Zt. Ivanhoe 46h), aber das entscheiden ich und mein Geldbeutel im Einzelfall spontan - Vitruvius kommt mir aber bis auf weiteres nicht ins Haus...).
Ob das die optimale Lösung ist, ist sicher Ansichtssache - falls es überhaupt eine optimale Lösung gibt. Aber dank der modernen Hardware kann ja jeder heutzutage eine eigene Rangliste aufbauen und dort tun und lassen, was er für richtig hält - und wer die Ergebnisse interessant findet, schaut halt hin - oder auch nicht.
Ich für meinen Teil habe jedenfalls aus der Ippo-Not eine Tugend gemacht und mit Robbolito 0.085g3 den (fast) Original-2009-Ippolit in einer stabil laufenden Version in die TEB-Liste integriert. Damit kann man anhand der TEB-Liste sehen, ob und wie weit sich Ippo-Derivate von diesem Ausgangspunkt (nach oben oder unten) entwickelt haben. Ich denke, daß das in der heutigen Zeit durchaus von Interesse ist und in keiner anderen Rangliste angeboten wird.

Gruß - Stefan

By Michael Scheidl Date 2012-06-19 20:00 Edited 2012-06-19 20:04

Das sind zu wenige, und mehrheitlich zu eng verwandte Engines. Es fehlt der Input von "außen", von möglicherweise 100...300 Elo schwächeren Engines die sich aber deutlicher unterscheiden, und so Unterschiede bewirken, die innerhalb des inzestiösen Familienclans nicht darstellbar sind. Wobei ich aber die Einbeziehung von Robbolito 0.085g3 begrüße

denn daran kann man schön den Fortschritt von Houdini ablesen.

Fürs Computerschach wünschenswert ist natürlich eine Vielfalt auf hohem Niveau, also mehr Engines mit "originären" Wurzeln in den Top-10. Aber dafür müssen die Programmierer selber sorgen, nicht die Ranglistenersteller.

By Stefan Pohl Date 2012-06-20 08:33

[quote="Michael Scheidl"]
von möglicherweise 100...300 Elo schwächeren Engines
[/quote]

Hi Michael,

leider klafft unter Stockfish eine Riesenelolücke und ich halte nichts davon zu starke gegen zu schwache Engines spielen zu lassen, weil das verzerrte Ergebnisse produzieren kann. Nehmen wir mal folgenden Fall an: Houdini gegen irgendeine Schrottengine (z.B. Crafty). Houdini kommt mit -0.3 oder so aus der Vorgabestellung oder steht einfach mal irgendwo im Mittelspiel kurz so schlecht. Dann wird er mit Freude in ein mögliches Remis durch Stellungswiederholung oder Dauerschach einschwenken, weil er eben nicht weiß, daß er gegen einen sehr schwachen Gegner spielt und so dennoch mit größter Wahrscheinlichkeit 30 Züge später auf Gewinn steht. Die Engines sind halt alle Autisten. Darüberhinaus sind solche Vergleiche einfach praxisfremd und außerdem wär mir dann auch der Testaufwand einfach zu groß...Mit nur einem Rechner ist sowas wie die IPON einfach nicht zu stemmen.
Zudem habe ich z.B. jetzt beim Critter 1.6 Test ein Resultat, das sich extrem gut mit dem Ergebnis der IPON-Liste deckt (dort +3 Elo zur 1.4a Version, bei mir +2). Ganz schlecht kann meine Liste also nicht sein und ich habe das Ergebnis mit nur einem Bruchteil des Rechenaufwands erhalten, den Ingo aufwenden muß (nur 1 PC, 50 Stunden Rechenarbeit (bei nur 60 Watt Strombedarf des Laptops bei Vollast...)) Ergo: TEB-Liste schont die Umwelt...

Gruß - Stefan

By Benno Hartwig Date 2012-06-20 13:55

[quote="Stefan Pohl"]Schrottengine (z.B. Crafty)[/quote]

By Kurt Utzinger Date 2012-06-20 15:17

[quote="Benno Hartwig"]
[quote="Stefan Pohl"]Schrottengine (z.B. Crafty)[/quote]

Magst du mal versuchen, aus eigener Kraft eine bessere Engine zu schaffen?
"Lauf du fauler Sack!" ruft halt auch mancher bierbäuchige Fußballfan mit der Pulle in der Hand von seinem Wohnzimmersessel aus, wenn Gomez ihm nicht beweglich genug erscheint.

Benno
[/quote]

Hallo Benno
Wahrscheinlich hat sich Stefan bei der Wortwahl "Crafty = Schrottengine"
unwillentlich - nur die Elo Differenzen im Auge - vergriffen. Eigentlich bin
ich sicher, dass Stefan das nicht ganz so wörtlich gemeint hat. Sind wir
deshalb doch ein wenig nachsichtig.
Mfg
Kurt

By Stefan Pohl Date 2012-06-20 16:36

[quote="Benno Hartwig"]
[quote="Stefan Pohl"]Schrottengine (z.B. Crafty)[/quote]

Magst du mal versuchen, aus eigener Kraft eine bessere Engine zu schaffen?
"Lauf du fauler Sack!" ruft halt auch mancher bierbäuchige Fußballfan mit der Pulle in der Hand von seinem Wohnzimmersessel aus, wenn Gomez ihm nicht beweglich genug erscheint.

Benno
[/quote]

Hi Benno,

stimmt durchaus der Vergleich...Wenn ich eine Engine programmieren würde wäre sie auch entweder Schrott oder ein Ippo-Derivat, wovon es ja schon genug gibt. Crafty war halt schon so lange ich zurückdenken kann immer so etwa 200 Elo hinter der Spitze, daher meine (sicher etwas übertriebene) Wortwahl.

Gruß - Stefan

By Benno Hartwig Date 2012-06-20 11:05

[quote="Clemens Keck"]DAs ist fast ne reine Robbo-Ippo-undCo-Bullet Liste. Für mich keinesfalls eine Chamionsleague.[/quote]Was ist den für dich 'Robbo-Ippo-undCo'?
Robbolito, Ivanhoe, Ippolit, ggf. auch Fire mag man so sehen wollen. Houdini (und damit Strelka) mag auch seinen Kern hier haben.
Rybka, Stockfish, Komodo, Critter auch?
Da wäre ich dann auf eine Begründung gespannt.
Dass die Engines Fritz und Shredder heute nicht mehr soo großes Interesse finden, hat wohl seinen Grund nur in der Spielstärkedifferenz zur Konkurrenz.

Ich gestehe ja zu: mich interessiert schon, welcher Ippolit-Abkömmling besonders stark ist.
Dies interessiert mich aber eigentlich nicht mehr als "welcher Stockfish ist eigentlich der Stärkste"
Von daher braucht aus meiner Sicht diese Vielfalt der Ippo-Abkömmlinge nicht eine Championsleague bevölkern.

Benno

By Stefan Pohl Date 2012-06-20 16:44

[quote="Benno Hartwig"]

Von daher braucht aus meiner Sicht diese Vielfalt der Ippo-Abkömmlinge nicht eine Championsleague bevölkern.

Benno
[/quote]

Aus meiner Sicht auch nicht, aber in der Spitzengruppe ist die Lage z.Zt. nun mal so. Das muß ich als Tester entweder akzeptieren (so wie ich) oder nach eigenem Gutdünken einzelne Engines ausschließen (so wie Ingo). Welches nun der bessere Weg ist, soll doch einfach jeder Interessierte selbst entscheiden. Vielleicht sind auch beide Wege gangbar und durchaus informativ. Ich finde meinen Ansatz besser, Ingo seinen und andere Tester ihren.
Wer meine TEB-Liste nicht mag, kann sie doch einfach links liegen lassen. Hab ich überhaupt kein Problem damit.

Gruß - Stefan

By Chess Player Date 2012-06-20 14:52

Die die Du meinst haben sich doch nicht qualifizieren können, und das ist die Mindestanforderung an die Engines!

By Kurt Utzinger Date 2012-06-19 20:29

Hallo Stefan

Jeder soll/darf/kann machen, was er will.
Persönlich kommt mir bei dieser Inzest-Liste
keine Freude auf.

Mfg
Kurt

By Stefan Pohl Date 2012-06-20 08:35

[quote="Kurt Utzinger"]
Hallo Stefan

Jeder soll/darf/kann machen, was er will.
Persönlich kommt mir bei dieser Inzest-Liste
keine Freude auf.

Mfg
Kurt
[/quote]

Da du ja sowieso auf ganz lange Bedenkzeiten stehst, hatte ich auch keine Begeisterung von dir erwartet, Kurt.

Beste Grüße - Stefan

By Kurt Utzinger Date 2012-06-20 10:26

[quote="Stefan Pohl"]
[quote="Kurt Utzinger"]
Hallo Stefan
Jeder soll/darf/kann machen, was er will.
Persönlich kommt mir bei dieser Inzest-Liste
keine Freude auf.
Mfg
Kurt
[/quote]

Da du ja sowieso auf ganz lange Bedenkzeiten stehst, hatte ich auch keine Begeisterung von dir erwartet, Kurt.

Beste Grüße - Stefan
[/quote]

Hallo Stefan
Natürlich stehe ich auf lange Bedenkzeiten. Doch bei diesem Beitrag
ging es mir wirklich nur darum, dass ich einer Rangliste mit fast nur
"Inzest-Programmen" keinen grossen Wert beimesse. Wohl ist es
gut zu wissen, welches dieser gleichartigen Programme an der
Spitze steht, aber das Ausklammern der übrigen Programme
vermisse ich.
Mfg
Kurt

By Chess Player Date 2012-06-20 10:52

Könnte es vielleicht daran liegen, dass die anderen viel viel zu weit zurück liegen um genaue Ergebnisse zu erzielen?

By Klaus Rosenheim Date 2012-06-20 14:59

Welch Version von Strelka 5.5 ist das denn? die 5.1 ist ca.30 Elo besser.
Gruß
Klaus

By Stefan Pohl Date 2012-06-20 19:30

[quote="Klaus Rosenheim"]
Welch Version von Strelka 5.5 ist das denn? die 5.1 ist ca.30 Elo besser.
Gruß
Klaus
[/quote]

Na die erste 64bit-Version. Ja, ich weiß, daß die codierte Stellungen enthält, das spielt aber bei mir keine Rolle, das ist nur für Stellungstest-Suites problematisch, nicht für Ranglisten.
Daß die 5.1er 30 Elo besser sein soll, als die 5.5er ist mir neu. Die 5.0er jedenfalls ist schwächer als 5.5. Aber ich mache mal einen Test in meiner LightSpeed-Liste über Nacht. Sollte sie wirklich besser sein, kommt sie in die TEB-Liste.

Gruß - Stefan

By Stefan Pohl Date 2012-06-20 19:41

[quote="Stefan Pohl"]
[quote="Klaus Rosenheim"]
Welch Version von Strelka 5.5 ist das denn? die 5.1 ist ca.30 Elo besser.
Gruß
Klaus
[/quote]

Na die erste 64bit-Version. Ja, ich weiß, daß die codierte Stellungen enthält, das spielt aber bei mir keine Rolle, das ist nur für Stellungstest-Suites problematisch, nicht für Ranglisten.
Daß die 5.1er 30 Elo besser sein soll, als die 5.5er ist mir neu. Die 5.0er jedenfalls ist schwächer als 5.5. Aber ich mache mal einen Test in meiner LightSpeed-Liste über Nacht. Sollte sie wirklich besser sein, kommt sie in die TEB-Liste.

Gruß - Stefan
[/quote]

Hat nicht sollen sein. Habe die 5.1er von der Autoren-Homepage runtergeladen. Die produziert bei mir einen timeloss nach dem anderen (die 5.5 läuft vollkommen problemlos). Daher Test unmöglich, sorry.

Stefan

By Ernest Bonnem Date 2012-06-21 02:05

[quote="Stefan Pohl"]Habe die 5.1er von der Autoren-Homepage runtergeladen. Die produziert bei mir einen timeloss nach dem anderen [/quote]
Sehr komisch!
Die 5.1er hat Probleme mit Pondern, aber Deine Tests sind ohne Ponder, da verstehe ich nicht...
60''+750ms Fischerbonus mit LittleBlitzerGUI, warum geht das schief?...

Bei mir geht 2'+1" (ohne Ponder) auf Fritz 11 GUI sehr gut.

By Stefan Pohl Date 2012-06-21 06:42

[quote="Ernest Bonnem"]
[quote="Stefan Pohl"]Habe die 5.1er von der Autoren-Homepage runtergeladen. Die produziert bei mir einen timeloss nach dem anderen [/quote]
Sehr komisch!
Die 5.1er hat Probleme mit Pondern, aber Deine Tests sind ohne Ponder, da verstehe ich nicht...
60''+750ms Fischerbonus mit LittleBlitzerGUI, warum geht das schief?...

Bei mir geht 2'+1" (ohne Ponder) auf Fritz 11 GUI sehr gut.
[/quote]

Wie ich schrieb, wollte ich zunächst für meine LightSpeed-Liste testen (bei Listen laufen parallel, daher muß ich immer für beide testen). Da wird mit 20''+250ms gespielt. Das ging schief.
Aber die 5.1er ist bestimmt nicht besser als die 5.5, schon gar nicht 30 Elo, denn dann wäre sie besser als Houdini 2.0c... Man darf nicht vergessen, daß Strelka ein nur wenig abgewandelter Houdini 1.5a ist (daher auch sein Ranking auf Augenhöhe mit der 1.5a in meiner Liste).

Gruß - Stefan