R4 Exp. 61: Ratings vs. TOP-6 ... Experiment!

By Frank Quisinsky Date 2010-12-30 17:34 Edited 2010-12-30 17:41

Hallo zusammen,

so, angeregt durch die vielen Diskussionen um die Rybka 4 Exp. 61 Settings hier das logische Experiment:

Zunächst:

Rybka 4 Exp. 61 spielt wie bei dem Kurztest von Ingo nur gegen die TOP-6.
Ingo stellte fest -20 ELO, wobei wenn ich das kalkuliere sind es ca. -12.
Interessant ist, dass bei Ingo R4 ca. 10 ELO höher bewertet wird als bei mir.

Das Ergebnis sollte gleich sein und wie schaut das Ergebnis tatsächlich aus?
Erste Auswertung:

Code:

Rank Name                          Elo    +    - games score oppo. draws 
   1 Houdini 1.5 x64              3003   22   21  1035   82%  2748   26% 
   2 Rybka 4 x64 Exp. 42          2959   23   22   900   78%  2730   26% 
   3 Houdini 1.03a x64            2948   22   21   920   79%  2718   29% 
   4 Rybka 4 x64 Exp. 61          2941   38   38   210   58%  2891   42% 
   5 Rybka 4 x64                  2939   17   17  1520   80%  2700   29% 
   6 IvanHoe B49jA x64            2931   19   18  1155   76%  2737   33%

Rybka 4 Exp. 61 spielt also 2 ELO besser als Rybka 4 Deftault.
Wobei es durchaus sein kann das es am Ende weniger sind wenn mehr Partien vorliegen.

Interesssanter als das nun die folgende zweite Auswertung ...
Rybka 4 x64 Exp. 61 müsste ja dann bei der Auswertung der Partien gegen Platz 7-26 Houdini 1.5 richtig gefährlich werden ...

Code:

Rank Name                          Elo    +    - games score oppo. draws 
   1 Houdini 1.5 x64              3004   22   22  1000   83%  2741   25% 
   2 Rybka 4 x64 Exp. 61          2974   28   27   654   85%  2696   22% 
   3 Rybka 4 x64 Exp. 42          2959   23   22   900   78%  2729   26% 
   4 Houdini 1.03a x64            2948   22   21   920   79%  2718   29% 
   5 Rybka 4 x64                  2939   17   17  1520   80%  2700   29% 
   6 IvanHoe B49jA x64            2931   19   19  1120   77%  2730   33%

Aha, gegen die Schwächeren mehr Punkte und ca. 30 ELO hinter Houdini!
Und durchschnittlich sind es bei den Rybka 4 Exp. 42 / 61 Settings 20 ELO + zu Rybka 4 Default.
Also, alle Partien der R4 Exp. 61 Gegner über Shredder 12, also die TOP-7 wurden einfach herausgenommen!

Und abschließend noch eine dritte Berechnung:
Ich lösche die Taktiker Stockfish 1.9.1 x64 / Spark 1.0 x64 / Hannibal 1.0a x64 bei den Rybka 4 x64 Exp. 61 Partien einfach weg ...

Code:

Rank Name                          Elo    +    - games score oppo. draws 
   1 Houdini 1.5 x64              3005   22   21  1035   82%  2749   26% 
   2 Rybka 4 x64 Exp. 61          2975   25   24   761   80%  2739   26% 
   3 Rybka 4 x64 Exp. 42          2959   23   22   900   78%  2729   26% 
   4 Houdini 1.03a x64            2948   22   21   920   79%  2718   29% 
   5 Rybka 4 x64                  2939   17   17  1520   80%  2700   29% 
   6 IvanHoe B49jA x64            2932   19   18  1155   76%  2737   33%

Stellen wir die daraus resultierenden logische Thesen auf um das Thema zu einem Abschluss zu bekommen:

These 1:
Die Rybka 4 Exp. 42 / 61 Settings spielen aggressiver. Das hatte ich schon vor ca. 2 Monaten hier beschrieben. Diese Spielweise führt gerade gegen Taktiker zu schwächeren Ergebnissen.

These 2:
Die Rybka 4 Exp. 42 / 61 Settings spielen gegen schwächere Engines bessser. Aufgrund der hohen Grundspieltstärke ist das eigentlich auch klar. Die schwächeren haben durch aggressives Spiel noch mehr an Rybka 4 zu knabbern und verlieren noch mehr Punkte im direkten Vergleich.

These 3:
Es ist immer wichtig gegen viele Engines zu testen. Eine willkürliche Auswahl aus den TOP-26 wird das Ergebnis beeinflussen. Z. B. wie hier im Beispiel ... ich nehme die Taktiker einfach raus.

Und letztendlich die letzte der aber schon seit Urzeiten bekannten Thesen ist ...

These 4:
Ein Turnier von 3-4 Engines oder ein Engine Match sagt immer nur etwas über die Spielstärke bei diesen Vergleichen untereinander aus. Zu sagen, ich lasse die TOP-4 gegeneinander spielen und Engine 1-4 haben x ELO ist schlicht und ergreifend nicht richtig. Eine pauschale Aussage nach einem Test gegen 2-3 Engines als Gegner zu einer ELO kann nicht gezogen werden, maximal die Aussage wie groß der Abstand dieser Engines untereinander ist.

Und nochmal zu Test von Ingo ...
Ein Test gegen eine Auswahl von ein paar "Auserwählten nach gut dünken" bringt nichts.
Wenn z. b. ein Kurztest von 600 Partien, dann eher 20 Partien pro Match gegen die kompletten Engines Deiner Liste. Erst dann wird eine solche Aussage interessant.

Und zu Clemens:
Clemens, dass alles hat nichts mit Spielbedingungen zu tun wie Bedenkzeit, Ponder an oder aus.
Diese Aussage von Dir konnte ich so nicht stehen lassen!

Gruß
Frank

By Stefan Pohl Date 2010-12-31 06:17

Hallo,

sehr interessant! Das bestätigt nun eindrücklich das, was bei den Rybka-Settings (auch von mir) vermutet wurde. Auch das ja nun vorliegende Endergebnis für das 61er Setting ist ja eine Punktlandung beim 42er Setting, was ja ebenfalls zu erwarten war, da die Settings ja extrem ähnlich sind. Also eine gute Testmethodik...
Leider weigert sich Ingo einzusehen, daß 600 Partien eben nicht genug sind, wenn man die falschen Gegner (nämlich nur starke) auswählt. Wenn die zu testende Engine überproportional gegen schwache Gegner punktet, kann man gegen eine Auswahl starker Gegner auch eine Million Partien machen und wird nie merken, daß die Engine gegen schwache Gegner stark spielt und in einem Gesamttest daher besser liegen würde. Wenn man die Gegnerbandbreite falsch, weil zu gering, wählt, kann man die Errorbar Richtung absoluter Nullpunkt schrumpfen und wird dennoch kein brauchbares Ergebnis bekommen.
Mir schleierhaft, was daran so schwer zu begreifen ist, aber wir werden wohl damit leben und auf ein Rybka-Setting in der IPON verzichten müssen.

Gruß - Stefan

By Frank Quisinsky Date 2010-12-31 07:16

Hallo Stefan,

ja, vielleicht testet Ingo ja noch.
Ich bin ja immer dankbar wenn ich selbst mehr mit anderen Listen vergleichen kann.

Und ja ...
Der Test vom Setting 42 bestätigt sich.
Rybka 4 x64 Exp. 42 / 61 sind beide ca. 20 ELO spielstärker als die Grundeinstellung.
Nicht alle Ergebnisse gegen die TOP-6 waren schwächer, auffällig eigentlich nur das Ergebnis gegen Stockfish 1.9.1 64 JA. Wahrscheinlich spielen die Settings auch schwächer gegen sich selbst, sprich gegen Rybka 4 default. Wer aufgrund dessen die Settings nicht benutzen will, dann heit nicht ... z. b. die Rybka - Rybka Fans auf dem ChessBase Server.

Dennoch würde ich das Setting 42 empfehlen. Es spielt etwas ausgewogener als das Setting 61. Auch hatte ich wie schon vor ca. 2 Monaten beschrieben bessere Resultate bei meinen gesammelten Positions-Studien mit dem Setting daher zog ich auch den Test vom Setting 42 zunächst vor.

Für mich ist vorerst die Ermittlung um Platz 1 im Computerschach abgeschlossen.
Alles drin in der SWCR ...

So, wünsche allen CSSlern ein guten Rutsch ins Jahr 2011!

Gruß
Frank