SWCR: Besserer Vergleich Rybka 4 Exp. 42 zu Rybka 4 Exp. 61

By Frank Quisinsky Date 2011-01-10 19:06

Hallo zusammen,

im Thread " SWCR nach 79.120 Partien ..." hatte ich schon Informationen zu dem Vergleich der beiden von mir getesteten Rybka 4 Exp. Settings gesetzt.
Ich wurde per eMail gefragt, ob ich nicht mal beide Rybka 4 Exp. Versionen in eine Liste setzten könnte. Vielleicht interessiert das ja noch Jemanden im CSS Forum.

Also hier jetzt die SWCR-64 "Jeder gegen Jeden" mit beiden Rybka 4 Exp. Settings.
Natürlich haben die Settings nicht gegeneinander gespielt, so dass anstatt 1.040 dann 1.000 Partien übrig bleiben:

Berechne hier jetzt mal mit beiden Berechnungsprogrammen:

Berechnung mit Bayesian 0056:

Code:

   1 Houdini 1.5 x64             3003   21   20  1040   82%  2749   26% 
   2 Rybka 4 x64 Exp. 42         2965   20   20  1000   79%  2742   26% 
   3 Rybka 4 x64 Exp. 61         2959   20   20  1000   78%  2742   27% 
   4 IvanHoe B49jA x64           2930   19   19  1040   74%  2751   35% 
   5 Stockfish 1.9.1 JA x64      2905   19   18  1040   71%  2752   35% 
   6 Critter 0.90 x64            2870   18   18  1040   67%  2754   38% 
   7 Naum 4.2 x64                2834   18   18  1040   62%  2755   39% 
   8 Komodo 1.2 JA x64           2809   17   17  1040   58%  2756   43% 
   9 Shredder 12                 2800   18   17  1040   57%  2756   39% 
  10 Sjeng c't 2010              2786   17   17  1040   54%  2757   39% 
  11 GullChess 1.1 x64           2781   18   17  1040   54%  2757   38% 
  12 Spark 1.0 x64               2755   17   17  1040   50%  2758   42% 
  13 Thinker 5.4d Inert x64      2736   17   17  1040   47%  2759   41% 
  14 Hiarcs 13.1                 2736   18   17  1040   47%  2759   36% 
  15 Zappa Mexico II x64         2724   17   17  1040   45%  2759   39% 
  16 Fruit 09_07_05 x64          2718   17   18  1040   44%  2760   35% 
  17 Junior 12.0 x64             2715   18   18  1040   44%  2760   34% 
  18 Protector 1.3.6-370 JA x64  2706   18   18  1040   43%  2760   34% 
  19 Booot 5.1.0                 2693   18   18  1040   41%  2761   37% 
  20 Onno 1.2.70 x64             2677   18   18  1040   39%  2761   35% 
  21 Hannibal 1.0a x64           2675   18   18  1040   38%  2761   36% 
  22 Umko 1.1 x64                2636   18   18  1040   33%  2763   34% 
  23 Crafty 23.4 JA x64          2619   18   19  1040   30%  2763   33% 
  24 Loop 2007 x64               2616   18   19  1040   30%  2763   33% 
  25 Equinox 0.87t x64           2615   18   19  1040   30%  2763   32% 
  26 Jonny 4.00                  2609   19   19  1040   30%  2764   26% 
  27 SmarThink 1.20 x64          2592   19   19  1040   27%  2764   31%

Berechnung mit ELOstat 1.3:

Code:

  1 Houdini 1.5 x64                : 3007   21  20  1040    81.8 %   2746   25.9 %
  2 Rybka 4 x64 Exp. 42            : 2965   21  20  1000    78.5 %   2740   26.2 %
  3 Rybka 4 x64 Exp. 61            : 2960   20  20  1000    78.0 %   2740   26.7 %
  4 IvanHoe B49jA x64              : 2934   18  18  1040    74.3 %   2749   35.1 %
  5 Stockfish 1.9.1 JA x64         : 2906   18  18  1040    71.0 %   2750   34.9 %
  6 Critter 0.90 x64               : 2873   17  17  1040    66.8 %   2752   38.2 %
  7 Naum 4.2 x64                   : 2835   17  17  1040    61.5 %   2753   39.0 %
  8 Komodo 1.2 JA x64              : 2810   16  16  1040    58.0 %   2754   42.5 %
  9 Shredder 12                    : 2800   17  17  1040    56.6 %   2754   38.6 %
 10 Sjeng c't 2010                 : 2783   17  16  1040    54.0 %   2755   39.1 %
 11 GullChess 1.1 x64              : 2780   17  17  1040    53.6 %   2755   37.9 %
 12 Spark 1.0 x64                  : 2755   16  16  1040    49.9 %   2756   41.7 %
 13 Hiarcs 13.1                    : 2736   17  17  1040    47.1 %   2757   36.2 %
 14 Thinker 5.4d Inert x64         : 2734   16  16  1040    46.7 %   2757   41.2 %
 15 Zappa Mexico II x64            : 2722   17  17  1040    45.0 %   2757   38.9 %
 16 Fruit 09_07_05 x64             : 2719   17  17  1040    44.4 %   2758   35.4 %
 17 Junior 12.0 x64                : 2716   17  17  1040    44.0 %   2758   33.8 %
 18 Protector 1.3.6-370 JA x64     : 2709   17  17  1040    43.0 %   2758   34.3 %
 19 Booot 5.1.0                    : 2692   17  17  1040    40.5 %   2759   37.2 %
 20 Onno 1.2.70 x64                : 2679   17  17  1040    38.6 %   2759   35.5 %
 21 Hannibal 1.0a x64              : 2674   17  17  1040    38.0 %   2759   36.3 %
 22 Umko 1.1 x64                   : 2636   18  18  1040    32.8 %   2761   33.9 %
 23 Crafty 23.4 JA x64             : 2618   18  18  1040    30.5 %   2761   32.7 %
 24 Loop 2007 x64                  : 2617   18  18  1040    30.4 %   2761   32.7 %
 25 Equinox 0.87t x64              : 2616   18  18  1040    30.1 %   2762   32.2 %
 26 Jonny 4.00                     : 2614   19  19  1040    29.9 %   2762   26.0 %
 27 SmarThink 1.20 x64             : 2592   19  19  1040    27.2 %   2762   30.6 %

Wie ich finde ganz interessant auch hinsichtlich ...
Vergleich aller anderen 26 Engines!

Also, Jeder gegen Jeden 40 Partien.
Durchschnittliche Zeit pro Partie = 40 Minuten!

Code:

Conditions:
Windows XP Prof. x64 Edition
SClassic 4, Fritz 11 GUI
S12: Random-Book 4.1
F12: Perfect 2010

40 moves in 10 minutes
ponder = on
each engine = 1 core
resign / learning = off
hashtables = 256Mb
4TB Nalimov, GaviotaB., egbb,
ShredderB., TotalB. & TripleB.

Intel® Core(TM)2 Quad
4x Q9550, 2,83GHz

Gruß
Frank

By Frank Quisinsky Date 2011-01-10 19:25

Hallo zusammen,

dieser einfache Vergleich zeigt auch sehr schön auf, wie gut das SWCR Random Book 4.1 ist. Bei der SWCR wird nicht mit Vorgabestellungen gespielt. Nach fast 35.000 Partien mit diesem Buch gab es 22 kritische Partien. Dass heißt Engines die mal mehr oder weniger mit einer Variante direkt nach den Buchzügen auffällige Probleme hatten. Ferner gab es 41 Partien die ich bislang wiederholen musste. Partien unter 16 Zügen Remis aufgrund dreifacher Stellungswiederholung werden wiederholt. Somit ist keine Partie unter 16 Zügen in den SWCR Datenbanken, die ferner auch sauber hinsichtlich Zeitüberschreitungen sind.

Mit einem guten Buch gelingen solche Resultate und genau für den Zweck Ratingliste wurde das Buch optimiert.
Es gibt hierzu eine Dokumentation, kann aufgerufen werden über meine Webseite (link Random Book 4.1). Das Buch mit oder ohne Arbeitsdateien findet sich in meinem Downloadbereich. Ich berichtete hierüber auch im Sommer des letzten Jahres.

Also, Bücher beeinflussen die Ratingliste nicht wenn auf diverse Dinge wirklich geachtet wird.
Die Aussage die aufgrund der SWCR Datenbasis auch nicht mehr in Frage gestellt werden kann.

Genug zu den SWCR Ratinglisten.
Muss noch die SWCR Champions-League 2011 vorbereiten und ans Laufen bekommen.

Gruß
Frank

By Benno Hartwig Date 2011-01-10 22:23

Wäre es nicht ganz schön, auch die Standard-Rybka-4 mit in die Liste zu nehmen?
Mich würde gerade der Vergleich der Erfolgsquoten diese Rybkas interessieren.
Hast du eigentlich auch andere, weniger erfolgreiche Settings mit großen Partienzahlen getestet? Ggf. mit welchen Erfolgen?
Benno

By Frank Quisinsky Date 2011-01-10 22:36 Edited 2011-01-10 22:39

Hallo Benno,

Rybka 4 x64 Default hat ja in der SWCR-64 schon 1.520 Partien gespielt.
Allerdings nicht gegen die gleichen Gegner wie Exp. 42 und Exp. 61.
Insofern ist Deine Frage absolut berechtigt.

Das ist mir heute auch erst so richtig beim Updaten der Seiten bewusst geworden. Ich müsste also Rybka 4 Default nun gegen 13 Gegner die 40 Partien erneut austragen lassen. Das wären 520 Extra Partien !! Dann hätten die beiden Exp Settings und das Default Setting die gleichen Gegner gehabt.

Und genau diese Partien kann ich jetzt nicht spielen lassen, denn ich starte in wenigen Minuten die SWCR Champions-League 2011 bei 40 Züge in 150 Minuten. Bin hier in den letzten Zügen mit meiner Vorbereitung.

Allerdings:
Es würde auch nicht sonderlich viel dabei rum kommen denn Rybka 4 x64 default hat ja wie gesagt schon 1.520 Partien gespielt. Vielleicht haben wir dann Abweichungen um +-3 ELO zu den Exp. Settings 42 und 61. Ich gehe davon aus, dass aufgrund der vielen Partien in der SWCR pro Engine da einfach auch nichts mehr passieren wird und vertraue auf meine Statistiken der bislang getesteten 118 Engines.

Warte ich schaue mal in meine interne Statistik:
31 der bislang 118 getesteten Engines haben mehr als 1.500 Partien gespielt.
Die höchste Abweichung von Partie-Nummer 1.000 - 1.500 dieser 31 Engines beträgt 6 ELO lt. meiner Excel Tabelle (durchschnittlich 3 ELO).

Also die Wahrscheinlichkeit das Rybka 4 Default um mehr 6 ELO besser oder schlechter sein wird, wenn diese 520 Extra Partien gespielt werden würden, ist sehr gering.

Fest steht aber ...
Wir haben einen sich überprüfenden SWCR Test vorliegen, denn es wurden 2 Settings getestet. Interessant ist, dass einige Einzelergebnisse zwischen den Settings stark unterschiedlich sind. Aber das ist normal bei "nur" 40 Partien pro Match. Durch die 26 verschiedenen Gegner relativiert sich das aber wieder alles und die ELO wird sehr genau.

Viele Grüße
Frank

By Frank Quisinsky Date 2011-01-10 23:00 Edited 2011-01-10 23:04

Hi Benno,

vergessen ...
Deine Frage ob ich andere getestet habe ...

Ich habe vor dem Start und kurze Zeit nach dem Start vom Exp. 42 zur SWCR auch andere Settings mittels 146 gesammelter Schach-Studien getestet (habe etwas später meinen Q6600 auf alle gesammelten Werke gehetzt). Genau waren es 19 Settings bis Exp. 61. Das beste Resultat hatte Exp. 42 und so entschied ich mich erst das Exp. 42 zu testen (habe ja seinerzeit ausführlich im Forum berichtet). Als Sedat dann nach 600 Partien ein Plus von 40 ELO beim Setting 61 feststellte startete ich ja um Weihnachten noch einen zweiten Test mit dem Setting 61. Zwischenzeitlich ließ ich auch gegen 15 Gegner das Setting 61 auf einem Q6600 in einem Kurztest durchlaufen. Hier stellte ich fest 5 ELO besser als Exp. 42. Wie sich später bzw. ja heute herausstellte ist nun das Setting 42 um ca. 5-6 ELO vorne (nach Beendigung vom SWCR-64 Turnier).

Und zu Sedat:
Er spielt mit längerer Bedenkzeit hat aber "nur" 600 Partien. Es ist nach den Eindrücken bzw. auch den Ergebnissen davon auszugehen, dass die Exp. Settings bei längeren Bedenkzeiten auch weiter zulegen können. Das wurde auch bei den Schach-Studien schnell sehr deutlich denn es wurden im Vergleich zu Rybka 4 Default mit mehr Zeit mehr und mehr Studien gelöst (nicht schneller, oftmals etwas langsamer aber mehr Studien wurden gelöst). Insofern denke ich, dass auch die Ergebnisse von Sedat absolut plausibel und nachvollziehbar sind.

Viele Grüße
Frank