Die IPON nur mit den Spielen der 23 besten Autoren-Engines

By Ingo Bauer Date 2011-06-18 13:56

Sozusagen als Turnier, würde so aussehen:

Rank Name                      Elo    +    - games score oppo. draws 
   1 Houdini 1.5a             3017   15   14  2200   81%  2762   24% 
   2 Deep Rybka 4             2957   13   13  2200   76%  2765   32% 
   3 Komodo 2.03 DC SSE42     2954   13   13  2200   75%  2765   29% 
   4 Stockfish 2.1.1 JA       2946   13   13  2200   74%  2765   32% 
   5 Critter 1.01 SSE42       2923   13   13  2200   71%  2766   35% 
   6 Naum 4.2                 2827   12   12  2200   58%  2771   39% 
   7 Deep Shredder 12         2800   12   12  2200   54%  2772   38% 
   8 Gull 1.2                 2798   12   12  2200   54%  2772   36% 
   9 Deep Sjeng c't 2010 32b  2791   12   12  2200   53%  2772   39% 
  10 Deep Fritz 12 32b        2787   12   12  2200   52%  2772   37% 
  11 Spike 1.4 32b            2779   12   12  2200   51%  2773   38% 
  12 Protector 1.4.0 x64      2758   12   12  2200   48%  2774   37% 
  13 spark-1.0 SSE42          2758   12   12  2200   48%  2774   40% 
  14 HIARCS 13.2 MP 32b       2749   12   12  2200   47%  2774   37% 
  15 Deep Junior 12.5         2731   12   12  2200   44%  2775   34% 
  16 Zappa Mexico II          2710   12   12  2200   41%  2776   35% 
  17 Hannibal 1.0a            2683   12   12  2200   37%  2777   33% 
  18 Deep Onno 1-2-70         2679   12   12  2200   37%  2777   36% 
  19 Strelka 2.0 B            2671   12   12  2200   35%  2778   35% 
  20 Umko 1.1 SSE42           2638   13   13  2200   31%  2779   33% 
  21 Loop 13.6/2007           2622   13   13  2200   29%  2780   32% 
  22 Jonny 4.00 32b           2612   13   13  2200   28%  2780   29% 
  23 Crafty 23.3 JA           2588   13   14  2200   25%  2781   26%

Die selbe Reihenfolge wenn auch kleinere Änderungen im Rating. Es sieht so aus, als wenn Bayeselo funktionieren würde.

Als Elostat würde es so aussehen:

    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 Houdini 1.5a                   : 3018   15  14  2200    81.4 %   2762   24.1 %
  2 Deep Rybka 4                   : 2960   13  13  2200    75.5 %   2765   32.4 %
  3 Komodo 2.03 DC SSE42           : 2952   13  13  2200    74.6 %   2765   28.7 %
  4 Stockfish 2.1.1 JA             : 2947   13  13  2200    74.0 %   2765   32.4 %
  5 Critter 1.01 SSE42             : 2925   12  12  2200    71.4 %   2766   34.6 %
  6 Naum 4.2                       : 2829   11  11  2200    58.3 %   2771   39.4 %
  7 Deep Shredder 12               : 2800   11  11  2200    54.1 %   2772   38.4 %
  8 Gull 1.2                       : 2798   12  12  2200    53.7 %   2772   36.0 %
  9 Deep Sjeng c't 2010 32b        : 2792   11  11  2200    52.8 %   2772   38.6 %
 10 Deep Fritz 12 32b              : 2789   12  12  2200    52.4 %   2772   36.6 %
 11 Spike 1.4 32b                  : 2780   11  11  2200    51.0 %   2773   37.5 %
 12 Protector 1.4.0 x64            : 2761   12  12  2200    48.1 %   2774   36.5 %
 13 spark-1.0 SSE42                : 2760   11  11  2200    48.0 %   2774   39.7 %
 14 HIARCS 13.2 MP 32b             : 2751   12  12  2200    46.8 %   2774   37.0 %
 15 Deep Junior 12.5               : 2735   12  12  2200    44.2 %   2775   34.3 %
 16 Zappa Mexico II                : 2713   12  12  2200    41.0 %   2776   35.2 %
 17 Hannibal 1.0a                  : 2686   12  12  2200    37.2 %   2777   32.7 %
 18 Deep Onno 1-2-70               : 2683   12  12  2200    36.8 %   2777   36.2 %
 19 Strelka 2.0 B                  : 2673   12  12  2200    35.3 %   2778   35.4 %
 20 Umko 1.1 SSE42                 : 2641   12  12  2200    31.1 %   2779   32.6 %
 21 Loop 13.6/2007                 : 2625   13  13  2200    29.1 %   2780   31.6 %
 22 Jonny 4.00 32b                 : 2616   13  13  2200    27.9 %   2780   29.1 %
 23 Crafty 23.3 JA                 : 2594   13  14  2200    25.4 %   2781   26.5 %

Wenn man wirklich gleiche Dinge auswertet, kommen sich Elostat und Bayes sehr nahe. Hat man aber Ungleichgewichte in der Datenbank (mehr Spiele/Gegner für eine Engine) kommt Bayes der Sache näher als Elostat.

Gruß
Ingo

By Clemens Keck Date 2011-06-18 14:15

Danke Ingo

wirklich sehr intressant.
Die Spiele basieren alle auf AMD Cpus?

Wenn mich die Geduld nicht verlässt werde ich eine eigene MinniListe mit 12 - 15 engines einspielen, damit ich meine eigenen BasisRatings habe.
DAs dürfte sehr intressant sein.

Den Komodo64_2.03_DC Test spile ich mal ohne ratings. Ist ja auch so aussagefähig, wenigstens was die Prozente betrifft. Gibt halt kein rating.

Gruß, Clemens

By Ingo Bauer Date 2011-06-18 15:00

Moin CLemens,

[quote="Clemens Keck"]
...
Die Spiele basieren alle auf AMD Cpus?
...
[/quote]

Nein. In der Gesammtliste sind so ca. 90000 Intelspiele, der Rest ist AMD.

Zu Anfang war ich auch ein bischen vorsichtig, aber inzwischen muß ich sagen das nichts passiert zw. Intel und AMD. Man kann das ganze sehr schön an Deep Fritz 12 verfolgen . Der ist wohl am heftigsten auf Intel optimiert und fällt im direkten Verlgeich beider CPUs um 19% ab, keine andere Engine performt so schlecht auf AMD (Zappa performt sehr gut auf AMD +8%). Ich habe gerade mal geschaut, von den 5800 Spielen (Für Fritz) sind mindestens 2000 auf AMD gespielt worden, geändert hat sich das Rating um 0 Elo, der Abstand zum gesetzten Shredder 12 sind immer rund 20 Elo.
In der Turnierliste oben ist die Hälfte der Spiele für Fritz auf Intel, die andere auf AMD gespielt worden und auch da ist die Reihenfolge der Engines unverändert.
Kurz: Wenn es einen Unterschied gibt, liegt der fürs Schach unterhalb der Nachweisgrenzen. Das Einzige was man beachten muß ist, dass beide Gegner auf der selben Hardware spielen. Aber den Fehler macht soweit ich weiß keine Liste!

Gruß
Ingo

PS: Wenn ich Intel und AMD schreibe müßte ich genauer sagen: Core2 vs Phenom2. Im Durchschnitt über alle Engines, liegen diese beiden CPUs bei gleichem Takt um 2.4% auseinander. Mit Fritz als schlechtestem auf Phe2 und bestem auf Core2 und Zappa als bestem auf Phe2 und schlechtestem auf Core2.

Hier mal meine Ergebnisse über 21 TopEngines:

Wie man sehen kann ist der Unterschied im Durchschnitt zw. Core2 und Phe2 vernachlässigbar und auch der vielgerühmte i7 (der alte nicht der neue) ist bei gleichem Takt auch nur 15.2% schneller. Wenn man sich die Unterschiede mal vor Augen führt wird auch klar warum man nichts sieht. 2.4% kann man kaum in ELo ausdrücken und selbst die desaströsen 19% (Da muß CB was machen!) sind im schlimmsten Fall 12 ELo und die lägen bei rund 3000 Spielen immer noch in der Errorbar ...

(Im Schnitt über alle Engines, gemessen mit Singleengines. MP Messungen sind schwierig (wenn nicht unmöglich), allerdings habe ich das Bauchgefühl das der Abstand zw. Phe2 und i7 kleiner wird, zw. Phe2 und Core2 liegt AMD dann sogar vorn)

By Clemens Keck Date 2011-06-18 19:24

Toll Ingo

sowas intressiert mich immer sehr.
Ich habe versucht meine Intel Rechner die die Tests spielen in etwa aneinander anzugleichen. Denke es ist ganz okay so wie es ist.
Zur Zeit spielen ein 12 core, ein 8 core und ein 6 core, also 13 Partien simultan. Ich habe allerdings schon locker 300 - 400 weggeschmissen.
Musste immer wieder neu starten. Ständig wieder ein Fehler bei der Aufstellung meinerseits. Nun müsste es aber stimmen.
Vielleicht stelle ich es nach der Hälfte online. Mal sehn

Gruß, Clemens