Interessant? Ratinglisten Problem unter der Lupe!

By Frank Qy. Date 2015-12-15 21:39

Hallo zusammen,

oft lesen wir, dass wenn viele Versionen von einer Engine in einer Ratingliste sind (die anderen also pausenlos gegen oft upgedatete Programme antreten) sich alles ein wenig verschiebt und die Ratings ungenauer werden. Nach wie vor stimmt das natürlich schon ein wenig im Einzelfall aber bei vielen Engines in einer Liste fallen die Verschiebungen nicht auf.

Schaut mal hier:
FCT Rating Liste nach 100550 Partien (habe alles an älteren Programmen aussortiert, natürlich die drin gelassen die zwar älter sind aber immer wieder gegen aktuelle antreten). Im Grunde sind aktuell getestete Engines, die nicht gegen doppelte ältere Engines antreten mussten mit -0.5 - -1.3 vertreten. Also können wir davon ausgehen durchschnittlich 1.0 abzuziehen (liegt an der Naum Eichung der Liste auf 2.890 Elo).

So ...
Was fällt auf?
(am Ende jeder Zeile das Ergebnis zu der aktuellen FCP Rating Liste nach 149.650 games (also wurden 49.100 Partien älterer Engines aussortiert in der Tabelle weiter unten).

Nicht viel fällt auf !!
Spark und Gaviota verloren trotz gigantischer Anzahl an Partien satte 4.9 bzw. 6 Elo ... OK abzüglich der durchschnittlichen Eichung wegen Naum von -1.0.
Bedeutet, das die Anzahl der Partien nicht unbedingt so wichtig ist auch wenn die ErrorBar runter geht. Die Anzahl der Gegner, unter Umständen vieler gleicher Gegner macht es aus. Und wenn Spark und Gaviota (mit die meisten Partien in meiner Liste, laufend gegen gleiche oft upgedatete Programme antreten müssen verschiebt sich die Elo eigentlich gewaltig wenn die ErrorBar dieser Engines auf 7 steht, klar weil Gaviota und Spark x mal gegen Komodo und Stockfish antreten mussten und die Ergebnisse immer unschöner wurden je stärker Stockfish und Komodo wurden.

Fire und GullChess verlieren ca. 3 Elo aufgrund des gleichen Problems (-1.0 wegen Naum Eichung). Zu oft gegen gleiche Gegner gespielt. Während Taktiker Thinker mit ganz eigenen Stärken sich freut pausenlos gegen gleiche stärkere Programme antreten zu müssen. Die Elo geht leicht nach oben.

Wie dem auch ist ... das sind hier keine absoluten News weil ich solche Ergebnisse immer und immer wieder erhalte wenn ich genauer hinsehe aber die Frage stellt sich:
Sollen wirklich alle Partien in einer Datenbank zur Auswertung der Elo oder sollen ältere Versionen von oft upgedateten Programmen aus selektiert werden?

Ich denke wir können mit 3-5 Elo Verschiebungen bei der einen oder anderen Engine bei der Betrachtung einer Liste leben wenn wir Versionen von oft upgedateten Engines nicht aus selektieren. Insofern hat Ferdinand Recht als er mir mal schrieb ... nehme alle Partien für die Ratingliste, durchschnittlich wird es genauer, der Einzelfall ist nicht sonderlich interessant.

Nur ... neuer Fire kommt ...
Hat sich um 25 Elo verbesert und meine Liste gibt 30 aus andere dann 20 ... weniger Gegner als Grund und bei der Grund für 5 mehr weil weniger Partien gegen Stockfish und Komodo da gerade aufgenommen wurde. Verschiebungen bei den Ratinglisten um ca. 10 Elo sind also nicht so sonderlich interessant. Bei größeren Listen wie CEGT wird aber mit der Zeit und massig Gegner und Partien für ältere Programme alles ein wenig ungenauer ... siehe Zappa dort oder viele andere die bis zu 30 und 40 zu meiner Liste mit deutlich mehr Gegnern und Partien gegen aktuelle abweicht. Dennoch ist die CEGT aufgrund der Masse an eingepickten Engines und der meist wenigen Gegnern erstaunlich genau.

Bin selbst oft verblüfft wie genau meine Ratingliste ist, egal welche Stichproben ich mache und führe das auf die Vielzahl der Gegner zurück die ich bei einem Test-Run nutze. Keine Zauberei ...

Code:

   # PLAYER                           : RATING  ERROR   POINTS  PLAYED    (%)
   1 Komodo 9.2 x64                   : 3172.5   14.3   1977.0    2350   84.1%  -1.1
   2 Stockfish 20Aug2015 BMI2 x64     : 3162.2   14.2   1958.5    2350   83.3%   0
   - Stockfish 26Apr2015 BMI2 x64     : 3159.8   14.9   1826.5    2200   83.0%  -0.1
   - Komodo 9 x64                     : 3156.7   14.3   1821.0    2200   82.8%  -1.9
   3 Houdini 4 STD B x64              : 3094.5   12.2   1934.0    2500   77.4%   0.4
   4 Fire 4 x64                       : 3047.0   11.0   1878.0    2600   72.2%  -4.2
   5 GullChess 3.0 BMI2 x64           : 3039.1   11.7   1726.5    2450   70.5%  -4.0
   6 Equinox 3.30 x64                 : 2996.2   10.3   1734.0    2600   66.7%   0.6
   7 Critter 1.6a x64                 : 2979.3   10.6   1612.0    2500   64.5%  -0.3
   8 Rybka 4.1 SSE42 x64              : 2960.0   11.0   1657.5    2600   63.8%  -2.6
   9 Protector 1.9.0 x64              : 2950.1   11.7   1319.0    2100   62.8%  -1.3
  10 Sting SF 4.8.4 x64               : 2947.3   10.5   1711.5    2750   62.2%   1.1
  11 Nirvanachess 2.2 POP x64         : 2946.0   12.5   1334.5    2150   62.1%  -1.3
   - Protector 1.8.0 x64              : 2932.4   13.1   1009.5    1800   56.1%  -3.1
  12 Andscacs 0.83 POP x64            : 2921.6   11.6   1217.5    2050   59.4%  -1.3
   - Protector 1.7.0 x64              : 2921.3   12.5   1002.0    1700   58.9%   2.6
  13 Hannibal 1.5 x64                 : 2904.5    9.5   1771.5    3000   59.0%  -0.5
  14 Chiron 2.0 x64                   : 2903.5    8.6   2458.0    4000   61.5%   0.2
  15 Texel 1.05 x64                   : 2902.9    9.5   1757.5    3000   58.6%  -3.6
   - Nirvanachess 2.1c POP x64        : 2902.1   10.2   1597.0    2700   59.1%  -0.5
  16 Naum 4.6 x64                     : 2890.0    9.1   1974.0    3350   58.9%   0
   - Andscacs 0.81 POP x64            : 2885.1   11.5   1088.0    2050   53.1%  -0.9
   - Hannibal 1.4b x64                : 2869.4   11.2   1226.5    2100   58.4%  -1.1
   - Texel 1.04 x64                   : 2855.5   11.8   1112.5    1950   57.1%  -0.8
   - Nirvanachess 2.0a x64            : 2844.0   11.8   1018.0    1950   52.2%  -4.9
  17 Hakkapeliitta 3.0 x64            : 2839.5    8.2   2015.0    4150   48.6%  -0.6
  18 Senpai 1.0 SSE42 x64             : 2834.7    8.3   2110.0    4000   52.8%  -1.7
  19 Hiarcs 14 WCSC w32               : 2830.3    8.1   2087.5    4000   52.2%  -0.1
   - Andscacs 0.72 POP x64            : 2818.7   11.6   1025.5    2100   48.8%  -0.3
  20 Sjeng c't 2010 w32               : 2810.7    9.3   1653.0    3350   49.3%   0.8
  21 Fizbo 1.5 x64                    : 2808.3    9.5   1345.5    2750   48.9%  -1.3
  ----------------------------------------------------------------------------------
  22 Cheng 4.39 x64                   : 2800.9    9.4   1477.5    3100   47.7%  -1.5
  23 Shredder 12 x64                  : 2798.0    8.9   1598.0    3400   47.0%  -3.2
  24 Vajolet2 2.0 POP x64             : 2790.8    8.6   1624.0    3450   47.1%  -0.7
  25 Junior 13.3.00 x64               : 2789.7    8.1   1974.0    4200   47.0%  -0.6
  26 Spike 1.4 Leiden w32             : 2784.9    9.0   1579.0    3450   45.8%  -1.4
  27 Booot 5.2.0 x64                  : 2776.1   11.7   1084.0    2150   50.4%  -3.6
  28 Quazar 0.4 x64                   : 2770.0    9.4   1487.5    3300   45.1%   3.8
  29 DiscoCheck 5.2.1 x64             : 2768.3    9.2   1538.5    3450   44.6%  -0.7
  30 iCE 2.0 v2240 POP x64            : 2765.5    7.9   1987.5    4350   45.7%  -1.2
  31 Deuterium 14.3.34.130 POP x64    : 2762.5    8.4   1543.0    3500   44.1%  -1.9
   - Cheng 4.38 x64                   : 2758.1   11.2    912.0    2050   44.5%   0.3
   - Fizbo 1.3.1 x64                  : 2754.4   10.4   1071.5    2550   42.0%   2.4
  32 SmarThink 1.70 SSE3 x64          : 2754.1    8.2   1720.0    4000   43.0%  -3.0
  32 Spark 1.0 x64                    : 2754.1    8.2   1886.0    4250   44.4%  -6.0
  34 Alfil 15.04 C# Beta 24 x64       : 2752.5   10.4   1130.5    2350   48.1%  -2.4
  35 Zappa Mexico II x64              : 2747.8    9.2   1381.5    3250   42.5%  -1.5
  36 Thinker 5.4d Inert x64           : 2745.5    9.1   1405.0    3350   41.9%   0.6
   - Vajolet2 1.45 POP x64            : 2740.8    9.8   1182.0    2850   41.5%   4.8
  37 TogaII 280513 Intel w32          : 2733.7   11.0    996.5    2050   48.6%  -0.9
  38 Arasan 18.1 POP x64              : 2731.7   11.1   1021.0    2200   46.4%  -0.9
  39 Atlas 3.80 x64                   : 2725.1    9.2   1314.0    3200   41.1%  -0.8
  40 Gaviota 1.0 AVX x64              : 2724.7    8.0   1756.0    4350   40.4%  -4.9
  41 MinkoChess 1.3 JA POP x64        : 2719.8    9.5   1207.5    2900   41.6%   0.5
   - Arasan 18.0 POP x64              : 2718.0    9.8   1082.5    2950   36.7%  -1.5
  42 EXchess 7.71b x64                : 2712.8   10.8   1008.5    2350   42.9%  -2.2
  ----------------------------------------------------------------------------------
  43 Rodent 1.7 Build 1 POP x64       : 2702.7   10.7   1048.0    2350   44.6%   2.6
  44 Nemo 1.01 Beta POP x64           : 2700.5    9.9   1110.0    2700   41.1%   0.5
  45 Pedone 1.2 BMI2 x64              : 2699.2    9.9   1084.5    3000   36.1%  -0.6
  46 Murka 3 x64                      : 2696.5   10.6    994.5    2350   42.3%   0
   - Pedone 1.3 BMI2 x64              : 2691.8   11.0    855.0    2050   41.7%  -1.1
   - Arasan 17.4 POP x64              : 2691.7   12.8    602.5    1600   37.7%  -0.5
   - EXchess 7.51b x64                : 2681.8   12.4    643.5    1750   36.8%   0.3
  47 DisasterArea 1.54 x64            : 2681.3   10.5    966.0    2350   41.1%   1.3
  48 GNU Chess5 5.60 x64              : 2680.9   10.7    881.0    2150   41.0%  -0.8
  49 Tornado 7.15.05.04 x64           : 2675.0   10.2    982.5    2850   34.5%   0
  50 Scorpio 2.77 JA POP x64          : 2670.6   10.4    932.5    2500   37.3%  -1.8
  51 Dirty 10APR2015 x64              : 2665.7   10.7    900.5    2400   37.5%  -1.2
  52 Crafty 24.1 SSE42 x64            : 2663.1   10.3   1027.0    2650   38.8%   2.1
  53 Glaurung 2.2 JA x64              : 2652.6   10.0    988.0    2650   37.3%  -1.1
  54 Bobcat 6.4b x64                  : 2648.2   11.1    838.0    2350   35.7%  -0.5
  55 The Baron 3.29 x64               : 2641.3   10.8    833.0    2450   34.0%  -2.3
  56 Octochess r5190 SSE4 x64         : 2640.7   10.4    937.5    2600   36.1%   1.4

White advantage = 38.15 +/- 0.84
Draw rate (equal opponents) = 48.18 % +/- 0.18