SF 26042016 BMI2 x64 Contempt=10 läuft ...

By Frank Quisinsky Date 2016-04-30 02:29 Edited 2016-04-30 02:35

Hallo zusammen,

nachdem nun alle 56 eingepickten Engines gegeneinander die 50 Partien gespielt haben (77000 Partien, 1540 Paarungen) und ich damit wahrscheinlich für die größte Kreuztabelle, die jemals ein Schachturnier produzierte, gesorgt habe (vermute ich mal, so bescheuert ist niemand ein Turnier mit 77000 Partien bei 1.540 Paarungen zu erzeugen) steht eine sehr interessante Liste, die viel Raum für mögliche Statistiken lässt. In den nächsten Tagen werde ich versuchen hierzu ein paar Statistiken selbst zu erzeugen, kann sich natürlich jeder an der Datenbank versuchen, findet sich im Download Bereich meiner Webseiten. Mit dieser Datenbank ist vieles möglich, auch kann ich die Spielstilbeschreibungen verbessern.

Vielleicht hat mal jemand Lust eine Tabelle zu erzeugen ... glaube die sprengt jedes Forum:

Hier die Daten:
http://www.amateurschach.de/download/_fcp-rating-list-v4.08.zip (ohne Partiekommentare, ca. 36Mb).

Am Ende des Postings dann die FCP Rating Liste, v4.08

War mit dieser Aktion ein wenig lahm gelegt (es fehlen viele Matches) und im April 2016 gab es viele Updates, die jetzt so nach und nach eingespielt werden.
Starte zum warm werden zunächst mal mit der aktuellen Stockfish dev. Version. Nutze dann hierbei den gleichen Contempt = 10 wie bei Komodo 9.42 Standard Setting.

Wer das verfolgen möchte:
http://www.amateurschach.de/ftptrigger/sf_240416-bmi2-x64-c10.html

Hier die aktuellen FCP Rating Listen:

Code:

  FCP Rating List (all games, TOP-56)
  ----------------------------------

  Date           : April 30th, 2016 (00:00)
  Games          : 213.300
  Version        : 4.08
  Conditions     : http://www.amateurschach.de/main/_conditions.htm

  Generated with : Ordo 1.2.6 x64 (Ratings for chess and other games)
  https://sites.google.com/site/gaviotachessengine/ordo
  by Miguel A. Ballicora (Argentina)

   # Player                           :      Elo  Games  Score%  Draw%  Error   OppAvg   OppE   OppD
  --------------------------------------------------------------------------------------------------
   1 Komodo 9.42 x64                  :  3190.81   2850    88.1   21.3  14.82  2803.26   8.47   57.0
   2 Stockfish 7 KP BMI2 x64          :  3166.77   3200    85.8   26.6  12.66  2814.57   8.69   64.0
   3 Houdini 4 STD B x64              :  3090.66   4000    77.8   30.1   9.96  2838.17   9.21   78.6
   4 Fire 4 x64                       :  3045.39   4850    73.3   35.7   8.81  2841.03   9.95   95.6
   5 GullChess 3.0 BMI2 x64           :  3042.76   5000    72.0   38.5   8.46  2851.34  10.23   98.6
   6 Equinox 3.30 x64                 :  2994.82   4800    68.0   40.9   8.08  2843.64   9.89   94.6
   7 Fritz 15 x64                     :  2993.12   3350    70.7   38.9  10.38  2820.88   8.76   67.0
   8 Critter 1.6a x64                 :  2981.44   4200    67.2   41.4   9.04  2839.96   9.31   82.6
   9 Protector 1.9.0 x64              :  2951.72   3600    64.9   42.4   9.78  2832.13   8.99   72.0
  10 Andscacs 0.85 POP x64            :  2945.57   3000    66.8   39.2   9.72  2810.47   8.67   60.0
  11 Nirvanachess 2.2 POP x64         :  2942.84   3650    63.7   42.7   9.48  2833.66   9.04   73.0
  12 iCE 3.0 v658 POP x64             :  2922.18   3250    62.6   40.1   9.80  2823.77   8.82   65.0
  13 Hannibal 1.5 x64                 :  2907.65   4700    58.8   43.7   8.05  2840.25   9.59   89.9
  14 Texel 1.05 x64                   :  2906.06   4650    58.3   41.0   8.04  2843.03   9.60   90.3
  15 Chiron 2.0 x64                   :  2905.66   6750    60.1   39.1   6.75  2827.60  10.52  119.3
  16 Naum 4.6 x64                     :  2890.00   5250    58.3   42.4   7.49  2827.03   9.80  103.6
  17 SmarThink 1.80 AVX x64           :  2843.76   3300    53.2   40.1   8.90  2824.10   8.81   66.0
  18 Fizbo 1.6 x64                    :  2840.16   3300    54.5   45.4   9.06  2809.88   8.78   66.0
  19 Senpai 1.0 SSE42 x64             :  2837.85   6850    52.1   40.9   6.40  2826.83  10.51  122.6
  20 Hakkapeliitta 3.0 x64            :  2836.01   5550    49.4   38.5   7.11  2845.93   9.34   81.2
  --------------------------------------------------------------------------------------------------
  21 Hiarcs 14 WCSC w32               :  2830.92   6850    51.2   41.8   6.50  2826.94  10.51  122.6
  22 Sjeng c't 2010 w32               :  2806.54   4950    48.2   40.5   7.53  2827.70   9.67   97.6
  23 Cheng 4.39 x64                   :  2803.51   4450    48.2   40.1   8.24  2824.67   9.39   87.6
  24 Shredder 12 x64                  :  2800.21   6000    46.2   40.8   6.80  2837.46  10.67  118.6
  25 Vajolet2 2.1 POP x64             :  2796.85   3250    49.0   43.6   9.22  2810.83   8.79   65.0
  26 Junior 13.3.00 x64               :  2790.04   6050    46.2   39.3   7.10  2827.13   9.70  105.5
  27 Spike 1.4 Leiden w32             :  2786.30   5800    44.4   41.3   6.97  2838.15  10.58  116.0
  28 DiscoCheck 5.2.1 x64             :  2774.61   5400    44.2   38.2   7.30  2828.81   9.93  108.0
  29 Booot 5.2.0 x64                  :  2772.50   4100    46.0   39.3   8.14  2812.26   9.22   82.0
  30 Quazar 0.4 x64                   :  2767.06   5950    43.0   40.3   7.01  2831.75  10.68  119.0
  31 Deuterium 14.3.34.130 POP x64    :  2761.52   5200    43.4   42.4   7.37  2823.41   9.80  104.0
  32 Spark 1.0 x64                    :  2759.89   7700    45.4   41.1   6.02  2804.55  10.67  123.9
  33 Arasan 18.3 POP x64              :  2755.04   2750    43.2   43.3   9.88  2813.81   8.52   55.0
  34 Zappa Mexico II x64              :  2749.70   5650    41.0   41.3   7.17  2831.52  10.54  113.0
  35 Doch 1.3.4 JA x64                :  2745.31   3350    43.3   44.4   8.85  2802.67   8.62   67.0
  36 Thinker 5.4d Inert x64           :  2742.83   4850    40.9   39.6   7.92  2825.38   9.63   97.0
  37 TogaII 280513 Intel w32          :  2732.10   3650    41.7   39.0   8.94  2805.46   8.85   73.0
  38 Gaviota 1.0 AVX x64              :  2729.07   7750    41.6   37.5   6.10  2805.24  10.67  124.9
  39 Dirty 03NOV2015 POP x64          :  2727.48   3450    42.1   39.8   9.01  2795.11   8.63   69.0
  40 Atlas 3.80 x64                   :  2727.40   4900    39.7   38.7   7.68  2819.12   9.57   96.6
  --------------------------------------------------------------------------------------------------
  41 EXchess 7.88b x64                :  2727.07   2900    39.5   38.6   9.82  2817.79   8.65   58.0
  42 Crafty 25.0.1 JA POP x64         :  2726.47   2800    39.8   40.2  10.15  2812.78   8.53   56.0
  43 Tornado 5.0 SSE4 x64             :  2726.30   4800    42.7   38.3   7.53  2790.08   9.73   89.3
  44 Bobcat 7.1 x64                   :  2706.55   3350    38.9   40.7   9.35  2799.59   8.59   67.0
  45 Nemo 1.01 Beta POP x64           :  2704.41   4150    39.9   40.7   8.28  2788.71   9.07   83.0
  46 Murka 3 x64                      :  2699.72   3950    39.5   43.0   8.23  2787.25   9.03   79.0
  47 Pedone 1.2 BMI2 x64              :  2699.05   4200    36.5   40.4   8.42  2816.18   9.17   82.6
  48 Rodent II 0.8.7 x64              :  2684.04   3000    34.3   37.1  10.37  2818.22   8.62   58.6
  49 DisasterArea 1.54 x64            :  2682.58   4300    37.8   42.0   8.25  2783.25   9.15   84.6
  50 GNU Chess5 5.60 x64              :  2682.23   3600    36.6   39.4   8.70  2794.20   8.73   72.0
  51 Scorpio 2.77 JA POP x64          :  2670.65   3900    34.9   36.1   8.71  2796.88   8.92   78.0
  52 Glaurung 2.2 JA x64              :  2656.59   4750    36.8   39.7   7.95  2766.79   9.47   87.0
  53 Rhetoric 1.4.3 POP x64           :  2650.47   3500    32.8   37.8   9.47  2794.41   8.65   70.0
  54 The Baron 3.29 x64               :  2644.72   3850    32.1   34.9   8.99  2795.08   8.89   77.0
  55 Octochess r5190 SSE4 x64         :  2640.35   4700    35.0   39.3   7.98  2765.64   9.48   87.3
  56 BugChess2 1.9 POP x64            :  2619.24   3300    28.3   32.8   9.94  2802.78   8.57   66.0
  --------------------------------------------------------------------------------------------------

  Move average                : 175.59 / 87.795
  White advantage             : 38.07  +/- 0.59
  Draw rate (equal opponents) : 48.15% +/- 0.13
 
  Games        :  213.300 (finished)
  White Wins   :   74.138 (34.8%)
  Black Wins   :   55.197 (25.9%)
  Draws        :   83.965 (39.4%)
  Unfinished   :       0

  White Perf.  :  54.4%
  Black Perf.  :  45.6%

  ECO A        =  40.678 games (19.1%)
  ECO B        =  49.722 games (23.3%)
  ECO C        =  42.884 games (20.1%)
  ECO D        =  42.060 games (19.7%)
  ECO E        =  37.956 games (17.8%)

Und dann die besagte Liste jeder gegen jeden 50 Partien ... nun komplett!

Code:

  FCP Rating List
  ---------------

  Date           : April 30th, 2016 (00:00)
  Games          : 77.000
  Version        : 4.08
  Conditions     : http://www.amateurschach.de/main/_conditions.htm

  Generated with : Ordo 1.2.6 x64 (Ratings for chess and other games)
  https://sites.google.com/site/gaviotachessengine/ordo
  by Miguel A. Ballicora (Argentina)

   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
  ----------------------------------------------------------------------------------------------------------------------------
   1 Komodo 9.42 x64                  :  3192.91   2750    87.9  2122   593    35  2418.5   21.6  15.47  2807.86  10.25   55.0
   2 Stockfish 7 KP BMI2 x64          :  3166.47   2750    86.3  2017   714    19  2374.0   26.0  14.29  2808.34  10.27   55.0
   3 Houdini 4 STD B x64              :  3095.12   2750    81.2  1844   777   129  2232.5   28.3  12.31  2809.64  10.30   55.0
   4 GullChess 3.0 BMI2 x64           :  3043.94   2750    76.8  1635   952   163  2111.0   34.6  11.92  2810.57  10.31   55.0
   5 Fire 4 x64                       :  3042.56   2750    76.6  1627   961   162  2107.5   34.9  11.37  2810.60  10.32   55.0
   6 Equinox 3.30 x64                 :  3001.09   2750    72.6  1456  1081   213  1996.5   39.3  10.76  2811.35  10.33   55.0
   7 Fritz 15 x64                     :  2996.30   2750    72.1  1457  1052   241  1983.0   38.3  10.78  2811.44  10.33   55.0
   8 Critter 1.6a x64                 :  2991.36   2750    71.6  1428  1082   240  1969.0   39.3  11.25  2811.53  10.32   55.0
   9 Protector 1.9.0 x64              :  2952.02   2750    67.3  1283  1138   329  1852.0   41.4  10.31  2812.24  10.34   55.0
  10 Andscacs 0.85 POP x64            :  2949.27   2750    67.0  1298  1091   361  1843.5   39.7  10.44  2812.29  10.34   55.0
  11 Nirvanachess 2.2 POP x64         :  2937.90   2750    65.7  1232  1152   366  1808.0   41.9  10.77  2812.50  10.33   55.0
  12 iCE 3.0 v658 POP x64             :  2927.03   2750    64.5  1218  1111   421  1773.5   40.4  10.06  2812.70  10.34   55.0
  13 Chiron 2.0 x64                   :  2913.58   2750    62.9  1186  1088   476  1730.0   39.6  10.01  2812.94  10.35   55.0
  14 Hannibal 1.5 x64                 :  2911.28   2750    62.6  1149  1147   454  1722.5   41.7   9.94  2812.98  10.35   55.0
  15 Texel 1.05 x64                   :  2907.31   2750    62.2  1141  1137   472  1709.5   41.3  10.14  2813.05  10.34   55.0
  16 Naum 4.6 x64                     :  2890.00   2750    60.1  1044  1216   490  1652.0   44.2  10.03  2813.37  10.34   55.0
  17 SmarThink 1.80 AVX x64           :  2844.70   2750    54.4   943  1108   699  1497.0   40.3   9.88  2814.19  10.35   55.0
  18 Fizbo 1.6 x64                    :  2844.27   2750    54.4   861  1269   620  1495.5   46.1   9.85  2814.20  10.35   55.0
  19 Senpai 1.0 SSE42 x64             :  2842.12   2750    54.1   893  1190   667  1488.0   43.3   9.86  2814.24  10.35   55.0
  20 Hakkapeliitta 3.0 x64            :  2835.24   2750    53.2   915  1098   737  1464.0   39.9   9.58  2814.37  10.35   55.0
  ----------------------------------------------------------------------------------------------------------------------------
  21 Hiarcs 14 WCSC w32               :  2830.24   2750    52.6   867  1159   724  1446.5   42.1   9.73  2814.46  10.35   55.0
  22 Sjeng c't 2010 w32               :  2806.91   2750    49.6   805  1119   826  1364.5   40.7  10.11  2814.88  10.34   55.0
  23 Vajolet2 2.1 POP x64             :  2799.53   2750    48.7   735  1207   808  1338.5   43.9  10.09  2815.01  10.34   55.0
  24 Cheng 4.39 x64                   :  2799.11   2750    48.6   757  1160   833  1337.0   42.2   9.78  2815.02  10.35   55.0
  25 Shredder 12 x64                  :  2797.40   2750    48.4   724  1214   812  1331.0   44.1  10.03  2815.05  10.34   55.0
  26 Junior 13.3.00 x64               :  2793.55   2750    47.9   757  1121   872  1317.5   40.8  10.02  2815.12  10.35   55.0
  27 Spike 1.4 Leiden w32             :  2783.95   2750    46.7   712  1143   895  1283.5   41.6   9.87  2815.30  10.35   55.0
  28 DiscoCheck 5.2.1 x64             :  2781.52   2750    46.4   733  1084   933  1275.0   39.4   9.80  2815.34  10.35   55.0
  29 Quazar 0.4 x64                   :  2774.13   2750    45.4   653  1192   905  1249.0   43.3  10.03  2815.48  10.34   55.0
  30 Booot 5.2.0 x64                  :  2770.88   2750    45.0   687  1101   962  1237.5   40.0   9.94  2815.54  10.35   55.0
  31 Deuterium 14.3.34.130 POP x64    :  2762.45   2750    43.9   591  1234   925  1208.0   44.9   9.94  2815.69  10.35   55.0
  32 Arasan 18.3 POP x64              :  2757.01   2750    43.2   594  1190   966  1189.0   43.3   9.89  2815.79  10.35   55.0
  33 Zappa Mexico II x64              :  2752.00   2750    42.6   572  1199   979  1171.5   43.6  10.10  2815.88  10.34   55.0
  34 Spark 1.0 x64                    :  2751.57   2750    42.5   586  1168   996  1170.0   42.5   9.84  2815.89  10.35   55.0
  35 Doch 1.3.4 JA x64                :  2748.55   2750    42.2   567  1185   998  1159.5   43.1   9.45  2815.94  10.36   55.0
  36 Thinker 5.4d Inert x64           :  2743.23   2750    41.5   558  1166  1026  1141.0   42.4   9.69  2816.04  10.35   55.0
  37 TogaII 280513 Intel w32          :  2736.00   2750    40.6   570  1092  1088  1116.0   39.7   9.91  2816.17  10.35   55.0
  38 Tornado 5.0 SSE4 x64             :  2730.63   2750    39.9   569  1057  1124  1097.5   38.4   9.62  2816.27  10.35   55.0
  39 Atlas 3.80 x64                   :  2729.76   2750    39.8   546  1097  1107  1094.5   39.9   9.86  2816.28  10.35   55.0
  40 Crafty 25.0.1 JA POP x64         :  2729.46   2750    39.8   543  1101  1106  1093.5   40.0   9.86  2816.29  10.35   55.0
  ----------------------------------------------------------------------------------------------------------------------------
  41 EXchess 7.88b x64                :  2728.33   2750    39.6   553  1073  1124  1089.5   39.0   9.77  2816.31  10.35   55.0
  42 Gaviota 1.0 AVX x64              :  2727.42   2750    39.5   551  1071  1128  1086.5   38.9  10.03  2816.33  10.34   55.0
  43 Dirty 03NOV2015 POP x64          :  2727.16   2750    39.5   531  1109  1110  1085.5   40.3   9.91  2816.33  10.35   55.0
  44 Nemo 1.01 Beta POP x64           :  2712.09   2750    37.6   485  1099  1166  1034.5   40.0  10.05  2816.60  10.34   55.0
  45 Bobcat 7.1 x64                   :  2708.74   2750    37.2   477  1092  1181  1023.0   39.7   9.77  2816.67  10.35   55.0
  46 Murka 3 x64                      :  2706.51   2750    36.9   430  1171  1149  1015.5   42.6   9.82  2816.71  10.35   55.0
  47 Pedone 1.2 BMI2 x64              :  2700.39   2750    36.2   426  1138  1186   995.0   41.4   9.91  2816.82  10.35   55.0
  48 Rodent II 0.8.7 x64              :  2685.42   2750    34.4   432  1027  1291   945.5   37.3  10.29  2817.09  10.34   55.0
  49 DisasterArea 1.54 x64            :  2684.81   2750    34.3   372  1143  1235   943.5   41.6  10.33  2817.10  10.34   55.0
  50 GNU Chess5 5.60 x64              :  2677.13   2750    33.4   388  1061  1301   918.5   38.6  10.37  2817.24  10.34   55.0
  51 Scorpio 2.77 JA POP x64          :  2672.95   2750    32.9   415   980  1355   905.0   35.6  10.14  2817.32  10.34   55.0
  52 Glaurung 2.2 JA x64              :  2662.17   2750    31.7   340  1061  1349   870.5   38.6  10.33  2817.51  10.34   55.0
  53 Rhetoric 1.4.3 POP x64           :  2655.91   2750    30.9   346  1010  1394   851.0   36.7  10.30  2817.63  10.34   55.0
  54 The Baron 3.29 x64               :  2650.97   2750    30.4   368   935  1447   835.5   34.0  10.21  2817.72  10.34   55.0
  55 Octochess r5190 SSE4 x64         :  2642.37   2750    29.4   316   986  1448   809.0   35.9  10.50  2817.87  10.34   55.0
  56 BugChess2 1.9 POP x64            :  2620.65   2750    27.1   299   890  1561   744.0   32.4  10.66  2818.27  10.33   55.0
  ----------------------------------------------------------------------------------------------------------------------------

  Move average                : 176.10 / 88.050
  White advantage             : 35.93  +/- 0.98
  Draw rate (equal opponents) : 48.90% +/- 0.21
 
  Games        :   77.000 (finished)
  White Wins   :   26.492 (34.4%)
  Black Wins   :   20.112 (26.1%)
  Draws        :   30.396 (39.5%)
  Unfinished   :       0

  White Perf.  :  54.1%
  Black Perf.  :  45.9%

  ECO A        =  15.192 games (19.7%)
  ECO B        =  17.776 games (23.1%)
  ECO C        =  15.324 games (19.9%)
  ECO D        =  15.101 games (19.6%)
  ECO E        =  13.607 games (17.7%)

Viele Grüße
Frank (müde und schachmüde)

By Frank Quisinsky Date 2016-04-30 02:47

Hi,

interessant wäre z. B. die Frage ...
Nun welche der beiden Listen ist interessanter ...

Liste 1 mit vielen Partien, geringerer ErrorBar aber viele doppelten Gegner ...
Oder die Liste 2 jeder gegen jeden ... absolute Chancengleicheit für alle Teilnehmer, keine doppelten Gegner!

Vergleichen wir die Ausgaben in Elo, so stellen wir nicht wirklich sehr große Unterschiede fest.
Das würde für Liste 1 sprechen.

Sehen wir mal von den derivativen Engines ab oder auch von denen die Probleme bereiten (habe Minko und Frenzee) rausgenommen, ferner von den privaten Engines (halte nichts vom offiziellen Testen privater Engines) so gibt es auch nichts was jetzt fehlt unter den TOP-56 .... einzig die neue Engine Laser würde ins Raster passen und wird bald getestet.

Bei den bevorstehenden Statistiken überlege ich noch Tornado, TheBaron und Scorpio herauszunehmen. Die verlieren zu schnell zu viele Partien und verwischen die Statistiken nach den Eröffnungszügen. Muss mir da noch was einfallen lassen um genaue Statistiken zu erstellen.

Gruß
Frank

By Frank Quisinsky Date 2016-05-01 00:34 Edited 2016-05-01 00:44

Hallo zusammen,

habe nun ganz andere Möglichkeiten die bisherigen Züge Statistiken darzustellen.

1. Miguel hat ein paar Dinge in Ordo geändert, durch die ich mir viel Zeit spare.
2. Die Datenbank "Jeder gegen Jeden" ist ja jetzt komplett und das sind schier unbegrenzte Möglichkeiten für Auswertungen.

Wie beschrieben sind die Züge-Stats wichtig um etwas hinsichtlich Spielstile schnell und einfach zu erfahren.

Vorher hatte ich je 1.000 Partien von meinem drei Liga System unterteilt in drei Statistiken. Das waren wenige Partien, zwar ganz nett aber nicht gut genug bzw. nicht immer so einfach aus den Zahlen zu lesen.

Nun kann ich 2.550 Partien in vier Statistiken unterteilen und auch "fast" alle Engines einpicken.
Herausnehmen musste ich aus der Statistik die Engines: Scorpio, Tornado, GnuChess und TheBaron.
Diese Engine verfälschen ein wenig weil zu viele Partien schnell verloren werden. Das wirkt sich dann auf alle anderen beeinflussend aus (gerade bei den schnellen Gewinnpartien).

Verbleiben aber immer noch 52 Engines mit wie beschrieben 2.550 Partien.

Aufgeteilt in:
20-59 Züge ... oder frühes Mittelspiel ... verhalten nach den Buchzügen
60-79 Züge ... spätes Mittelspiel
80-99 Züge ... Übergang ins Endspiel
100-299 Züge ... und das Endspiel

Die Stats werden möglich weil ich ohne Aufgabefaktor spielen lasse!
Der Grund warum ich von einem Aufgabefaktor bei einer Ratingliste nichts halte denn ich kann mit der Partiedatenbank nichts anfangen.
Selbst ist der Mann ... besser machen.

Neu ist also die Unterteilung zwischen spätes Mittelspiel und Übergang Endspiel.
Das sind die Partiephasen wo die meisten Partien entschieden werden (siehe Elo Reichweite in den Auswertungen ... und vergleiche mit Reichweite in den anderen beiden Partiephasen). Im Endspiel sind die Engines deutlich näher zusammen, wie auch in der Eröffnungsphase.

Viele interessieren sich ja für die Unterschiede zwischen Stockfish und Komodo.
Es ist nicht nur der Contempt 0 bei Stockfish, welches im direkten Vergleich gegen viele Gegner für ein schwächeres Rating führt.

Neu für mich ist auch das Komodo ja deutlich stärker in der Partiephase 60-79 Züge ist und das hat nichts mit Contempt zu tun.
Insofern bin ich doppelt neugierig ob sich das ändern wird wenn der laufende Testdurchlauf der aktuellen Stockfish dev. Version beendet ist.

Im Grunde ist das also der maßgebliche Unterschied zwischen den beiden Engines. Komodo spielt hier deutlich aggressiver.

Also ...
Deutlich bessere Auswertungen nun zu der Idee mit der Unterteilung ... Ratings in Partiephase.
Kann direkt über mein Menüsystem auf meinen Seiten aufgerufen werden ...
Und das schöne ist ... diese Stats sind easy einfach zu erstellen ...
Zukünftig wird also ziemlich klar wo genau ein Engine Update nach einem Test-run die Elos gewonnen oder verloren hat.
So liebe ich das ...

Wer sich dafür interessiert kann das sich ja mal ansehen.

Als nächstes muss ich mal prüfen ob sich meine Spielstilbeschreibungen ändern.
Eigentlich sollten diese sehr genau sein (OK, hier und da sicherlich subjektiv weil schwierig und Bauchgefühl grüßen lässt), weil entstanden in den letzten 2 Jahren aufgrund unzähliger anderer Statistik Auswertungen.

Viele Grüße
Frank

By Frank Quisinsky Date 2016-05-01 01:15 Edited 2016-05-01 01:18

Auch immer wieder schön zu sehen ...
Mit welchen Tricks der Houdini Programmierer gearbeitet hat.
Extrem Contempt bei tpyischen IPP style (engine spielt sehr passiv in der Eröffnungsphase, eher langweilig für die hohe Spielstärke).

11 Engines haben mehr schnelle Gewinnpartien, Partien werden regelrecht ins Endspiel getragen ... siehe dann dort die Remis-Statistik ... wie viele Spiele da in die Statistik eingeflossen sind. Das sorgt für einen extrem hohen Zügedurchschnitt bei Houdini der ca. 15 Züge höher ist als bei Stockfish und Komodo ohne Aufgabefaktor. Dennoch scheinen das ja Leute gerne zu sehen, meine die Houdinischen Endspielschleifen die eigentlich für die Engine berühmt und berüchtigt sind. Nur zu gerne wird der Engine nachgesagt sie sei taktisch gut ... möchte mal wissen aus welcher Statistik das hervor gehen soll. Ja ist Houdini aber erst im späten Mittelspiel wie alle anderen mit höherer Spielstärke auch ... denn genau hier holen die Monster Engine die Punkte und setzen sich ab ... Elo-Reichweite zwischen den Partiephasen.

DiscoCheck arbeitet hier vergleichbar.
Auch hier der extrem Contempt zu sehen anhand der Stats.

Etc..
Eigentlich nach längerem stupsidieren ... noch ein Stubbi ... dieser Stats wenig neues. Aber halt aufgrund mehr Gegner und mehr Partien deutlich besser.

By Clemens Keck Date 2016-05-01 10:18 Upvotes 1

vielen Dank Frank für Deine Arbeit.

Wie Du die ganzen Informationen generierst finde ich bewundernswert.
Auch die Darstellung gefällt mir sehr gut.
Immerhin hast Du Dir ja ein Ziel gesetzt, und somit lassen sich letzte Kräfte mobilisieren.
Es ist natürlich unbefriedigend mit einer Liste aufzuhören, da die Engine-Entwicklung ein analoges Gebilde ist was sich ständig verändert.
Das stetige Dokumentieren dieser Veränderungen macht ja die Liste erst aus.
Aber so als Einzelkämpfer hätte ich schnell die Nase voll , eigentlich müsste das ein Berufsbild sein, so mit 8 Stunden am Tag bei guter Bezahlung und Urlaub

beste Grüße, und danke nochmals

Clemens Keck

By Peter Martan Date 2016-05-01 10:25

Clemens Keck schrieb:

Aber so als Einzelkämpfer hätte ich schnell die Nase voll , eigentlich müsste das ein Berufsbild sein, so mit 8 Stunden am Tag bei guter Bezahlung und Urlaub

beste Grüße, und danke nochmals

Schließe mich vollinhaltlich an, danke auch, Frank.

By Frank Quisinsky Date 2016-05-01 11:26

Hallo Peter,

hoffe das der eine oder andere dann noch ein paar Infos finden werden.
Die anderen machen hier ja auch einen guten Job.

Aber ich denke die Kombination von vielen Arbeiten zusammen bringen uns mehr Erkenntnisse.

Gruß
Frank

By Clemens Keck Date 2016-05-01 10:27

Ha !! Jetzt mach ich's mal wie Du

post gleich auf mein posting
weil was vergessen:

Das mit dem Contempt beschäftigt mich seit einiger Zeit.
Das ist so das erste legale Schummel-tool.
Ich weis nicht was ich davon halten soll.
Komodo spielt mit contempt 10 alles in Grund und Boden.
Gegen Stockfish ist contempt 10 aber erwiesenermaßen nachteilig.
Contempt 0 ist da viel stärker. Siehe TCEC season 8 Finale.

Ich glaube übrigens nicht, das sich Stockfish und Komodo gleich verhalten, bei gleichem contempt.
Und zwar grundsätzlich, unabhängig von der Gegnerschaft.

Wenn schon am contempt rumgespielt wird, dann sollte es 2 testreihen geben.
Eine default settings, und eine EXP settings.

so, jetzt Kaffee

Gruß Clemens

Clemens Keck schrieb:

beste Grüße, und danke nochmals

Clemens Keck

By Frank Quisinsky Date 2016-05-01 11:31 Edited 2016-05-01 11:45

Hallo Clemens,

schaue mal auf die laufenden Stockfish 24April2016 BMI2 x64 Contemp = 10 Ergebnisse.
Stockfish schiebt nicht minder alles zusammen bei gleich niedrigem Zügedurchschnitt von 81-82 Zügen (den hat auch Komodo 9.42).

Wahrscheinlich haben wir in 5 Tagen eine neue Nummer 1 in meiner Liste.

Sage mal so ...
Die TOP-3 ...

Houdini hat einen Extrem Contempt.
Komodo 9.42 kommt mit Cóntempt = 10.
Aus der Reihe fällt SF mit Contempt = 0.

Vergleichbarer wird es wenn alle mit Contempt = 0 spielen (sorgt aber für ein geringes Rating bei vielen Gegner) oder alle mit Contempt = 10.
Wobei Contempt ja auch nur wirklich bei den extrem starken Engines ins Gewicht fällt.

Besipiel:
Hakkapeliitta TCEC v2 hat auch ein Contempt Setting.
Bei der Endspielschwäche dieser Engine wird bei Contempt = 10 der Schuss eher nach hinten los gehen.

Viele Grüße
Frank

Und ja ... ist offenbar erwiesen.
Spielt z. B. Stockfish - Komodo ... beide mit Contempt = 0 ist das interessanter.
Nicht zuletzt weil der Zügedurchschnitt bei Partien ohne Aufgabefaktor um 4 Züge nach unten geht ... hatte ich kürzlich auf einem anderen System getestet.
Auch bei mir hat Stockfish ohne Contempt gegen Komodo ohne Contempt mehr Probleme als beide mit Contempt 10. Allerdigns glaube ich das Stockfish mit Contempt 10 noch erfolgreicher im Vergleich zu Contempt 0 spielen wird als Komodo bei vielen Gegnern. Schaut derzeit danach aus ... das Rating geht höher und höher im laufenden Test-Run ... die erreichte Prozentzahl hat nun fast die von Komodo 9.42 erreicht und steigt langsam aber sicher weiter an.

Um das zu justieren ....
Komodo behält im Standardsetting Contempt = 10
Stockfish erhält das Setting Contempt = 7 (wäre eigentlich korrekter)

Dann wären beide gleich wenn ich das anhand von dem produzierten Zügedurchschnitt errechne bei ca. gleicher Elo die beide erreichen.
Spielerei ...

Fest steht ...
In einer Liste mit vielen Engines erreichen beide Engines mit Contempt ca. eine höhere Elo von ca. 8.5 - 12.5 Punkte.

By Frank Quisinsky Date 2016-05-01 12:50

Hallo Clemens,

die 88.1% Ausbeute die Komodo 9.42 x64 erzielte sind schon überschritten ...
Und SF hat noch 7 zu 0 Ergebnisse nach 12-13 Runden.

Wenn ich das mal hochrechne bzw. mit anderen Test-Runs vergleiche (Stand nach 12-13 Runden ... da geht es immer beständig noch nach oben) geht es auf über 89.0% ...
Das wäre ja gar deutlich vor Komodo 9.42 ...

Im Grunde bleiben immer so nach ca. 35 der 50 Runden die Ergebnisse dann beständig. Gehen die Elo's zu weit auseinander dauert alles ein wenig länger bis etwas brauchbares / messbares dabei herauskommt. Engines die in der Mitte liegen sind im Grunde meist schon nach 400-600 Partien stabil.

Dieser Test-Run ist definitiv spannend!

Gruß
Frank

By Frank Quisinsky Date 2016-05-01 13:35

Das ist zur Zeit wirklich der Platz 1 und die Tendenz ist ... es geht viel höher!
Interessant wird der Vergleich bei der Remisquote im Verhältnis zu den Verlustpartien ... wenn mal alles beendet ist.
Kann mir nicht vorstellen das Stockfish bei mehr Partien dann wieder hinter Komodo liegt ... zu eindeutig wie sich der Test-Run entwickelt.

Code:

  FCP Rating List (during a LIVE Test-Run)
  ----------------------------------------

  Date           : May 01st, 2016 (13:15)
  Games          : 74.965
  Version        : 4.09 Beta 1
  Conditions     : http://www.amateurschach.de/main/_conditions.htm

  Generated with : Ordo 1.2.6 x64 (Ratings for chess and other games)
  https://sites.google.com/site/gaviotachessengine/ordo
  by Miguel A. Ballicora (Argentina)
  
      
  **********************************************
  Still running after round 13/50   = 26%
  Stockfish 24Apr2016 BMI2 x64 C10  = +34.39 Elo

   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
  ----------------------------------------------------------------------------------------------------------------------------
   1 Stockfish 24Apr2016 BMI2 x64     :  3200.86    715    88.3   552   158     5   631.0   22.1  28.77  2809.34  10.37   55.0
   2 Stockfish 7 KP BMI2 x64          :  3166.47   2750    86.3  2017   714    19  2374.0   26.0  14.29  2808.34  10.27   55.0
  ****************************************************************************************************************************

   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
  ----------------------------------------------------------------------------------------------------------------------------
   1 Stockfish 24Apr2016 BMI2 x64     :  3200.86    715    88.3   552   158     5   631.0   22.1  28.77  2809.34  10.37   55.0
   2 Komodo 9.42 x64                  :  3196.43   2713    88.5  2119   565    29  2401.5   20.8  14.95  2804.08  10.37   54.6
   3 Houdini 4 STD B x64              :  3099.69   2713    82.0  1846   757   110  2224.5   27.9  13.01  2805.86  10.41   54.6
   4 GullChess 3.0 BMI2 x64           :  3045.40   2713    77.4  1633   932   148  2099.0   34.4  11.68  2806.86  10.43   54.6
   5 Fire 4 x64                       :  3043.56   2713    77.2  1624   941   148  2094.5   34.7  11.80  2806.90  10.43   54.6
   6 Equinox 3.30 x64                 :  3001.95   2713    73.2  1456  1058   199  1985.0   39.0  10.55  2807.66  10.45   54.6
   7 Fritz 15 x64                     :  2997.59   2713    72.7  1455  1036   222  1973.0   38.2  11.01  2807.74  10.44   54.6
   8 Critter 1.6a x64                 :  2992.95   2713    72.2  1427  1066   220  1960.0   39.3  10.88  2807.83  10.45   54.6
   9 Protector 1.9.0 x64              :  2954.64   2713    68.1  1283  1130   300  1848.0   41.7  10.66  2808.53  10.45   54.6
  10 Andscacs 0.85 POP x64            :  2950.06   2713    67.6  1297  1074   342  1834.0   39.6  10.47  2808.62  10.45   54.6
  11 Nirvanachess 2.2 POP x64         :  2939.17   2713    66.4  1232  1137   344  1800.5   41.9  10.57  2808.82  10.45   54.6
  12 iCE 3.0 v658 POP x64             :  2927.88   2713    65.1  1218  1094   401  1765.0   40.3  10.58  2809.03  10.45   54.6
  13 Chiron 2.0 x64                   :  2915.18   2713    63.6  1186  1077   450  1724.5   39.7  10.29  2809.26  10.46   54.6
  14 Hannibal 1.5 x64                 :  2912.41   2713    63.2  1149  1133   431  1715.5   41.8  10.42  2809.31  10.46   54.6
  15 Texel 1.05 x64                   :  2909.31   2713    62.9  1141  1129   443  1705.5   41.6   9.98  2809.37  10.46   54.6
  16 Naum 4.6 x64                     :  2890.00   2713    60.5  1043  1198   472  1642.0   44.2  10.33  2809.73  10.46   54.6
  17 SmarThink 1.80 AVX x64           :  2846.35   2713    55.1   943  1102   668  1494.0   40.6   9.72  2810.53  10.47   54.6
  18 Fizbo 1.6 x64                    :  2845.63   2713    55.0   861  1261   591  1491.5   46.5  10.01  2810.54  10.46   54.6
  19 Senpai 1.0 SSE42 x64             :  2843.16   2713    54.7   893  1180   640  1483.0   43.5   9.99  2810.59  10.46   54.6
  20 Hakkapeliitta 3.0 x64            :  2836.38   2713    53.8   915  1089   709  1459.5   40.1   9.98  2810.71  10.46   54.6
  ----------------------------------------------------------------------------------------------------------------------------
  21 Hiarcs 14 WCSC w32               :  2830.76   2713    53.1   867  1146   700  1440.0   42.2   9.85  2810.82  10.47   54.6
  22 Sjeng c't 2010 w32               :  2807.27   2713    50.1   804  1108   801  1358.0   40.8   9.85  2811.25  10.47   54.6
  23 Vajolet2 2.1 POP x64             :  2800.41   2713    49.2   735  1198   780  1334.0   44.2   9.93  2811.38  10.46   54.6
  24 Cheng 4.39 x64                   :  2799.70   2713    49.1   757  1149   807  1331.5   42.4   9.72  2811.39  10.47   54.6
  25 Shredder 12 x64                  :  2797.55   2713    48.8   724  1200   789  1324.0   44.2   9.52  2811.43  10.47   54.6
  26 Junior 13.3.00 x64               :  2794.39   2713    48.4   757  1112   844  1313.0   41.0   9.64  2811.49  10.47   54.6
  27 Spike 1.4 Leiden w32             :  2784.58   2713    47.1   712  1133   868  1278.5   41.8   9.66  2811.67  10.47   54.6
  28 DiscoCheck 5.2.1 x64             :  2782.43   2713    46.8   733  1076   904  1271.0   39.7  10.21  2811.71  10.46   54.6
  29 Quazar 0.4 x64                   :  2775.70   2713    46.0   653  1189   871  1247.5   43.8  10.21  2811.83  10.46   54.6
  30 Booot 5.2.0 x64                  :  2772.02   2713    45.5   687  1095   931  1234.5   40.4   9.83  2811.90  10.47   54.6
  31 Deuterium 14.3.34.130 POP x64    :  2762.95   2713    44.3   591  1224   898  1203.0   45.1  10.20  2812.07  10.46   54.6
  32 Arasan 18.3 POP x64              :  2758.21   2713    43.7   594  1185   934  1186.5   43.7   9.83  2812.15  10.47   54.6
  33 Zappa Mexico II x64              :  2753.45   2713    43.1   572  1196   945  1170.0   44.1  10.33  2812.24  10.46   54.6
  34 Spark 1.0 x64                    :  2752.45   2713    43.0   586  1161   966  1166.5   42.8   9.50  2812.26  10.47   54.6
  35 Doch 1.3.4 JA x64                :  2749.12   2713    42.6   567  1176   970  1155.0   43.3   9.75  2812.32  10.47   54.6
  36 Thinker 5.4d Inert x64           :  2743.63   2713    41.9   558  1156   999  1136.0   42.6  10.05  2812.42  10.46   54.6
  37 TogaII 280513 Intel w32          :  2736.35   2713    41.0   570  1082  1061  1111.0   39.9  10.25  2812.56  10.46   54.6
  38 Tornado 5.0 SSE4 x64             :  2730.96   2713    40.3   569  1047  1097  1092.5   38.6   9.99  2812.66  10.46   54.6
  39 Crafty 25.0.1 JA POP x64         :  2730.81   2713    40.3   543  1098  1072  1092.0   40.5  10.33  2812.66  10.46   54.6
  ----------------------------------------------------------------------------------------------------------------------------
  40 Atlas 3.80 x64                   :  2729.93   2713    40.1   546  1086  1081  1089.0   40.0   9.95  2812.68  10.46   54.6
  41 Gaviota 1.0 AVX x64              :  2729.05   2713    40.0   551  1070  1092  1086.0   39.4   9.72  2812.69  10.47   54.6
  42 EXchess 7.88b x64                :  2728.64   2713    40.0   553  1063  1097  1084.5   39.2  10.15  2812.70  10.46   54.6
  43 Dirty 03NOV2015 POP x64          :  2726.58   2713    39.7   530  1095  1088  1077.5   40.4  10.00  2812.74  10.46   54.6
  44 Nemo 1.01 Beta POP x64           :  2712.47   2713    38.0   485  1090  1138  1030.0   40.2   9.89  2813.00  10.47   54.6
  45 Bobcat 7.1 x64                   :  2709.69   2713    37.6   477  1087  1149  1020.5   40.1  10.25  2813.05  10.46   54.6
  46 Murka 3 x64                      :  2707.61   2713    37.4   430  1167  1116  1013.5   43.0  10.21  2813.09  10.46   54.6
  47 Pedone 1.2 BMI2 x64              :  2700.85   2713    36.5   426  1130  1157   991.0   41.7  10.00  2813.21  10.46   54.6
  48 Rodent II 0.8.7 x64              :  2686.73   2713    34.8   432  1025  1256   944.5   37.8  10.09  2813.47  10.46   54.6
  49 DisasterArea 1.54 x64            :  2685.65   2713    34.7   371  1140  1202   941.0   42.0  10.24  2813.49  10.46   54.6
  50 GNU Chess5 5.60 x64              :  2677.02   2713    33.7   388  1050  1275   913.0   38.7  10.38  2813.65  10.46   54.6
  51 Scorpio 2.77 JA POP x64          :  2673.90   2713    33.3   415   976  1322   903.0   36.0  10.59  2813.71  10.45   54.6
  52 Glaurung 2.2 JA x64              :  2662.45   2713    31.9   340  1053  1320   866.5   38.8  10.42  2813.92  10.46   54.6
  53 Rhetoric 1.4.3 POP x64           :  2656.15   2713    31.2   346  1002  1365   847.0   36.9  10.48  2814.04  10.45   54.6
  54 The Baron 3.29 x64               :  2651.52   2713    30.7   368   929  1416   832.5   34.2  10.98  2814.12  10.44   54.6
  55 Octochess r5190 SSE4 x64         :  2643.20   2713    29.7   316   982  1415   807.0   36.2  10.77  2814.27  10.45   54.6
  56 BugChess2 1.9 POP x64            :  2621.58   2713    27.4   299   887  1527   742.5   32.7  10.60  2814.67  10.45   54.6
  ----------------------------------------------------------------------------------------------------------------------------

  White advantage = 35.64 +/- 0.99
  Draw rate (equal opponents) = 48.75 % +/- 0.21

By Frank Quisinsky Date 2016-05-04 10:53 Edited 2016-05-04 10:57

Hallo zusammen,

tja, hat sich bislang noch nicht bewahrheitet das Stockfish dev. an Komodo vorbei zieht.
Die Verlustpartien vergleichbar gering wie bei Stockfish 7 und die Remisquote zwar höher als anfangs aber immer doch deutlich niedriger als bei SF 7. Im Grunde habe ich das auf meinen anderen Systemen ausgetestet. Contempt = 10 macht ca. 8.5-12.5 Elo aus. Der Rest der Verbesserungen dann zurückzuführen auf die eingepflegten Verbesserungen. Vielleicht ist SF mit Contempt 6 etwas besser ... nach meinem Test ist Contempt 7 eigentlich optimal (wenn ich das gegenüberstelle mit Zügedurchschnitt ohne Aufgabefaktor). Egal, wollte ein Vergleich, beide mit Contempt = 10.

Glaube jetzt nach 76% ist es auch unwahrscheinlich das es bei mir eine neue Nummer 1 gibt.

Es ist einfach die Partiephase zwischen Zug Nummer 60-79 wo denn Komodo überlegen scheint. Werden es weniger Züge wird dann Stockfish wieder leicht stärker (kann später aus meiner Statistik gesehen herausgepflückt werden).

Diese Statistiken kann ich jetzt auch stark verbessern. Vorher drei Partiephasen nach meinem Liga System mit 1.000 Partien ausgewertet, nun 4 Partiephasen mit 2.750 Partien bei Wegfall des Drei-Liga Systems (war mir auch zu viel Arbeit und war unnütz). Grundsätzlich ändert sich hier wenig (Spielstile waren schon vorher sehr genau) und ich glaube kaum das ich viel an den Spielstil Beschreibungen ändern muss (muss ich noch updaten) aber alles wird deutlicher und genauer. So soll es sein, macht die Arbeit auch Sinn.

Zukünftig also nach jedem Test-Run die Züge Stats ...
Zu finden in meiner Rubrik: Test-Run res. / Comparsion
Derzeit nur ein kleiner Ausblick wie ich es zukünftig darstelle ... Stockfish ist ja noch nicht durch.

So haben wir Anhaltspunkt wo genau denn der Programmierer bei seinen Verbesserungen angesetzt hat bzw. welche Auswirkungen die Verbesserungen zwischen den Versionsnummer haben. Auch nur ein Anhaltspunkt aber ne nette Sache in Ergänzung zu den Beschreibungen und Erwartungen der Programmierer selbst.

Weiterhin viel Spaß beim Kampf um die Plätze.
Ob mit meiner Liste oder ohne ... egal.

Gruß
Frank

Code:

  FCP Rating List (during a LIVE Test-Run)
  ----------------------------------------

  Date           : May 04th, 2016 (10:15)
  Games          : 76.285
  Version        : 4.09 Beta 3
  Conditions     : http://www.amateurschach.de/main/_conditions.htm

  Generated with : Ordo 1.2.6 x64 (Ratings for chess and other games)
  https://sites.google.com/site/gaviotachessengine/ordo
  by Miguel A. Ballicora (Argentina)
  
      
  **********************************************
  Still running after round 37/50   = 74%
  Stockfish 24Apr2016 BMI2 x64 C10  = +21.77 Elo

   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
  ----------------------------------------------------------------------------------------------------------------------------
   2 Stockfish 24Apr2016 BMI2 x64     :  3188.24   2035    87.6  1544   476    15  1782.0   23.4  16.71  2808.97  10.32   55.0
   2 Stockfish 7 KP BMI2 x64          :  3166.47   2750    86.3  2017   714    19  2374.0   26.0  14.29  2808.34  10.27   55.0
  ****************************************************************************************************************************

   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
  ----------------------------------------------------------------------------------------------------------------------------
   1 Komodo 9.42 x64                  :  3194.79   2737    88.1  2120   584    33  2412.0   21.3  14.97  2807.05  10.32   55.0
   2 Stockfish 24Apr2016 BMI2 x64     :  3188.24   2035    87.6  1544   476    15  1782.0   23.4  16.71  2808.97  10.32   55.0
   3 Houdini 4 STD B x64              :  3099.21   2737    81.6  1848   771   118  2233.5   28.2  12.20  2808.79  10.37   55.0
   4 Fire 4 x64                       :  3044.19   2737    76.9  1625   959   153  2104.5   35.0  11.54  2809.80  10.39   55.0
   5 GullChess 3.0 BMI2 x64           :  3044.02   2737    76.9  1633   942   162  2104.0   34.4  12.04  2809.80  10.38   55.0
   6 Equinox 3.30 x64                 :  3001.47   2737    72.7  1457  1068   212  1991.0   39.0  10.85  2810.58  10.40   55.0
   7 Fritz 15 x64                     :  2997.15   2737    72.3  1455  1048   234  1979.0   38.3  11.11  2810.66  10.39   55.0
   8 Critter 1.6a x64                 :  2992.38   2737    71.8  1428  1075   234  1965.5   39.3  10.93  2810.75  10.40   55.0
   9 Protector 1.9.0 x64              :  2954.07   2737    67.7  1284  1137   316  1852.5   41.5  10.79  2811.45  10.40   55.0
  10 Andscacs 0.85 POP x64            :  2949.36   2737    67.2  1297  1082   358  1838.0   39.5  10.01  2811.53  10.42   55.0
  11 Nirvanachess 2.2 POP x64         :  2939.04   2737    66.0  1232  1148   357  1806.0   41.9  10.30  2811.72  10.41   55.0
  12 iCE 3.0 v658 POP x64             :  2927.03   2737    64.6  1218  1100   419  1768.0   40.2  10.70  2811.94  10.40   55.0
  13 Chiron 2.0 x64                   :  2915.35   2737    63.2  1186  1089   462  1730.5   39.8  10.31  2812.15  10.41   55.0
  14 Hannibal 1.5 x64                 :  2912.44   2737    62.9  1149  1144   444  1721.0   41.8  10.07  2812.21  10.41   55.0
  15 Texel 1.05 x64                   :  2909.35   2737    62.5  1141  1140   456  1711.0   41.7  10.12  2812.26  10.41   55.0
  16 Naum 4.6 x64                     :  2890.00   2737    60.2  1043  1208   486  1647.0   44.1  10.24  2812.62  10.41   55.0
  17 Fizbo 1.6 x64                    :  2845.84   2737    54.7   861  1271   605  1496.5   46.4   9.83  2813.42  10.42   55.0
  18 SmarThink 1.80 AVX x64           :  2845.68   2737    54.7   943  1106   688  1496.0   40.4   9.70  2813.43  10.42   55.0
  19 Senpai 1.0 SSE42 x64             :  2842.65   2737    54.3   893  1185   659  1485.5   43.3   9.90  2813.48  10.42   55.0
  20 Hakkapeliitta 3.0 x64            :  2835.47   2737    53.4   915  1091   731  1460.5   39.9  10.30  2813.61  10.41   55.0
  ----------------------------------------------------------------------------------------------------------------------------
  21 Hiarcs 14 WCSC w32               :  2830.44   2737    52.7   867  1152   718  1443.0   42.1   9.79  2813.70  10.42   55.0
  22 Sjeng c't 2010 w32               :  2807.19   2737    49.7   804  1115   818  1361.5   40.7   9.52  2814.13  10.42   55.0
  23 Vajolet2 2.1 POP x64             :  2800.49   2737    48.9   735  1206   796  1338.0   44.1   9.72  2814.25  10.42   55.0
  24 Cheng 4.39 x64                   :  2799.36   2737    48.7   757  1154   826  1334.0   42.2   9.63  2814.27  10.42   55.0
  25 Shredder 12 x64                  :  2797.51   2737    48.5   724  1207   806  1327.5   44.1   9.87  2814.31  10.42   55.0
  26 Junior 13.3.00 x64               :  2793.65   2737    48.0   758  1112   867  1314.0   40.6   9.80  2814.38  10.42   55.0
  27 Spike 1.4 Leiden w32             :  2784.44   2737    46.8   712  1139   886  1281.5   41.6   9.89  2814.54  10.42   55.0
  28 DiscoCheck 5.2.1 x64             :  2782.01   2737    46.5   733  1080   924  1273.0   39.5  10.24  2814.59  10.41   55.0
  29 Quazar 0.4 x64                   :  2775.01   2737    45.6   653  1191   893  1248.5   43.5   9.74  2814.72  10.42   55.0
  30 Booot 5.2.0 x64                  :  2772.06   2737    45.2   687  1102   948  1238.0   40.3  10.02  2814.77  10.41   55.0
  31 Deuterium 14.3.34.130 POP x64    :  2762.87   2737    44.1   591  1230   916  1206.0   44.9   9.91  2814.94  10.42   55.0
  32 Arasan 18.3 POP x64              :  2758.30   2737    43.5   595  1190   952  1190.0   43.5   9.87  2815.02  10.42   55.0
  33 Zappa Mexico II x64              :  2752.83   2737    42.8   572  1198   967  1171.0   43.8   9.89  2815.12  10.42   55.0
  34 Spark 1.0 x64                    :  2751.97   2737    42.7   586  1164   987  1168.0   42.5  10.14  2815.14  10.41   55.0
  35 Doch 1.3.4 JA x64                :  2748.94   2737    42.3   567  1181   989  1157.5   43.1  10.12  2815.19  10.41   55.0
  36 Thinker 5.4d Inert x64           :  2743.18   2737    41.6   558  1159  1020  1137.5   42.3   9.75  2815.30  10.42   55.0
  37 TogaII 280513 Intel w32          :  2735.92   2737    40.6   570  1085  1082  1112.5   39.6  10.11  2815.43  10.41   55.0
  38 Crafty 25.0.1 JA POP x64         :  2730.69   2737    40.0   544  1101  1092  1094.5   40.2  10.22  2815.53  10.41   55.0
  39 Tornado 5.0 SSE4 x64             :  2730.39   2737    40.0   569  1049  1119  1093.5   38.3  10.05  2815.53  10.41   55.0
  40 Atlas 3.80 x64                   :  2729.66   2737    39.9   546  1090  1101  1091.0   39.8   9.87  2815.55  10.42   55.0
  ----------------------------------------------------------------------------------------------------------------------------
  41 Gaviota 1.0 AVX x64              :  2728.64   2737    39.7   551  1073  1113  1087.5   39.2   9.82  2815.56  10.42   55.0
  42 EXchess 7.88b x64                :  2728.08   2737    39.7   553  1065  1119  1085.5   38.9   9.94  2815.57  10.42   55.0
  43 Dirty 03NOV2015 POP x64          :  2726.32   2737    39.4   530  1099  1108  1079.5   40.2  10.16  2815.61  10.41   55.0
  44 Nemo 1.01 Beta POP x64           :  2712.24   2737    37.7   485  1094  1158  1032.0   40.0   9.91  2815.86  10.42   55.0
  45 Bobcat 7.1 x64                   :  2709.47   2737    37.4   477  1091  1169  1022.5   39.9   9.70  2815.91  10.42   55.0
  46 Murka 3 x64                      :  2707.40   2737    37.1   430  1171  1136  1015.5   42.8  10.53  2815.95  10.41   55.0
  47 Pedone 1.2 BMI2 x64              :  2700.20   2737    36.2   426  1131  1180   991.5   41.3   9.97  2816.08  10.42   55.0
  48 Rodent II 0.8.7 x64              :  2686.57   2737    34.6   432  1029  1276   946.5   37.6  10.33  2816.33  10.41   55.0
  49 DisasterArea 1.54 x64            :  2685.19   2737    34.4   371  1142  1224   942.0   41.7  10.13  2816.36  10.41   55.0
  50 GNU Chess5 5.60 x64              :  2676.41   2737    33.4   388  1051  1298   913.5   38.4  10.24  2816.52  10.41   55.0
  51 Scorpio 2.77 JA POP x64          :  2673.30   2737    33.0   415   977  1345   903.5   35.7  10.67  2816.58  10.40   55.0
  52 Glaurung 2.2 JA x64              :  2662.03   2737    31.7   340  1055  1342   867.5   38.5  10.48  2816.78  10.41   55.0
  53 Rhetoric 1.4.3 POP x64           :  2655.90   2737    31.0   346  1005  1386   848.5   36.7  10.21  2816.89  10.41   55.0
  54 The Baron 3.29 x64               :  2651.12   2737    30.5   368   931  1438   833.5   34.0  10.37  2816.98  10.41   55.0
  55 Octochess r5190 SSE4 x64         :  2642.82   2737    29.5   316   984  1437   808.0   36.0  10.37  2817.13  10.41   55.0
  56 BugChess2 1.9 POP x64            :  2621.24   2737    27.2   299   889  1549   743.5   32.5  10.86  2817.53  10.40   55.0
  ----------------------------------------------------------------------------------------------------------------------------

  White advantage = 35.88 +/- 0.99
  Draw rate (equal opponents) = 48.85 % +/- 0.22

By Frank Quisinsky Date 2016-05-06 02:55

Hallo zusammen,

die Endresultate finden sich dann wie üblich auf meinen Webseiten.

Hier noch der "neue" Vergleich der beiden getesteten Stockfish Versionen:

Code:

C O M P A R S I O N

Final results
-------------

   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
  ----------------------------------------------------------------------------------------------------------------------------
   2 Stockfish 24Apr2016 BMI2 x64 C10 :  3188.30   2750    87.6  2084   648    18  2408.0   23.6  14.49  2809.13  10.26   55.0
   2 Stockfish 7 KP BMI2 x64          :  3166.47   2750    86.3  2017   714    19  2374.0   26.0  14.29  2808.34  10.27   55.0
     

     
Move number 020-059
-------------------
   1 Stockfish 24Apr2016 BMI2 x64 C10 :  3204.41    498    91.2   411    86     1   454.0   17.3  36.70  2772.35  21.60   49.8
   2 Stockfish 7 KP BMI2 x64          :  3064.93    538    80.6   329   209     0   433.5   38.8  22.71  2792.78  21.40   51.3

   
Move number 060-079
-------------------
   2 Stockfish 24Apr2016 BMI2 x64 C10 :  3342.18   1068    94.1   945   120     3  1005.0   11.2  35.30  2775.54  22.12   53.4
   2 Stockfish 7 KP BMI2 x64          :  3308.25   1079    92.9   929   147     3  1002.5   13.6  34.70  2779.92  22.02   53.4
   

Move number 080-099
-------------------
   1 Stockfish 24Apr2016 BMI2 x64 C10 :  3300.88    643    91.4   545    86    12   588.0   13.4  40.03  2821.31  24.36   51.9
   1 Stockfish 7 KP BMI2 x64          :  3281.04    672    91.5   568    94    10   615.0   14.0  37.96  2804.22  24.08   52.4
   
   
Move number 100-299
-------------------
   2 Stockfish 24Apr2016 BMI2 x64 C10 :  2964.09    541    66.7   183   356     2   361.0   65.8  18.53  2835.90  14.61   49.4
   1 Stockfish 7 KP BMI2 x64          :  2989.97    461    70.1   191   264     6   323.0   57.3  20.64  2834.27  14.74   49.6

Diesen Vergleich gibt es dann immer wenn ein Test-Run durch ist.
Hatte das im Thread beschrieben.

Viele Grüße
Frank

By Frank Brenner Date 2016-05-06 04:59

Hallo Frank,

was bedeutet der Elo Wert z.B. bei "Move number 020-059" ?

Grüße
Frank

By Frank Quisinsky Date 2016-05-06 05:29

Hallo Frank,

also, es sind 77.000 Partien in der Datenbank jeder gegen jeden mit 50 Partien bei 1.540 möglichen Paarungen.

Nun werden alle Partien herausselektiert die zwischen:
Zugnummer 21-59, 60-79, 80-99 und 100-299 liegen.

Es werden also 4 Datenbanken erstellt welche diese Partien beinhalten.

- Partien die Remis enden unter 20 Zügen werden wiederholt.
- Shredder GUI bricht ab wenn Partien über 300 Partien.

Diese Partien werden nachgespielt, gespielt wird ohne Aufgabefaktor ... Partien enden also nicht plötzlich, so dass dieses Stats möglich werden.

Soweit so gut ...

Wir haben ...
Zug Nummer 21-59 = 11.105 Partien (nach dem Eröffnungsbuch, frühes Mittelspiel)
Zug Nummer 60-79 = 25.739 Partien (spätes Mittelspiel - Übergang ins Endspiel)
Zug Nummer 80-99 = 19.606 Partien (Übergang ins Endspiel - Endspiel)
Zug Nummer 100-299 = 20.550 Partien (Endspiel)

Bei einem Elo Durchschnitt von 2.816 der kompletten 77.000 Partiedatenbank.

Nun werden einfach 4 Ratinglisten erstellt und das Ergebnis der Vorgängerversion mit dem Ergebnis der aktuell getesteten Version gegenübergestellt.

Einfach:

Vor dem Stockfish Test-Run = 77.000 Partien
die Partien von Stockfish 7 herausgeholt = 77.000 - 2.750 Partien
Basisdatenbank = 74.250 Partien ...

Und während des Test-Runs kommen dann zu den 74.250 Partien die neuen dazu.
So bleibt natürlich nur eine Stockfish Version in der Auswertung bis fertig.

Und am Ende vom Test dann wie beschrieben die Auswertung der Datenbank nach Zugnummern!

---

Das ist meines Erachtens ein netter Anhaltspunkt für die Spielstilbeschreibungen anhand von einer schneller Auswertung. Natürlich passiert es das sich Spiele bis Zugnummer 80 bei vielen Figuren auf dem Brett eigentlich noch im Mittelspiel befinden oder nach der Eröffnung schon nach 30 Zügen ein Endspiel erreicht wird. Aber das passiert ca. nur in 6% der Fälle, so dass dann die Auswertung nach Zugnummer nur zu 6% ungenau ist. Hinzu kommt das auch nur gerade ausreichend Partien (an der Schmerzgrenze) für diese 4 Datenbanken vorliegen. Aber das ist 3x mehr als ich vorher hatte nachdem ich nun die Datenbank "jeder gegen jeden" habe.

Beispiel:
Wir haben 56 Engines ... x4 Bewertungskriterien bei den Spielstilbeschreibungen "b".
56 x 4 = 224 mögliche Bewertungen zu den Spielstilen.

Diese habe ich gestern früh - Vormittag upgedatet und von den 224 Einzelbewertungen musste ich nachdem nun die Datenbank steht "nur" 21 ändern = 9.375%.
Das heißt das meine Spielstilbeschreibungen zwar auch noch subjektive Aussagen enthalten aber ich vorher schon zu knapp über 90% richtig lag.
Bei Zappa total verschossen bei meiner bisherigen Aussage und auch heftig bei 3 Engines im Endspiel daneben gegriffen.

Sprich ...
Das System greift und anhand der 4 ELO-Listen nach Zügezahl (findest Du im Menüsystem meiner Webseiten) wird sehr schön ersichtlich ob Engines Stärken oder Schwächen haben. Dabei sind dann letztendlich die Elo-Ausgaben von nachrangiger Bedeutung. Aber wir können sehen wo die Partien entschieden werden und wie weit die Engines in den einzelnen Partiephasen auseinander liegen. So sehen wir, dass die ELO-Unterschiede im Endspiel verhältnismäßig gering sind und nicht wie ich immer dachte erst im Übergang zum Endspiel weit auseinander gehen sondern schon vorher ... im späten Mittelspiel sind die maßgeblichen Unterschiede zwischen den Engines zu finden.

Zurück zu dem Vergleich:
Beim Vergleich ziehe ich dann aus den vier Listen den Wert "vorher" und "nachher" und stelle diesen gegenüber.

Bei Stockfish sehr schön zu sehen wie der Contempt Faktor greift ... Stockfish ist aggressiver geworden in der Eröffnung ... durch Contempt werden mehr Partien ins Endspiel getragen (wie auch schön bei Houdini zu sehen ist, extrem Contempt).

Habe etwas ausgeholt, sofern andere mitlesen und das System noch nicht so recht verstehen.

Viele Grüße
Frank

By Frank Quisinsky Date 2016-05-06 05:48 Edited 2016-05-06 06:04

Wichtig ...

Nochmal zu den die Spielstilbeschreibungen "b".

Eine Engine wird mit gelb bewertet die 3.000 Elo hat zu Bereich X.
Eine andere Engine wird auch mit gelb bewertet die 2.700 Elo hat zum gleichen Bereich X.

Das ist kein Fehler!!

Die Farben zu den Bewertungen richten sich immer zu den Stärken / Schwächen im Verhältnis zu der eigenen / tatsächlichen Spielstärke.
Gelb bedeutet dann, dass eine Engine, die bei 2.700 liegt, der Spielstärke entsprechend spielt bzw. keine echte Stärke oder Schwäche hat.

Wichtig ist mir also nicht aus einer Ratingliste im Grunde 5 zu erstellen, sondern ich benötige die Ratinglisten zu den Zugnummern ausschließlich für die Spielstilbeschreibungen bzw. um etwas erkennen zu können, damit die subjektiven Eindrücke verschwinden bzw. alles auch etwas mehr Hand- und Fuß bekommt. Ich bin der Meinung, dass Spielstilbeschreibungen das Salz in der Suppe sind und nicht die blanke Elo. Eine Ratingliste die nur aus Elo besteht würde mich selbst nicht zufrieden stellen, weil ich daran einfach nicht erkennen kann wo genau ich die Engine beim Analysieren einsetzen kann. Die Gesamtspielstärke sagt in vielen Einzelfällen wenig aus (siehe Verhalten von Scorpio, Hakkapeliitta, Spark etc. nach Zugnummern).

Und damit alles genau wird wurde das Eröffnungsbuch auf ein sehr hohes Level gebracht. Es werden derzeit knapp über 40.000 spielbare Varianten aus allen 500 ECO Codes ausgespielt, im Verhältnis zur Beliebtheit der Systeme nach GM-Theorie. Ca. 10% der aktuellen GM-Theorie / Fernschach TOP-Spiele ... sind für Computerschach nicht zu gebrauchen weil Engine nicht ausgeglichen genug starten. Und genau das brauche ich auch weil sonst die Spielstile wieder nicht zu ermitteln sind. Würde ich mir Vorgabestellungen arbeiten hätte ich einen winzigen Querschnitt der Theorie und könnte mir die Spielstile sparen ... dafür brauche ich einfach alle Eröffnungssysteme die spielbar sind um möglich genau das darzustellen was ich wissen will und sehen will.

Das ganze System ist also von Anfang an ausgelegt auf ...

- starkes Buch ... damit Stats möglich werden.
- kein Aufgabefaktor ... damit Stats möglich werden.

etc.. und alles wird beständig weiter und weiter optimiert.
Herzstück an meinem System ist also das Buch ... für spätere Testzwecke immer wieder einsatzbar und die Spielstile.
Die Ratings selbst sind nur Mittel zum Zweck, interessieren mich ehrlich gesagt einen Schei... Sack Reis in China.

Also vergewaltige ich Elo um das sehen was ich sehen will ... mittels Elo-Auswertung die Unterschiede zu den Partiephasen darstellen.

Habe noch eine andere Idee aber das dauert um das darzustellen und ich finde erst im nächsten Urlaub die Zeit dafür.
Thema die 6% Ungenauigkeit zwischen den Partiephasen herausfiltern anhand Anzahl der Figuren auf dem Brett (eine alte Idee, die aber genauer ist). Problematisch ist das so zu erstellen das es mit möglich wenig Arbeitsaufwand verbunden ist. Dafür nutze ich dann ein Tool von Ferdinand welches im letzten Jahr erstellt wurde und auch auf meinen Webseiten liegt.

Wenn das mal umgesetzt ist ...
Dann gebe ich mich wahrscheinlich auch endlich selbst mal zufrieden.
Habe ich den Status erreicht, sind Spielstile dann für mich ausgelutscht und ich höre mit der Ratingliste auf, hätte meine Schablonen um das zu wissen was ich wissen will.
Denke Anfang 2018.

Gruß
Frank

By Thomas Müller Date 2016-05-06 10:02 Upvotes 1

Zitat:

Wir haben ...
Zug Nummer 21-59 = 11.105 Partien (nach dem Eröffnungsbuch, frühes Mittelspiel)
Zug Nummer 60-79 = 25.739 Partien (spätes Mittelspiel - Übergang ins Endspiel)
Zug Nummer 80-99 = 19.606 Partien (Übergang ins Endspiel - Endspiel)
Zug Nummer 100-299 = 20.550 Partien (Endspiel)

wie kann man mit festen zugzahlen so eine einteilung machen?!
Es gibt doch bestimmt massig partien die schon im 50. Zug ein endspiel sind.
Wenn nur noch jeweils 2 bauern und evtl. ein turm auf dem brett sind ist es doch schon ein endspiel.
Das ist doch nicht von der zugzahl abhängig, sondern von den figuren oder versteh ich was falsch?!

gruß
thomas

By Frank Quisinsky Date 2016-05-06 11:09

Hallo Thomas,

genau das hatte ich beschrieben (6% Fehlerquote).
Partien gehen nach 30 Zügen ins Endspiel oder sind noch bei 80 Zügen im Mittelspiel.

Grudsätzlich ist Partiephase 1 klar (gespielt wird ja auch bis zum Matt, die Züge bis zum Matt vor der Entscheidung, sind entscheidend ... daher verschleppen sich viele Partien die eigentlich vorher entschieden werden). Gleiches dann bei Partieentscheidungen im späten Mittelspiel ... gedanklich die Züge bis zum Matt trennen.

Nehmen wir jetzt die Züge nach Anzahl der Figuren auf dem Brett ... grundsätzlich eine bessere Alternative mit geringerer Fehlertoleranz als 6%.
Aber auch hier gilt dann ... viele Partien schleppen sich bis zum Matt im Endspiel, wurden schon im Mittelspiel entschieden.

Ganz genau geht es nur mit dem selektieren nach Stellungsbewertung in Kombination mit Figuren auf dem Brett. Dann haben wir das Problem welche Figuren auf dem Brett sind. Sind es zwar viele aber nur Bauern und Türme haben wir schon das Endspiel aber kein Übergang zum Endspiel.

Wie beschrieben gibt ein nettes Tool von Ferdinand mit dem ich das eine oder andere prüfen kann.

Experimentiere schon sehr lange damit.
Filtere Endspiele mit Türmen, filtere Endspiele mit Leichtfiguren oder Damenendspiele, falsche Läufer Endspiele. Erstelle "Noch privat" solche Auswertungen wenn ich die Datenbanken habe. Damit kann ich dann die Spielstilbeschreibungen weiter verfeinern. Aber letztendlich ... egal wie und womit ich experimentiere ... die grundsätzlichen Aussagen die aus den Zügestats ersichtlich werden stimmen grob denn so groß sind die Abweichungen nicht wenn genauer selektiert wird. Klar was über 100 Züge geht ist meist Endspiel, was nach dem Buch bis 59 Zügen entschieden ist ... ist Mittelspiel (Züge bis zum Matt abgezogen). Was danach kommt ist das späte Mittelspiel / Übergang Endspiel und die 6% interessieren nicht wirklich.

Geil wäre wenn ein Programm anhand einer Datenbank auswertet und dann die kleinen Datenbank zu den Partiephasen ausspuckt. Ferdinand hat wie gesagt hier schon angesetzt, hatte das Thema mit ihm vor 2 Jahren in TalkChess diskutiert und er hat uns Tools gefertigt.

Einfacher ist die 6% Fehlertoleranz zu akzeptieren (zumal die Elo die bei den Auswertungen dabei herauskommt nicht entscheidend ist). Entscheidend ist eher die Tendenz zu erkennen ... bleibt ein Schachprogramm in der Mitte, spielt die Partiephase ausgeglichen oder geht es deutlicher nach unten oder oben bei Partiephase x oder y.

Viele Grüße
Frank

By Frank Quisinsky Date 2016-05-06 11:14 Edited 2016-05-06 11:22

Erneut ... wer selbst damit experimentieren will findet für die ersten Startversuche die 77.000 Partien auf meinen Webseiten.
Wie würde die Ratingliste bei den TOP-16, TOP-20, TOP-30, TOP-40, TOP_50 aussehen ... einfach.
Wie würde dieses und jenes ...

Wie wirken sich viele schwächeren Gegner auf die Elo aus.
Bleibt die Elo bei einer Engine die auf Platz 16 liegt wenn ich nur die ersten 16 für die Auswertungen nehme ... im Vergleich wenn hinter Platz 16 noch 10, 20, 30, 40 andere auftauchen.
Ups die fällt ja gewaltig ... also besser gegen schwächere ... die nächste Auswertungen ... ups, nicht besser gegen schwächere ... interessant.

Das komplette Elo System, deren Stärken und Schwächen können durchleuchtet werden.

Jede der Fragen in den letzten Jahren zu Ratinglisten ...
Jede kann beantwortet werden.

Oder wie hier die Züge-Stats ...

Errorbar Experimente (die laufen gerade bei mir ... Verhältnis ErrorBar zu Anzahl der Gegner) ...

Frank

Viele Gegner ... jeder gegen jeden und alles erdenkliche wird möglich.
Wer werden leicht erkennen wie genau die Ausgaben ... egal womit experimentiert wird ... dann werden.
Ein Eldorado an Möglichkeiten ... habe so viele Ideen das eine oder andere zu prüfen ... die Zeit habe ich nicht das dann auch zu tun weil die Arbeit an der laufenden Liste zu gewaltig ist (ständige Buchoptimierungen).
Daher sammle ich alle Informationen zu der Entwicklung der Liste im Download File. Damit kann ich mich später sicherlich mehrere Monate beschäftigen (wenn die Liste mal eingestellt ist).

By Frank Quisinsky Date 2016-05-06 11:32 Edited 2016-05-06 11:42

Letzter Beitrag ...
Grundsätzlich müssen wir die Zügestats wirklich zu deuten lernen.

Beispiel jetzt beim SF Test mit Contempt.
Remispartien in Spielphase 1 bis Zugnummer 59 ...

Vorher 209 jetzt 86 ...
Werden nun durch Contempt die fast 60% weniger Remispartien wirklich gewonnen (gegen schwächere hauptsächlich als Fragestellung) ...

Dabei müssen wir berücksichtigen dass wie bei Houdini mit Extrem Contempt ... das ausgeglichene Mittelspiel ins Endspiel verschleppt wird ... was nicht dorthin verschleppt wird bleibt im Netz hängen. Das nun bei SF anwenden ... wie viele Partien mehr im Endspiel ... Stockfish hat durch Contempt = 10 einen ca. um 4-5 Züge erhöhen Durchschnitt.

etc..

Oder wir sehen das Stockfish in aktueller Version deutlich mehr Partien bis zum Matt unter 59 mehr hat als Komodo 9.42 ... deutlich mehr!

Wir können die Unterschiede also anhand dieser Auswertungen leicht erkennen, wobei es immer schwierig ist zwei Engines die auf diesem hohen Niveau spielen überhaupt zu vergleichen. Die liegen ja keine 10 Elo auseinander. Kein Schachspieler der Welt kann das aufgrund seiner Spielstärke mehr ... den die beiden liegen über 300 ELO über den besten Menschen. Also ... es geht wenn überhaupt mit Statistik Ideen und genau diese werden immer wichtiger, je stärker die Engines werden.

Nach wie vor ...
Wir brauchen eine Statistik GUI. Ideen sammeln und versuchen mit Optionen umzusetzen. Und so lange es keine gibt ... zwar mittlerweile viele nützliche Tools ... ist die DNA einer Engine schwierig darzustellen. Gebe mir hier sehr viel Mühe und stelle oft auch überraschendes fest ... besser wie nur subjektiv zu bleiben aber ich erhebe keinesfalls den Anspruch das perfekt darzustellen. Das sollte immer berücksichtigt werden. Weil es mit den Möglichkeiten die wir haben nicht perfekt geht und weil die richtig guten Ideen hierfür auch nur so halb und halb stehen. Wie ich finde ... die letzten Geheimnisse lüften und das geht nur mit Spuren die wir haben (die Partien selbst).

By Michael Scheidl Date 2016-05-06 17:20 Upvotes 2

Frank Quisinsky schrieb:

Letzter Beitrag ...

By Frank Quisinsky Date 2016-05-06 20:36 Upvotes 1

Hallo Michael,

wollte Dir doch Deinen Standard Kommentar entlocken.
Hatte das schon richtig vermisst.

Aber auf Dich ist wie immer Verlass!

Gruß
Frank

By Frank Quisinsky Date 2016-05-01 11:24

Hallo Clemens,

bleibe noch eine Zeit weiter am Ball.
Werde die Liste ganz sicher nicht alle Ewigkeiten weiter führen.
Spätestens 2018 im Laufe des Jahres werde ich definitiv aufhören.
Das ist der Zeitpunkt wenn dann die Rechner Generation die ich einsetze dann ausgedient hat.
Nutze die Rechner für solche Zwecke immer ca. 4 Jahre.

Schon jetzt ist alles ein wenig ausgereizt und oft verliere ich auch die Lust wenn es mir dann selbst zu lange dauert (wie zuletzt mit den fehlenden Matches). Habe ich ein Ziel erreicht wird es mir meist zu langweilig.
Allerdings habe ich mich nun nach langem Ringen dazu entschlossen das erreichte Ziel mal ein wenig auszukosten und weiter zu machen.

Ja, stetige Veränderungen gab es im Verlauf dieser Ratingliste.
Die Darstellung der Liste.

Immer mit einer Versionsnummer höher ändere ich Grundlegendes in der Darstellung und versuche das ganze System welches dann entstanden ist weiter zu verbessern. Das ist reizvoll führt aber auch zu einem kleinen Chaos weil grundsätzlich eine gewisse Art an Beständigkeit "zunächst" nicht zu erkennen ist. In Wirklichkeit habe ich fast alles sehr langfristig geplant. Bei dieser Planung kommen dann natürlich auch neue Ideen die ich einarbeite und für gut oder schlecht befinde und wieder ändere. Meines Erachtens verbleiben dann letztendlich die richtig guten Ideen und die schwächeren fliegen wieder raus.

Also, es geht weiter und mein derzeit noch verbliebenes Ziel ist ...
Noch genauer aber immer mit weniger Arbeitsaufwand und grundsätzlich weiter vereinfachen.
Überflüssiges weg ...

Viele Grüße
Frank