Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / Blogs / STS-Engine-Ratinglist
- - By Frank Sanders Date 2023-11-14 08:44 Edited 2023-11-14 08:49 Upvotes 2
Noch eine Rating-Liste?
Ja, denn anders als bei den bekannten Listen werden hier nicht die Eröffnungen (Eröffnungspositionen)  vorgegeben und ausgespielt, sondern Positionen aus der Strategic Test Suite (STS) von  Dann Corbit and Swaminathan Natarajan.
Die Test Suite hat 1500 Positionen, werden alle ausgespielt?
Nein, es wurden 300 Positionen ausgewählt. Das Kriterium für die Auswahl war, dass beim ersten Zug die Bewertung von Stockfish oder Dragon zwischen 0,9 und 1,5 liegen soll.
Mit welcher Bedenkzeit wurde getestet?
Es wurde mit einer kurzen Testzeit gespielt, 30+0.2 (Sekunden). Es wurde zur Probe auch ein Durchlauf mit 60+0.2 gemacht, der aber keine deutlich anderen Ergebnisse brachte. Als Testprogramm wurde cutechess-cli.exe verwendet.

Ergebnisse:

    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 stockfish_23100805.exe         : 3841    9   9  3600    64.8 %   3735   37.8 %
  2 berserk-12.exe                 : 3786    9   9  3600    56.1 %   3744   39.3 %
  3 dragon-3.3.exe                 : 3786    9   9  3600    56.0 %   3744   38.9 %
  4 Ethereal-14.25-avx2.exe        : 3740    9   9  3600    48.3 %   3752   38.6 %
  5 RubiChess-20230918.exe         : 3722    9   9  3600    45.3 %   3755   40.2 %
  6 Koivisto_9.2.exe               : 3700    9   9  3600    41.8 %   3758   42.0 %
  7 caissa-1.13.1.exe              : 3675    9   9  3600    37.7 %   3762   42.8 %

Games        :  12600 (finished)

White Wins   :   4337 (34.4 %)
Black Wins   :   3229 (25.6 %)
Draws        :   5034 (40.0 %)
Parent - - By Frank Sanders Date 2023-11-14 12:22 Upvotes 1
Gibt es auch eine Gamepair Auswertung?
Ja, obwohl das gute GamePairs_resorcing_tool von Stefan Pohl nur mit Spielen aus der Grundstellung funktioniert, habe ich mir ein kleines Programm geschrieben und eingebunden, dass es ermöglicht, auch Spiele von Teststellungen aus auszuwerten.

   # PLAYER                     :  RATING  ERROR  PLAYED     W    D    L   (%)  CFS(%)
   1 stockfish_23100805.exe     :    3840   ----    1800  1078  665   57  78.4     100
   2 berserk-12.exe             :    3714     16    1800   685  856  259  61.8      67
   3 dragon-3.3.exe             :    3711     17    1800   662  884  254  61.3     100
   4 Ethereal-14.25-avx2.exe    :    3613     17    1800   382  918  500  46.7     100
   5 RubiChess-20230918.exe     :    3575     17    1800   315  852  633  41.2     100
   6 Koivisto_9.2.exe           :    3525     17    1800   220  779  801  33.9     100
   7 caissa-1.13.1.exe          :    3472     18    1800   119  724  957  26.7     ---

--- Number of all Gamepairs          : 6300
--- Number of drawn Gamepairs overall: 2839 (= 45.06%)
--- Number of 1:1 drawn Gamepairs    : 1996 (= 31.68%)
--- Number of 2-draws drawn Gamepairs: 843 (= 13.38%)
Parent - By Peter Martan Date 2023-11-14 12:44
Suppi!
Parent - - By Frank Sanders Date 2023-11-15 09:38
2 neue Programme:

    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 stockfish_23100805.exe         : 3852    8   8  4800    65.9 %   3737   38.0 %
  2 berserk-12.exe                 : 3799    8   8  4800    57.8 %   3744   39.4 %
  3 dragon-3.3.exe                 : 3798    8   8  4800    57.8 %   3744   39.0 %
  4 Ethereal-14.25-avx2.exe        : 3755    8   8  4800    50.8 %   3749   38.4 %
  5 RubiChess-20230918.exe         : 3736    8   8  4800    47.8 %   3751   39.8 %
  6 Koivisto_9.2.exe               : 3715    8   8  4800    44.5 %   3754   41.4 %
  7 Clover_6.0.exe                 : 3706    8   8  4800    42.9 %   3755   39.0 %
  8 rofChade_3.1.exe               : 3699    8   8  4800    41.8 %   3756   39.0 %

  9 caissa-1.13.1.exe              : 3690    7   8  4800    40.5 %   3757   42.3 %

Games        :  21600 (finished)

White Wins   :   7449 (34.5 %)
Black Wins   :   5601 (25.9 %)
Draws        :   8550 (39.6 %)


Und mit Gamepairs:

   # PLAYER                     :  RATING  ERROR  PLAYED     W     D     L   (%)  CFS(%)
   1 stockfish_23100805.exe     :    3840   ----    2400  1520   819    61  80.4     100
   2 berserk-12.exe             :    3713     15    2400  1008  1112   280  65.2      58
   3 dragon-3.3.exe             :    3712     15    2400   995  1129   276  65.0     100
   4 Ethereal-14.25-avx2.exe    :    3617     15    2400   622  1231   547  51.6     100
   5 RubiChess-20230918.exe     :    3578     14    2400   510  1188   702  46.0     100
   6 Koivisto_9.2.exe           :    3530     15    2400   384  1109   907  39.1     100
   7 Clover_6.0.exe             :    3508     15    2400   281  1164   955  36.0      88
   8 rofChade_3.1.exe           :    3500     16    2400   272  1128  1000  34.8     100

   9 caissa-1.13.1.exe          :    3479     15    2400   239  1058  1103  32.0     ---

--- Number of all Gamepairs          : 10800
--- Number of drawn Gamepairs overall: 4969 (= 46.01%)
--- Number of 1:1 drawn Gamepairs    : 3509 (= 32.49%)
--- Number of 2-draws drawn Gamepairs: 1460 (= 13.52%)
Parent - By Frank Sanders Date 2023-11-17 08:22
2 neue Programme:

   Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 stockfish_23100805.exe         : 3854    7   7  5400    66.0 %   3738   38.1 %
  2 berserk-12.exe                 : 3803    7   7  5400    58.5 %   3744   38.8 %
  3 dragon-3.3.exe                 : 3801    7   7  5400    58.1 %   3744   38.8 %
  4 Ethereal-14.25-avx2.exe        : 3759    7   7  5400    51.5 %   3749   37.7 %
  5 RubiChess-20230918.exe         : 3739    7   7  5400    48.4 %   3751   39.5 %
  6 Koivisto_9.2.exe               : 3720    7   7  5400    45.3 %   3753   40.1 %
  7 caissa-1.14.1.exe              : 3718    7   7  5400    45.0 %   3753   38.9 %
  8 Clover_6.0.exe                 : 3711    7   7  5400    43.9 %   3754   39.3 %
  9 rofChade_3.1.exe               : 3702    7   7  5400    42.5 %   3755   38.1 %
10 seer_v2.7.exe                   : 3692    7   7  5400    40.8 %   3756   38.5 %


Games        :  27000 (finished)

White Wins   :   9436 (34.9 %)
Black Wins   :   7091 (26.3 %)
Draws        :  10473 (38.8 %)

Gamepairs:

   # PLAYER                     :  RATING  ERROR  PLAYED     W     D     L   (%)  CFS(%)
   1 stockfish_23100805.exe     :    3840   ----    2700  1721   914    65  80.7     100
   2 berserk-12.exe             :    3718     16    2700  1178  1227   295  66.4      75
   3 dragon-3.3.exe             :    3713     14    2700  1136  1275   289  65.7     100
   4 Ethereal-14.25-avx2.exe    :    3622     15    2700   737  1390   573  53.0     100
   5 RubiChess-20230918.exe     :    3581     15    2700   583  1375   742  47.1     100
   6 Koivisto_9.2.exe           :    3537     15    2700   459  1285   956  40.8      79
   7 caissa-1.14.1.exe          :    3531     15    2700   401  1358   941  40.0      99
   8 Clover_6.0.exe             :    3515     15    2700   356  1326  1018  37.7      95
   9 rofChade_3.1.exe           :    3504     15    2700   325  1303  1072  36.2     100
  10 seer_v2.7.exe              :    3477     16    2700   252  1251  1197  32.5     ---

White advantage = 0.00 +/- 0.00
Draw rate (equal opponents) = 50.00 % +/- 0.00

--- Number of all Gamepairs          : 13500
--- Number of drawn Gamepairs overall: 6352 (= 47.05%)
--- Number of 1:1 drawn Gamepairs    : 4576 (= 33.90%)
--- Number of 2-draws drawn Gamepairs: 1776 (= 13.16%)
Parent - - By Peter Weise Date 2023-11-17 08:58
Irgendwie seltsam: Berserk 12 auf Augenhöhe mit Dragon 3.3 ... ?
Parent - - By Frank Sanders Date 2023-11-17 11:14
Warum? Hier zum Beispiel die Ergebnisse von Ipman Chess für 3min\2sec:

5 Dragon 3.3 avx2                : 3579   11  10   960    61.5 %   3497   74.5 %
8 Berserk 12 avx2-pext           : 3567   11  10   960    59.8 %   3498   75.8 %


Wenn du dir bei beiden Listen die Variabilität anschaust, ist das Ergebnis nicht ungewöhnlich.
Parent - - By Peter Weise Date 2023-11-17 11:41
CCRL 2+1:
3 Dragon by Komodo 3.3 64-bit  3683 +13 −13   1491 games
4 Berserk 12 64-bit            3667 +17 −17    899 games


und

CCRL 40/15:
3 Dragon by Komodo 3.3 64-bit  3510 +15 −15   1176 games
4 Berserk 12 64-bit            3480 +19 −19    702 games


und

CEGT 40/20:
2 KomodoDragon 3.3 x64 1CPU    3570 +14 -14   1413 games
4 Berserk 12.0 x64 1CPU        3536 +17 -17   1204 games


und

UHO-Top15 Engines Ratinglist:
4 KomodoDragon 3.3 avx2        3754  +4  -4  15000 games
5 Berserk 12 avx2              3731  +4  -4  15000 games
Parent - By Frank Sanders Date 2023-11-17 17:00
Passt doch, bei CCRL 2+1 und CCRL 40/15 könnte die Reihung auch umgekehrt sein, bei CCRL 40/20 und UHO 3min+1sec/game eben nicht. So what, die Prgramme sind nicht Welten auseinander.
Up Topic Hauptforen / Blogs / STS-Engine-Ratinglist

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill