Program Elo +/- Matches Score Av.Op. S.Pos. MST1 MST2 RIndex
13 Stockfish18-6t-MuPV4 : 3510 3 7545 51.5 % 3499 232/325 4.2s 11.6s 0.64
14 Stockfish-260101-6t-MuPV4 : 3508 3 7556 51.3 % 3500 234/325 4.8s 11.8s 0.62
18 Stockfish17.1-6t-MuPV4 : 3495 3 7465 49.3 % 3500 227/325 5.2s 12.7s 0.55
23 Stockfish18-6t-MuPV1 : 3472 4 7313 45.7 % 3502 204/325 5.4s 14.5s 0.50
26 Stockfish-260101-6t-MuPV1 : 3469 4 7277 45.3 % 3502 201/325 5.4s 14.8s 0.50
27 Stockfish17.1-6t-MuPV1 : 3452 4 7167 42.8 % 3502 186/325 5.9s 16.2s 0.46
MST1 : Mean solution time (solved positions only)
MST2 : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position

Nehmen wir doch endlich zur Kenntnis, dass alle gängigen Testsuites nicht die realen Spielstärkeverhältnisse der Schachprogramme abbilden können. Die Unterschiede zwischen den Top-Test-Engines zu Stockfish 17.1, Stockfish 18, PlentyChess 7.0.37, Obsidian 16.0 sind teilweise happig. Aber keine der Top-Test-Engines wird in der Lage sein, in einem Match über sagen wir mal 100 Partien den Stockfish 17.1 oder Stockfish 18 zu schlagen. Nur in Ausnahmefällen dürfte der Sieger nicht Stockfish heissen. Die Sinnhaftigkeit von Testsuites darf deshalb ohne schlechtes Gewissen hinterfragt werden.
98 89.0% Leptir TI MPV-avx2 (Rand Op MPV=3)
97 88.1% Leptir TI MPV PB-avx2 (Rand Op MPV=3)
96 87.2% Rems M-091224-avx2 (Rand Op MPV=4)
94 85.4% Esox III-avx2 (2 VM)
93 84.5% Esox-avx2 (2 VM)
92 83.6% PROMENADE-avx2 (2 VM)
91 91.0% Beast M-SE-avx2
84 76.3% Esox III-avx2
81 73.6% Esox-avx2
80 72.7% Stockfish 18
75 68.1% Stockfish 17.1
74 67.2% ShashChess 34.1 (2 VM)
66 66.0% PlentyChess 7.0.37
65 59.0% ShashChess 34.1
57 51.8% PlentyChess 7.0.0
46 41.8% Obsidian 16.0
37 33.6% Chess System Tal 2.1 EAS
24 21.8% Chess-System-Tal-2.00-v21-E1162-130-EAS.opt-avx2
Gruss Kurt
Hallo Andreas
Das dürfte durchaus zutreffen. Obwohl ich wie geschildert nicht mehr viel von Testsuites halte, ertappe ich mich ab und zu, neue Versionen von Engines durch gewisse Tests laufen zu lassen. Man will ja einen ersten Eindruck haben ... auch wenn der überhaupt nicht stimmen muss.
Gruss
Kurt



PolyGlot 2.0.4-ut-4 by Fabien Letouzey.
EngineName=Patricia 5.0
[Search parameters: MaxDepth=63 MaxTime=30.0 DepthDelta=3 MinDepth=10 MinTime=3.0]
1: "HTC108, 2._Corbit, Dann_Tactical Insanity Nr.1, 1" -- 0 score= +0.26 pv [D=27, T= 26.56s, N= 42910k] =bxa4 Rxa4 Qxf6+ Kxf6 Be5+ Kg5 Bg7 Bxe4 dxe4 Qxc4 f4+ Kg4 Bf3+ Kh3 Bg2+ Kg4
2: "TacticalInsanityNr.9_CorbitD_HTC108-5 S, 2" OK 1 score= +1.04 pv [D=29, T= 16.12s, N= 30265k] =Rd6+
3: "Carlsen, M._Caruana, F._HTC108-7 WM2018, 3" -- 1 score= +1.13 pv [D=25, T= 27.73s, N= 46609k] =Rad1 Bd6 Nc4 g4 Qf2 f3 Rfe1 Rc8 gxf3 Bf4 d6 Qg5 d7 Rcd8 Nb6 gxf3+ Kh1 Bg4 Re4 Rf7 Rg1 h5 Re8+ Rf8 Re4 Rf7 h3 Rfxd7 Nxd7 Rxd7
4: "ACT-Suite, Nr.12_Dorsz, OpenChess_HTC108-8, 4" -- 1 score= +0.73 pv [D=24, T= 29.51s, N= 48699k] =Rd4
5: "van Foreest, J._L'Ami, E._HTC108-9 Zug 24...Sideline, 5" OK 2 score= +0.04 pv [D=26, T= 28.53s, N= 49409k] =Nc4
6: "Konig?, CCC._Cornforth96?, CSS+Playchess_HTC108-11 Arasan, 6" OK 3 score= +0.30 pv [D=29, T= 29.64s, N= 55057k] =Bxh7+
....
score=61/114 [averages on correct positions: depth=18.2 time=3.12 nodes=1663333]
Stockfish 18-6t-MuPV4
HTC108,2 00:00:00
TacticalIns 00:00:30
Carlsen,M 00:00:01
ACT-Suite,N 00:00:05
van Foreest 00:00:00
Konig?,C 00:00:07
PoorFish,C 00:00:30
LC0,C 00:00:00
AlphaZero, 00:00:01
Gashimov, 00:00:00
CorbitD,C 00:00:00
Gusia_Barlo 00:00:30
Bondarenko, 00:00:05
Rudolph,W 00:00:04
Gusev,Y 00:00:00
Van Essen, 00:00:30
Neghina,M 00:00:30
Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill