

        1   2   3   4   5   6   7   8   9   10  11  12  13  14  15  16  17  18  19  20
   0 |  15  11  10  -   -   9   -   1   4   9   -   -   1   1   -   1   1   3   -   4
  20 |  -   -   -   -   0   -   0   -   -   -   -   11  0   -   1   1   0   -   -   -
  40 |  5   0   -   3   -   12  -   0   0   -   -   -   -   5   0   -   -   -   6   -
  60 |  3   0   -   0   15  14  0   -   0   0   4   8   -   -   7   2   2   -   0   -
  80 |  10  -   4   0   14  -   0   0   0   -   -   12  -   -   -   6   3   0   3   0
  100|  0   6   0   0   0   -   4   9   -   0   3   -   0   3        1   2   3   4   5   6   7   8   9   10  11  12  13  14  15  16  17  18  19  20
   0 |  3   -   -   -   -   9   -   3   -   6   4   -   1   4   6   1   0   3   -   15
  20 |  -   -   -   -   0   -   0   -   -   -   -   8   0   -   1   4   0   -   -   -
  40 |  3   0   -   6   -   11  -   0   0   -   -   -   -   6   0   -   -   -   3   -
  60 |  -   0   -   0   10  -   0   8   0   0   11  4   -   -   -   3   0   -   0   -
  80 |  4   -   4   0   -   -   0   2   0   -   -   -   -   -   -   2   5   0   1   0
  100|  0   1   1   0   0   -   -   -   6   0   3   -   1   10
), aber es interessiert dich ja jetzt auch oder sogar vorrangig die statistische Belastbarkeit, und die steigt mit der Zahl der Versuche, und der Hardware- Zeit jedenfalls an. Sogar mehr, als wenn du nur die Lösungszahlen betrachtest, weil sich ja die einseitigen Lösungen nur teilweise überschneiden, du siehst also bereits, den Zufallseinfluss kannst du relativ leicht quantifizieren und minimieren, indem du nicht nur Lösungen zählst, sondern WDL. Beim game playing hast du als statistisch noch schlechteres Pendant zu den Remis die 1:1-Paare, die bringen auch nur "Scheinpunkte", in Wirklichkeit steigern sie die error bar mehr als die Remis bei gleicher Performance.  Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex
 40 Stockfishdev-20230104-9fe9ff00-MV4       : 3509    4   6396    51.4 %   3499    66/128    4.1s    9.4s   0.42
 41 Lc0v0.31.0-dag+git.d99093e3-2660M        : 3507    5   6634    50.6 %   3503    59/128    3.1s    9.5s   0.38
    HTC114/1sec
    SF16    Leptir  Leptir_big_ultra    ShCh34.5_Tal    cool_Iris11.8   Lc0BT3  Lc0BT4  TB:Lc0BT3+Leptir
1   36       56      62                    44                   49        56         60            69
2   31       61      63                    42                   39        61         63            66
3   28       56      59                    37                   44        60         64            66
4   25       63      60                    43                   48        58         64            65
5   27       61      63                    40                   49        58         63            70
6   33       63      61                    44                   48        59         64            66
7   27                                                                                             67
MW  29.57   60.00    61.33                41.67                 46.17   58.67        63.00       67.00
2SD  3.62    5.89     2.98                 4.99                  7.25    3.20         2.83        3.38
Min 25      56       59                   37                    39      56           60           65
Max 36      63       63                   44                    49      61           64           70
) bei entsprechend stark verschiedenen Eröffnungen und entsprechend verschiedener Harware- TC bekommst. Erst recht, wenn du vielleicht noch das Setting an Parametern der einen und der anderen Engine ein bisschen änderst. Und du wirst sehr viel mehr game bei ansonsten halbwegs fairen Bedinungen brauchen als deine HTC114 und 6 runs, um wenigstens überhaupt eine halbwegs vernünftige LOS zu bekommen. Will sagen, dein Einzelergebnis sagt einfach außer dir, weil du dich damit zufrieden gibst, sonst niemandem irgendwas, schon gar nicht, ohne das Parameter- Setting der einen und der anderen Engine wenigstens in einem einzelnen Gegenversuch ein bisschen zu verändern, je nachdem, wie und wie sehr du's macht, hast du viel schneller als beim game playing auch einfach eine Ergebnisumkehr. Und dann könntest du anfangen dich zu fragen, welches Setting soll ich jetzt für welchen Test nehemen, wenn's mir ja gar nicht primär auf die Performance bei einem bestimmen head to head mathc einer bestimmten Hardware- TC ankommt, sondern auf irgenwelche anderen zusäztlichen Qualitäten. Die wären's ja eigentlich auch, die der Stellungstest zusätzlich zum game playing schneller, genauer oder überhaupt abbilden sollte. 
         1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20
 -------------------------------------------------------------------------------------
   0 |   -   3   9   -   -   0   -   -   3   0   -   -   1   0   8   0   0   0   -   0
  20 |   1   -   -   -   0   -   0   -   6   -   -   -   4   0   1   0   0   -  14   -
  40 |   0   0   -   -   -   -   -   0   4   -   -   -   -   4   6   -   -   -   -   -
  60 |   -   2   -   0   -   -   0   -   0   0   3   4   -   -   3   2   6   -   0   -
  80 |   0   0   0   0   8   0   0   0   0  10   1  10   8   -   0   0   0   0   1   0
 100  |   2   0   0   0   0   -   -   0   -   0   0  12   0   0
         1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20
 -------------------------------------------------------------------------------------
   0 |   -   6   -   -   -   1   -   2   3   0   -   -   0   0   -   0   0   5   -   0
  20 |   2   -   -   -   0   -   0   -  13   -   -   -   -   0   0   0   0   -   -   -
  40 |   1   0   -   -   -   -   -   0   0   -   -   9   -   2   4   -   -   -   3   -
  60 |   -   5   -   0   -   -   0   -   0   0   -   5   -   -   7   3   3  11   0   -
  80 |   0   0   0   0   -   0   0   0   0   7   0  12   -   -   0   0   0   0  10   0
 100  |   0   0   0   0   0   -   -   0   -   0   0   9   0   2
[/url]

Wins   = 20
Draws  = 80
Losses = 14
Av.Op. Elo = 3500
Result     : 60.0/114 (+20,=80,-14)
Perf.      : 52.6 %
Margins    :
 68 %      : (+  2.5,-  2.5 %) -> [ 50.1, 55.2 %]
 95 %      : (+  5.0,-  5.0 %) -> [ 47.7, 57.6 %]
 99.7 %    : (+  7.6,-  7.5 %) -> [ 45.1, 60.2 %]
Elo        : 3518
Margins    :
 68 %      : (+ 18,- 18) -> [3501,3536]
 95 %      : (+ 35,- 35) -> [3484,3553]
 99.7 %    : (+ 54,- 52) -> [3466,3572] 

  
   # PLAYER                 :  RATING  ERROR  PLAYED    W     D     L   (%)  CFS(%)
   1 SF240101R4             :    3500   ----    8076  776  6903   397  52.3      71
   2 SF240203R4             :    3498      8    8064  722  6948   394  52.0      50
   3 SF240203R5             :    3498      8    8064  722  6948   394  52.0      50
   4 SF240203               :    3498      7    8064  722  6948   394  52.0      50
   5 SF240203R2             :    3498      8    8064  722  6948   394  52.0      50
   6 SF240203R3             :    3498      7    8064  722  6948   394  52.0      50
   7 SF240101R3             :    3498      8    8064  762  6867   435  52.0      50
   8 SF240101R5             :    3498      7    8070  749  6899   422  52.0      50
   9 SF240101               :    3498      7    8085  765  6881   439  52.0      61
  10 SF240101R2             :    3497      7    8067  745  6878   444  51.9     100
  11 Lc0R3aeb1663f-2815M    :    3485      7    8064  661  6763   640  50.1      55
  12 Lc0R2aeb1663f-2815M    :    3484      8    8064  648  6776   640  50.0      65
  13 Lc0R4aeb1663f-2815M    :    3483      7    8064  609  6817   638  49.8      67
  14 Lc0R3a4877961-5000M    :    3481      7    8064  590  6814   660  49.6      54
  15 Lc0aeb1663f-2815M      :    3481      8    8064  616  6753   695  49.5      57
  16 Lc0a4877961-5000M      :    3480      7    8064  574  6821   669  49.4      60
  17 Lc0R5aeb1663f-2815M    :    3479      7    8064  599  6746   719  49.3      60
  18 Lc0R4a4877961-5000M    :    3478      8    8064  580  6759   725  49.1      50
  19 Lc0R2a4877961-5000M    :    3478      7    8064  556  6807   701  49.1      50
  20 Lc0R5a4877961-5000M    :    3478      7    8064  579  6761   724  49.1      94
  21 Dragon3.3R3            :    3472      7    8184  658  6591   935  48.3      99
  22 Dragon3.3R5            :    3463      8    8199  623  6447  1129  46.9      66
  23 Dragon3.3              :    3461      7    8553  647  6712  1194  46.8      56
  24 Dragon3.3R2            :    3461      7    8175  525  6568  1082  46.6      72
  25 Dragon3.3R4            :    3458      8    8187  562  6449  1176  46.3     ---
   # PLAYER       :  RATING  ERROR  PLAYED     W     D     L   (%)  CFS(%)
   1 SF240101     :    3500   ----   11760  6773  1043  3944  62.0      97
   2 SF240203     :    3494      6   11760  6626  1133  4001  61.2     100
   3 SC34.6       :    3457      6   11760  5757  1519  4484  55.4      67
   4 SC34.5       :    3456      6   11760  5735  1512  4513  55.2     100
   5 Dragon3.3    :    3407      6   11760  4949  1245  5566  47.4     100
   6 Lc02815      :    3363      6   11760  4266  1016  6478  40.6      89
   7 Lc05000      :    3359      6   11760  4177  1053  6530  40.0     100
   8 Berserk12    :    3348      7   11760  3871  1251  6638  38.2     ---

) durchaus auch das 2815M- Netz die Nase vorn haben könnte, in den meisten anderen Suiten, in denen ich's mit unterschiedlicher TC probiert habe, sind die beiden jedenfalls auch meistens (so wie hier) innerhalb der error bar beisammen.
   # PLAYER      :  RATING  ERROR  PLAYED     W     D     L   (%)  CFS(%)
   1 Lc05000M    :    3500   ----    3200  1091  1280   829  54.1      89
   2 Lc02815M    :    3493     11    3200  1050  1289   861  53.0     100
   3 SC34.6      :    3475     11    3200   876  1439   885  49.9      65
   4 SC34.5      :    3473     11    3200   880  1406   914  49.5      96
   5 SF240101    :    3463     11    3200   808  1446   946  47.8      99
   6 SF240203    :    3451     10    3200   730  1470  1000  45.8     ---


   Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex
  1 Stockfishdev-20240203                    : 3510   10    317    52.7 %   3490   309/336    1.2s    1.5s   0.95
  2 Lc0v0.31.0-dag+git.a4877961-5000M        : 3490    9    317    47.3 %   3510   283/336    1.2s    1.8s   0.90
MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position


 
Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill