

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
0 | 15 11 10 - - 9 - 1 4 9 - - 1 1 - 1 1 3 - 4
20 | - - - - 0 - 0 - - - - 11 0 - 1 1 0 - - -
40 | 5 0 - 3 - 12 - 0 0 - - - - 5 0 - - - 6 -
60 | 3 0 - 0 15 14 0 - 0 0 4 8 - - 7 2 2 - 0 -
80 | 10 - 4 0 14 - 0 0 0 - - 12 - - - 6 3 0 3 0
100| 0 6 0 0 0 - 4 9 - 0 3 - 0 3 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
0 | 3 - - - - 9 - 3 - 6 4 - 1 4 6 1 0 3 - 15
20 | - - - - 0 - 0 - - - - 8 0 - 1 4 0 - - -
40 | 3 0 - 6 - 11 - 0 0 - - - - 6 0 - - - 3 -
60 | - 0 - 0 10 - 0 8 0 0 11 4 - - - 3 0 - 0 -
80 | 4 - 4 0 - - 0 2 0 - - - - - - 2 5 0 1 0
100| 0 1 1 0 0 - - - 6 0 3 - 1 10
), aber es interessiert dich ja jetzt auch oder sogar vorrangig die statistische Belastbarkeit, und die steigt mit der Zahl der Versuche, und der Hardware- Zeit jedenfalls an. Sogar mehr, als wenn du nur die Lösungszahlen betrachtest, weil sich ja die einseitigen Lösungen nur teilweise überschneiden, du siehst also bereits, den Zufallseinfluss kannst du relativ leicht quantifizieren und minimieren, indem du nicht nur Lösungen zählst, sondern WDL. Beim game playing hast du als statistisch noch schlechteres Pendant zu den Remis die 1:1-Paare, die bringen auch nur "Scheinpunkte", in Wirklichkeit steigern sie die error bar mehr als die Remis bei gleicher Performance. Program Elo +/- Matches Score Av.Op. S.Pos. MST1 MST2 RIndex
40 Stockfishdev-20230104-9fe9ff00-MV4 : 3509 4 6396 51.4 % 3499 66/128 4.1s 9.4s 0.42
41 Lc0v0.31.0-dag+git.d99093e3-2660M : 3507 5 6634 50.6 % 3503 59/128 3.1s 9.5s 0.38
HTC114/1sec
SF16 Leptir Leptir_big_ultra ShCh34.5_Tal cool_Iris11.8 Lc0BT3 Lc0BT4 TB:Lc0BT3+Leptir
1 36 56 62 44 49 56 60 69
2 31 61 63 42 39 61 63 66
3 28 56 59 37 44 60 64 66
4 25 63 60 43 48 58 64 65
5 27 61 63 40 49 58 63 70
6 33 63 61 44 48 59 64 66
7 27 67
MW 29.57 60.00 61.33 41.67 46.17 58.67 63.00 67.00
2SD 3.62 5.89 2.98 4.99 7.25 3.20 2.83 3.38
Min 25 56 59 37 39 56 60 65
Max 36 63 63 44 49 61 64 70
) bei entsprechend stark verschiedenen Eröffnungen und entsprechend verschiedener Harware- TC bekommst. Erst recht, wenn du vielleicht noch das Setting an Parametern der einen und der anderen Engine ein bisschen änderst. Und du wirst sehr viel mehr game bei ansonsten halbwegs fairen Bedinungen brauchen als deine HTC114 und 6 runs, um wenigstens überhaupt eine halbwegs vernünftige LOS zu bekommen. Will sagen, dein Einzelergebnis sagt einfach außer dir, weil du dich damit zufrieden gibst, sonst niemandem irgendwas, schon gar nicht, ohne das Parameter- Setting der einen und der anderen Engine wenigstens in einem einzelnen Gegenversuch ein bisschen zu verändern, je nachdem, wie und wie sehr du's macht, hast du viel schneller als beim game playing auch einfach eine Ergebnisumkehr. Und dann könntest du anfangen dich zu fragen, welches Setting soll ich jetzt für welchen Test nehemen, wenn's mir ja gar nicht primär auf die Performance bei einem bestimmen head to head mathc einer bestimmten Hardware- TC ankommt, sondern auf irgenwelche anderen zusäztlichen Qualitäten. Die wären's ja eigentlich auch, die der Stellungstest zusätzlich zum game playing schneller, genauer oder überhaupt abbilden sollte. 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-------------------------------------------------------------------------------------
0 | - 3 9 - - 0 - - 3 0 - - 1 0 8 0 0 0 - 0
20 | 1 - - - 0 - 0 - 6 - - - 4 0 1 0 0 - 14 -
40 | 0 0 - - - - - 0 4 - - - - 4 6 - - - - -
60 | - 2 - 0 - - 0 - 0 0 3 4 - - 3 2 6 - 0 -
80 | 0 0 0 0 8 0 0 0 0 10 1 10 8 - 0 0 0 0 1 0
100 | 2 0 0 0 0 - - 0 - 0 0 12 0 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-------------------------------------------------------------------------------------
0 | - 6 - - - 1 - 2 3 0 - - 0 0 - 0 0 5 - 0
20 | 2 - - - 0 - 0 - 13 - - - - 0 0 0 0 - - -
40 | 1 0 - - - - - 0 0 - - 9 - 2 4 - - - 3 -
60 | - 5 - 0 - - 0 - 0 0 - 5 - - 7 3 3 11 0 -
80 | 0 0 0 0 - 0 0 0 0 7 0 12 - - 0 0 0 0 10 0
100 | 0 0 0 0 0 - - 0 - 0 0 9 0 2
[/url]

Wins = 20
Draws = 80
Losses = 14
Av.Op. Elo = 3500
Result : 60.0/114 (+20,=80,-14)
Perf. : 52.6 %
Margins :
68 % : (+ 2.5,- 2.5 %) -> [ 50.1, 55.2 %]
95 % : (+ 5.0,- 5.0 %) -> [ 47.7, 57.6 %]
99.7 % : (+ 7.6,- 7.5 %) -> [ 45.1, 60.2 %]
Elo : 3518
Margins :
68 % : (+ 18,- 18) -> [3501,3536]
95 % : (+ 35,- 35) -> [3484,3553]
99.7 % : (+ 54,- 52) -> [3466,3572] 


# PLAYER : RATING ERROR PLAYED W D L (%) CFS(%)
1 SF240101R4 : 3500 ---- 8076 776 6903 397 52.3 71
2 SF240203R4 : 3498 8 8064 722 6948 394 52.0 50
3 SF240203R5 : 3498 8 8064 722 6948 394 52.0 50
4 SF240203 : 3498 7 8064 722 6948 394 52.0 50
5 SF240203R2 : 3498 8 8064 722 6948 394 52.0 50
6 SF240203R3 : 3498 7 8064 722 6948 394 52.0 50
7 SF240101R3 : 3498 8 8064 762 6867 435 52.0 50
8 SF240101R5 : 3498 7 8070 749 6899 422 52.0 50
9 SF240101 : 3498 7 8085 765 6881 439 52.0 61
10 SF240101R2 : 3497 7 8067 745 6878 444 51.9 100
11 Lc0R3aeb1663f-2815M : 3485 7 8064 661 6763 640 50.1 55
12 Lc0R2aeb1663f-2815M : 3484 8 8064 648 6776 640 50.0 65
13 Lc0R4aeb1663f-2815M : 3483 7 8064 609 6817 638 49.8 67
14 Lc0R3a4877961-5000M : 3481 7 8064 590 6814 660 49.6 54
15 Lc0aeb1663f-2815M : 3481 8 8064 616 6753 695 49.5 57
16 Lc0a4877961-5000M : 3480 7 8064 574 6821 669 49.4 60
17 Lc0R5aeb1663f-2815M : 3479 7 8064 599 6746 719 49.3 60
18 Lc0R4a4877961-5000M : 3478 8 8064 580 6759 725 49.1 50
19 Lc0R2a4877961-5000M : 3478 7 8064 556 6807 701 49.1 50
20 Lc0R5a4877961-5000M : 3478 7 8064 579 6761 724 49.1 94
21 Dragon3.3R3 : 3472 7 8184 658 6591 935 48.3 99
22 Dragon3.3R5 : 3463 8 8199 623 6447 1129 46.9 66
23 Dragon3.3 : 3461 7 8553 647 6712 1194 46.8 56
24 Dragon3.3R2 : 3461 7 8175 525 6568 1082 46.6 72
25 Dragon3.3R4 : 3458 8 8187 562 6449 1176 46.3 ---
# PLAYER : RATING ERROR PLAYED W D L (%) CFS(%)
1 SF240101 : 3500 ---- 11760 6773 1043 3944 62.0 97
2 SF240203 : 3494 6 11760 6626 1133 4001 61.2 100
3 SC34.6 : 3457 6 11760 5757 1519 4484 55.4 67
4 SC34.5 : 3456 6 11760 5735 1512 4513 55.2 100
5 Dragon3.3 : 3407 6 11760 4949 1245 5566 47.4 100
6 Lc02815 : 3363 6 11760 4266 1016 6478 40.6 89
7 Lc05000 : 3359 6 11760 4177 1053 6530 40.0 100
8 Berserk12 : 3348 7 11760 3871 1251 6638 38.2 ---

) durchaus auch das 2815M- Netz die Nase vorn haben könnte, in den meisten anderen Suiten, in denen ich's mit unterschiedlicher TC probiert habe, sind die beiden jedenfalls auch meistens (so wie hier) innerhalb der error bar beisammen.
# PLAYER : RATING ERROR PLAYED W D L (%) CFS(%)
1 Lc05000M : 3500 ---- 3200 1091 1280 829 54.1 89
2 Lc02815M : 3493 11 3200 1050 1289 861 53.0 100
3 SC34.6 : 3475 11 3200 876 1439 885 49.9 65
4 SC34.5 : 3473 11 3200 880 1406 914 49.5 96
5 SF240101 : 3463 11 3200 808 1446 946 47.8 99
6 SF240203 : 3451 10 3200 730 1470 1000 45.8 ---


Program Elo +/- Matches Score Av.Op. S.Pos. MST1 MST2 RIndex
1 Stockfishdev-20240203 : 3510 10 317 52.7 % 3490 309/336 1.2s 1.5s 0.95
2 Lc0v0.31.0-dag+git.a4877961-5000M : 3490 9 317 47.3 % 3510 283/336 1.2s 1.8s 0.90
MST1 : Mean solution time (solved positions only)
MST2 : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position


Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill