Caissa

By Peter Martan Date 2023-12-30 15:12 Edited 2023-12-30 15:16

https://github.com/Witek902/Caissa

Wieder 3'+1" single thread UHO 6mvs 110-119cp:

Score of caissa-1.15 vs Chess-System-Tal-2.00-v21: 90 - 63 - 204 [0.538]
Elo difference: 26.3 +/- 23.6, LOS: 98.5 %, DrawRatio: 57.1 %
357 of 500 games finished.

Hier werden die restlichen auf 500 wahrscheinlich schon reichen, um aus der error bar zu kommen.

Im CCC Blitz Main 3/2 schaut's zur Halbzeit so aus:

# PLAYER   : RATING POINTS PLAYED (%)
1 Stockfish: 3620.0 37.0   56     66
2 Dragon   : 3589.8 34.0   54     63
3 Torch    : 3570.9 32.5   54     60
4 Lc0      : 3569.5 33.0   55     60
5 Berserk  : 3532.9 29.5   54     55
6 Ethereal : 3487.0 27.0   56     48
7 Rubi     : 3477.9 25.0   54     46
8 Obsidian : 3452.1 23.5   54     44
9 Caissa   : 3442.4 22.5   54     42
10 Seer    : 3439.8 22.5   54     42
11 Igel    : 3426.3 21.5   54     40
12 Rofchade: 3391.4 19.0   55     35

By Peter Martan Date 2024-01-11 17:45 Edited 2024-01-11 17:51

1.16

https://github.com/Witek902/Caissa/releases/tag/1.16

Single thread 3'+1" UHO 110-119cp:

Score of Caissa-1.16 vs Caissa-1.15: 110 - 81 - 309 [0.529]
Elo difference: 20.2 +/- 18.8, LOS: 98.2 %, DrawRatio: 61.8 %
500 of 500 games finished.

Und im Stellungstest mit 1"/pos. im größeren Feld mit 8 Threads für A-B und 3070ti für Lc0:


    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

  1 CorChess4dev-20240103-8T-MuPV2          : 3522    2   6497    53.4 %   3499   313/333    1.0s    1.0s   0.98

  6 Stockfishdev-20231202-8T                : 3515    2   6303    52.3 %   3499   298/333    1.0s    1.0s   0.98
  7 Stockfishdev-20240101-8T                : 3513    2   6232    51.9 %   3499   291/333    1.0s    1.0s   0.98

 14 Dragon3.3byKomodoChess-8T                : 3502    2   6120    50.3 %   3500   273/333    1.0s    1.0s   0.96
 15 Lc0v0.31.0-dag+git.e429eeb-2790          : 3494    2   6051    49.0 %   3501   257/333    1.0s    1.0s   0.96
 16 Berserk12-8T                             : 3494    2   5972    49.0 %   3501   257/333    1.0s    1.0s   0.95
 17 Ethereal14.25.8T                         : 3494    2   5932    49.0 %   3501   254/333    1.0s    1.0s   0.97
 18 Lc0v0.31.0-dag+git.a4877961-2860M        : 3493    2   6029    48.8 %   3501   255/333    1.0s    1.0s   0.98
 19 Caissa1.16-8T                            : 3493    2   5911    48.8 %   3501   254/333    1.0s    1.0s   0.95
 20 Caissa1.15-8T                            : 3483    2   5812    47.4 %   3502   239/333    1.1s    1.0s   0.91
 21 Koivisto9.2-8T                           : 3482    2   5873    47.2 %   3502   237/333    1.0s    1.0s   0.94
 

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position

By Peter Martan Date 2024-01-12 09:12

Der Fortschritt bei den für längere Hardware- TC gedachten Stellungen ist noch etwas größer. Hier die 30"/pos. mit 30 Threads:


    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

  1 HypnoSIccf-NN240623-Set1                 : 3577    4   5650    61.6 %   3494   169/214    3.5s    9.1s   0.71
  2 CrystalMZ040823-Set1                     : 3575    4   5645    61.4 %   3494   172/214    3.9s    9.0s   0.68
  3 ShashChessGZ-MuPV4                       : 3571    4   5700    60.9 %   3494   170/214    4.0s    9.3s   0.65

 18 Stockfishdev-20240101-MuPV4               : 3479    5   5047    46.7 %   3502   125/219    8.2s   17.6s   0.37
 19 Stockfishdev-20231202-MuPV4               : 3477    5   4948    46.4 %   3502   115/214    6.4s   17.3s   0.39           
 22 Lc0v0.31.0-dag+git.e429eeb-2790M          : 3457    6   4916    43.1 %   3505   101/216    6.7s   19.1s   0.34
 23 Lc0v0.31.0-dag+git.a4877961-2860M         : 3453    6   4863    42.4 %   3506    97/214    6.4s   19.3s   0.33

 26 Stockfishdev-20231202                     : 3443    5   4913    41.3 %   3504   108/214    9.1s   19.4s   0.24
 27 Berserk12                                 : 3442    6   4766    41.0 %   3506    95/214    6.8s   19.7s   0.28
 28 Lc0v0.31.0-dag+git.a4877961-3400M         : 3430    6   4773    39.1 %   3506    84/214    6.3s   20.7s   0.27
 29 Dragon3.3byKomodoChess-MuPV4              : 3421    6   4693    37.9 %   3506    88/214    8.4s   21.1s   0.24
 30 Dragon3.3byKomodoChess                    : 3411    6   4686    36.5 %   3507    83/214    8.4s   21.6s   0.21
 31 Caissa1.16BMI2                            : 3384    6   4535    32.7 %   3509    72/222    8.0s   22.9s   0.17
 32 Caissa1.15BMI2                            : 3365    6   4506    30.4 %   3509    65/222    9.0s   23.8s   0.13

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position

By Peter Martan Date 2024-01-12 12:56

Und mit den 3333 MEA- Stellungen und 200msec/pos. single thread wird Ethereal sogar überholt:

   # PLAYER                :  RATING  ERROR  PLAYED     W      D     L   (%)  CFS(%)
   1 CoolIris11.80mupv1    :    3503      3   45730  5514  37361  2855  52.9      97
   2 SF240101              :    3500   ----   43589  4775  36084  2730  52.3      73
   3 SF231202              :    3499      3   43593  4722  36060  2811  52.2      64
   4 CorChess240103        :    3498      3   43593  4708  36011  2874  52.1      98
   5 Lc0a4877961-2860M     :    3495      3   43600  4627  35729  3244  51.6      81
   6 Lc0e429eeb-2790M      :    3494      3   43600  4571  35652  3377  51.4     100
   7 Dragon3.3             :    3483      3   43600  4110  35163  4327  49.8      92
   8 Berserk12             :    3481      3   43608  3885  35324  4399  49.4     100
   9 Caissa1.16            :    3476      3   43591  3757  34888  4946  48.6      98
  10 CoolIris11.80         :    3472      3   45742  4904  34114  6724  48.0      60
  11 Ethereal14.25         :    3472      3   43611  3758  34407  5446  48.1      71
  12 Koivisto9.2           :    3471      3   43642  3577  34679  5386  47.9      56
  13 Caissa1.15            :    3471      3   43590  3543  34663  5384  47.9      69
  14 CSTal2.00v21          :    3470      3   43591  3497  34649  5445  47.8     ---

By Lothar Jung Date 2024-01-12 13:14 Upvotes 1

Die ultrakurze Zeitvorgabe ist für LC0 extrem ungünstig.
Die Latency wegen des PCI-Bus hat dadurch zur Folge, das nur die Policy Bewertung einfließt.
Die Suche wird praktisch nicht getestet.

By Peter Martan Date 2024-01-12 13:19 Edited 2024-01-12 13:28

Ich weiß, Lothar, aber dafür laufen die anderen Engines single thread und Lc0 hat 2 threads und die 3070ti und bekommt um das, was es im Gestamtverbrauch an Zeit sogar weniger nutzt als die anderen, fast das doppelt an Vorgabe, das Verhältnis ist 200 SF (so wie die meisten anderen, Caissa ist auch ein bisschen flott unterwegs, bei 220 zu 200 ist's für diese Engine ausgeglichen) zu 380mscec bei Lc0.
Und es ist nur eine von vielen Suiten, wie du siehst, ich würde diese mit VSTC game playing vergleichen, da ist Lc0 ja auch immer etwas benachteiligt.

By Lothar Jung Date 2024-01-12 17:18 Upvotes 1

Die ultrakurzen Lösungszeiten sind ein Indiz dafür, das die Stellungen zu leicht sind

By Peter Martan Date 2024-01-12 17:58 Edited 2024-01-12 18:22

Das wären sie nur für längere TCs, so hat Caissa 1.15 86.9% und SF dev. 91,5% vom Maximalscore nach den pro Stellung zu gewinnenden Punkten, unter Found (best moves) variiiert's zwischen 2327 und 2586 von 3333, passt also für die engines of interest

By Max Siegfried Date 2024-01-12 19:06

Lothar Jung schrieb:

Die ultrakurzen Lösungszeiten sind ein Indiz dafür, das die Stellungen zu leicht sind

Genau.
Deshalb ist 1 Sekunde pro Teststellung bei schwierigen Stellungen ausreichend.
Schön das du es endlich verinnerlicht hast.
Nicht wie letztes Mal.

Max Siegfried schrieb:

Lothar Jung schrieb:

Vielleicht verstehe ich das ganze nicht so richtig.

Eine Testaufgabe sollte schwierig sein, also von den meisten Engines nicht oder nur in unangemessener Zeit gelöst werden.
Die Suite sollte rd. 200 Stellungen betragen.
TBs sind erlaubt, Lerndateien nicht.
Die Lösungszeitvorgabe sollte 15 sec. mit einer 8 Kerne CPU sein.

Die Bedingungen sollten lauten:

- setzt Matt,
- findet den Gewinnzug/Zug zu einer gewonnen Stellung,
- hält Remis,
- der Zug muß mit einer entsprechenden Bewertung unterlegt sein.

Dadurch kommt es zu einem eindeutigen Ergebnis, z.B. 140/200 und einer eindeutigen Reihung.

200 Stellungen müsste man erstmal finden.
Das 15 Sekunden heutzutage viel zu lang sind, wurde doch schon mehrfach geklärt.
Besonders wenn man Stockfish, LC0, Torch testet.
Vergleiche dieser Engines mit schwachen Engines machen auch nur bei kurzer Bedenkzeit Sinn, weil sonst der Vergleich massiv verfälscht wird.
Kauft euch ein MacBook mit M Chip + 7-Steiner, dann ist 1 Sekunde ausreichend.
Ich würde sogar behaupten, dass ihr alle einige Tests laufen lassen solltet mit 1 Sekunde pro Vorgabestellung und nur 1 CPU Kern. Die Ergebnisse sind atemberaubend.

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=167915

By Lothar Jung Date 2024-01-12 21:35

Quatsch,
ich habe mich damals für längere TCs 15 sec. ausgesprochen und 8 Kerne.
Was soll das??

By Max Siegfried Date 2024-01-12 14:35

Lothar Jung schrieb:

Die ultrakurze Zeitvorgabe ist für LC0 extrem ungünstig.
Die Latency wegen des PCI-Bus hat dadurch zur Folge, das nur die Policy Bewertung einfließt.
Die Suche wird praktisch nicht getestet.

Ein MacBook schafft Abhilfe.

By Lothar Jung Date 2024-01-12 21:37

Auch Quatsch,
MacBook ist zu schnelleren Engines und Netzen inkompatibel.