Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Ceres 0.95 deutlich stärker
- - By Lothar Jung Date 2022-01-14 15:21 Upvotes 2
Hier ein Test des Entwicklers:

**Match** Ceres v0.95-rc8 vs Ceres 93
**Network** 69637
**Hardware:** Intel 6142 Processor, each game on one GPU from pool of 2 A100, 2 Titan RTX
**Time control:** 180 seconds plus 1 second increment
**Software:** Integrated Ceres tournament manager
**Opening book:** 4mvs_+90_+99
**Tablebases:** Syzygy 5 and 6-men
**Tournament Manager** Ceres integrated
**Ordo command:** ordo-win64 -Q -N 0 -D -a 0 -A "Ceres95-RC8" -W -n4 -V -s500 -J -p
**Comment** Ceres 0.95-RC8 appears considerably stronger than 0.93 even at MTC.
**Comment** Results possibly not representative for slower GPUs because nps advantage likely will considerably less.
**Comment** Reason for discrepancy between Ordo and Ceres calculation of relative Elo is unknown.
```
   # PLAYER            :  RATING  ERROR  POINTS  PLAYED   (%)  CFS(%)
   1 Ceres95-RC8    :       0     13   138.5     262  52.9      97
   2 Ceres93           :     -24     13   123.5     262  47.1     ---

----------------------------------------------------------------------------------------------------------------------------------
|      Player       |  Elo   | +/- | CFS(%) | Points | Played |    W-D-L    |D(%) |    Time    |      Nodes       |   NPS-avg    |
----------------------------------------------------------------------------------------------------------------------------------
|      Ceres93         |  -20   | 14  |   7%   | 123.5  |  262   | +46=155-61  | 59  |  52173.88  |    5,050,442,651 |       96,800 |
|    Ceres95-RC8    |   20   | 14  |  93%   | 138.5  |  262   | +61=155-46  | 59  |  51906.85  |    5,860,458,866 |      112,903 |
----------------------------------------------------------------------------------------------------------------------------------
```
Parent - - By Peter Martan Date 2022-01-14 15:28 Edited 2022-01-14 15:33
Lothar Jung schrieb:

----------------------------------------------------------------------------------------------------------------------------------
|      Player       |  Elo   | +/- | CFS(%) | Points | Played |    W-D-L    |D(%) |    Time    |      Nodes       |   NPS-avg    |
----------------------------------------------------------------------------------------------------------------------------------
|      Ceres93         |  -20   | 14  |   7%   | 123.5  |  262   | +46=155-61  | 59  |  52173.88  |    5,050,442,651 |       96,800 |
|    Ceres95-RC8    |   20   | 14  |  93%   | 138.5  |  262   | +61=155-46  | 59  |  51906.85  |    5,860,458,866 |      112,903 |
----------------------------------------------------------------------------------------------------------------------------------

Also mit EloStat hat diese Partiezahl mit diesen Ergebnissen mehr Error im 95%-Intervall als die 20 Elo Unterschied, die rauskommen, nämlich 27.
Von willkürlich angenommenen 3500 Av.Op.Elo ausgegangen:

Result     : 138.5/262 (+61,=155,-46)
Perf.      : 52.9 %
Margins    :
68 %       : (+  2.0,-  2.0 %) -> [ 50.9, 54.8 %]
95 %       : (+  3.8,-  3.9 %) -> [ 49.0, 56.7 %]
99.7 %     : (+  5.8,-  5.9 %) -> [ 47.0, 58.7 %]

Elo        : 3520
Margins    :
68 %       : (+ 14,- 14) -> [3506,3534]
95 %       : (+ 27,- 27) -> [3493,3547]
99.7 %     : (+ 41,- 41) -> [3479,3561]


Und dann sind das halt auch nur Selfplay- Elo und eigentlich wäre ein Match 0.94 (statt 0.93) gegen 0.95 irgendwie logischer gewesen, finde ich.
Aber danke für die Info, du wirst uns sicher wieder informieren, wenn 0.95 als Release erscheint, danke auch dafür jetzt schon.
Parent - By Lothar Jung Date 2022-01-14 15:43 Upvotes 2
Hallo Peter,

danke für die EloStat Daten.

Ceres-Version 0.94 wurde nicht als Vergleich ausgewählt, da sie bei Tests des Entwicklers schwächer abgeschnitten hat, als die Version 0.93.
Der Unterschied war auch bei meinen Suite Tests zu sehen und war statistisch signifikant.

Ich rechne mit einer baldigen Veröffentlichung.

Lc0 0.29 dev. habe ich schon zum Testen bekommen. Jedenfalls rechnet sie bei großen Netzen 10% bis 15% schneller.
Sie wurde bei dem letzten TCEC FRC Tunier eingesetzt und gewann das Tunier.

Einher mit der Engineentwicklung geht die komplette Umstellung des Trainings auf 40b Netze.
Obwohl sie noch in den Kinderschuhen stecken, werden sie wohl in den nächsten Monaten die 30b-Netze überholen.
Schon jetzt verfügen sie schon über ein bessere Anfangs-Policy.

Beste Grüße

Lothar
Up Topic Hauptforen / CSS-Forum / Ceres 0.95 deutlich stärker

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill