Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Realistischer Lc0/Stockfish Test
- - By Lothar Jung Date 2023-12-22 04:41 Edited 2023-12-22 04:45 Upvotes 1
**Comment:**  Hyperfinal 2 - Sf vs t3  10m+3s
**Hardware:**  R7 2700X (8c/16t) | RTX 3080 10GB  | Syzygy-6
**Stockfish:**  abrok avx2, 14 threads, 4GB hash, Sy50mr=off, moveOv=0
**Lc0:**  https://github.com/Ergodice/lc0  master  a487796  (20231109)
**Lc0 settings:**  CCC21Bullet-WouldBe.. except with uncertainty, Minibatchsize=136, SmartPrFac=1.33, SmPrMinB=0, moveMs=0
**Net: **  t3-512x15x16h-swa-2815000.pb.gz
**Openings:**  https://github.com/official-stockfish/books UHO_Lichess_4852_v1.epd 100 starting at #791701 (by eye for longer)
**T/C:**  Game/10 mins + 3 secs
**cutechess-cli:**  draw 35. 4 .20, resign 4 4.00 twosided, timemargin=200```                       RATING  ERROR  POINTS  PLAYED (%) CFS(%)    W    D    L  D(%)

1 Stockfish_23121417  :  21.5   34.0   106.0   200  53.0     89   54  104   42  52.0
2 Lc0-0.31.a487796-t3 :   0.0   ----       94.0   200  47.0    ---    42  104   54  52.0```

Ich dachte der Abstand sei größer.
Die eingesetzte Hardware ist relativ erschwinglich.
200 Partien sind bei der Bedenkzeit schon aussagekräftig.
T3 ist derzeit das beste Netz für mittelstarke Hardware.
RTX 3080 wird derzeit gebraucht für 460€ angeboten.
Parent - By Peter Martan Date 2023-12-22 08:27 Edited 2023-12-22 09:03 Upvotes 1
Lothar Jung schrieb:

                        RATING  ERROR  POINTS  PLAYED (%)  CFS(%)    W    D    L  D(%)

1 Stockfish_23121417  :  21.5   34.0   106.0    200   53.0     89   54  104   42  52.0
2 Lc0-0.31.a487796-t3 :   0.0   ----    94.0    200   47.0    ---   42  104   54  52.0

Ich dachte der Abstand sei größer.
Die eingesetzte Hardware ist relativ erschwinglich.
200 Partien sind bei der Bedenkzeit schon aussagekräftig.

200 Partien sind gerade bei nicht ganz so kurzer TC statistisch noch weniger aussagekräftig als bei kürzerer, wenn du nur das Verhältnis zur error bar meinst, bei kürzerer  wäre der Abstand zwischen den Engines größer. Wenn du meinst, dass die längere TC die "relevantere" Spielstärke abbildet, ist das Ansichtssache, messen lässt sie sich aber gleich genau nur mit mehr Partien als bei kürzerer.
Dass 200 Partien hier zu wenig sind, erkennt man daran, dass die error bar größer ist als als der Abstand.
Die UHO_lichess Eröffnungen hab' ich mir runtergeladen, über 2.6 Millionen Stellungen in ein einziges .epd-file zu packen, finde ich etwas unkomfortabel, hab nur händisch die ersten paar angeschaut, weil die Datei als Ganzes zu laden, bringt Shredder zum Einfrieren, Arena beschränkt sich auf die ersten 361215.
Die Stellungen, die ich gesehen habe, sind unter einem Bauern mit der SF- Eval, die Vorgabe- Länge ist unterschiedlich, bei den längeren zählt die Eval also noch weniger als bei den kürzeren.  Jedenfalls sind sie weniger einseitig vorteilhaft sein als andere UHO- Sets, von denen das "mildeste" mit 110-119cp bei entweder 8 oder 6mvs anfängt.
Solche Stellungen würden den Abstand auch noch einmal vergrößern. Aber auch damit und mit etwas kürzerer TC hat man bei vergleichbarer Hardware unter 500 Partien sicher keine Chance auf eine LOS nahe 100% und dann hat man immer noch und wieder nur ein einzelnes head to head match.
Parent - By Lothar Jung Date 2023-12-22 12:52 Edited 2023-12-22 12:57 Upvotes 1
Mehr als 200 Partien bei 10+3 ist unrealistisch.
Könnte sein, dass das Turnier 3 volle Tage und Nächte gedauert hat.
Eine RTX 3080 frisst relativ viel Strom, 420 Watt + PC mit CPU.
Ich lebe ganz gut mit den statistischen Ungenauigkeiten.
Jedoch bleibt es dir unbenommen, dein System mit einem statistisch tragfähigeren Lc0/Stockfish-Test einzusetzen.
Up Topic Hauptforen / CSS-Forum / Realistischer Lc0/Stockfish Test

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill