Lc0 BT4-6077500 Testrun durch

By Lothar Jung Date 2024-02-26 08:23 Upvotes 1

Hier ein Test zum aktuellen BT4 Netz:

**Round-robin:** BT4 vs. BT3 vs. T82
**LC0 version:** v0.31.0-dev, branch: Ergodice_master (SHA: 5c1051f)
**LC0 options:** Backend=cuda-fp16, MoveOverheadMs=0, StrictTiming=true, **BT4**: MinibatchSize=40, UseUncertaintyWeighting=true, UseVarianceScaling=true, policy_head=optimistic,value_head=winner, **BT3**: MinibatchSize=42, UseUncertaintyWeighting=true, UseVarianceScaling=true, policy_head=optimistic,value_head=winner, **T82**: MinibatchSize=42, UseVarianceScaling=true
**Hardware:** Ryzen 5 3600 (6x3.6GHz) + RTX 4090@300W
**Time control:** 3s/game+0.05s/move
**Speed:** Nodes/move (median): 1615 (BT4), 2519 (BT3), 2525 (T82)
**Book:** unbalanced 3-moves book (60-80cp)
**Tablebases:** 6-man
**Adjudication:** 6-man TBs + -resign movecount=3 score=350, -draw movenumber=1 movecount=4 score=5
**Software:** Cutechess-CLI, restart=on, timemargin=1000
**Comment:** Planned a scaling test with increasing time control, but larger networks already stronger at VSTC.
```
   #    ENGINE    : RATING ERROR CFS(%)   GAMES DRAWS(%) OppN
   1 lc0.net.BT4-1024x15x32h-swa-6147500 : 20.1 9.0   100.0 2000 72.0    2
   2 lc0.net.BT3-768x15x24h-swa-2860000    : 3.7    8.7 79.6    2000 71.7    2
   3 lc0.net.768x15x24h-t82-swa-7764000 : 0.0   ----    --- 2000 71.2    2

White advantage = 96.0 +/- 3.2
Draw rate (equal opponents) = 88.4 % +/- 1.1```

By Peter Martan Date 2024-02-26 08:46 Edited 2024-02-26 09:33 Upvotes 1

Lothar Jung schrieb:

**Time control:** 3s/game+0.05s/move

Das heißt wohl wirklich 3 Sekunden (+0.05s/move) für die ganze Partie.

By Peter Martan Date 2024-02-26 08:44 Upvotes 1

Stefan Pohl schrieb:

Der BT4-6077500 Download ist dafür gestrichen. Diese Netze sind einfach sehr groß, das nimmt mir sonst zuviel Platz auf GoogleDrive weg.

https://drive.google.com/file/d/17mrK1mSethvf_Cx4JAeefJ-zFKC0IgrZ/view

By Clemens Keck Date 2024-02-26 16:04 Upvotes 1

Danke Stefan. Wirklich sehr intresseant.

Wären die UHO geeignet für ein match Sf16 gegen BT4-6147500?
Und wie kann man aktuell noch eine halbwegs vernünftige Leela Ratio ermitteln?

Gruß, Clemens Keck

By Stefan Pohl Date 2024-02-26 18:58 Edited 2024-02-26 19:04 Upvotes 2

Clemens Keck schrieb:

Sicher. Ich teste ja gerade BT4-6147500 für meine NN-testruns gegen Stockfish 15.1. Noch mit meinen alten UHO 2022 Eröffnungen. Das klappt super.
Nimm am besten die 2. Stufe der neuen UHO 2024 Eröffnungen, würde ich raten, also 6mvs_+090_+099.pgn. Natürlich muß man nach ein paar Dutzend Partien eben schauen, wie die Remisquote ist. Ist sie unter 45%, dann müßte man eine Stufe heruntergehen (also 6mvs_+085_+094.pgn), aber ich bezweifle, daß das bei 2 so starken Engine nötig sein wird. Ist die Remisquote über 55%-60%, sollte man hingegen noch eine Stufe hochgehen, es gibt nach oben hin ja jede Menge weitere UHO-Stufen. Das hängt dann auch stark von Rechenpower des PCs und der gewählten Bedenkzeit ab. Da hilft nur "eingrooven" bis man die richtige UHO-Stufe für sein Setup gefunden hat. Der Idealfall ist eine Remisquote von 50%, da es fast keine Schwarzsiege gibt, hat man dann auch 50% Weißsiege. Das ergibt dann die quasi perfekte Statistik, was Elo-Spreizung und Gamepair-Resultate angeht. Ergo muß man versuchen, sich durch Benutzung der richtigen UHO-Evalstufe der 50% Remisquote bestmöglich anzunähern. Da meine neuen UHO 2024 Eröffnungsstufen sich immer um 0.05 Eval überlappen, läßt sich die Remisquote jetzt auf knapp 5% genau ansteuern (jede höhere UHO-Evalstufe senkt die Remisquote um knapp 5% (im Schnitt)), was erheblich genauer ist, als noch bei UHO 2022 (ca. 7.5% pro Stufe weniger Remisen, da sich dort die Evalstufen noch nicht überlappen).

Eine "vernünftige" Leela-Ratio gibt es ja nicht. Leider. Man kann so unterschiedliche Hardware und Engines einfach nicht wirklich sinnvoll in Bezug setzen daher ist jede Leela-Ratio eigentlich eine willkürliche Festsetzung. Ich für meinen Teil habe bei meinem NN-testrun setup versucht, die Leela-Ratio des TCEC halbwegs abzubilden. Einfach weil das der "prominenteste" Lc0-Stockfish Wettkampf ist, der die meisten Leute interessiert. Dazu war es nötig, Lc0 u.a. die doppelte Bedenkzeit wie Stockfish einzuräumen. Naja, die genauen Bedingungen kann man ja auf meiner Seite nachlesen, auch mit den nps-Werten von Stockfish 15.1 Aber Achtung: Stockfish 16.1 hat deutlich niedrigere nps als Stockfish 15.1 und auch als Stockfish 16. Insofern muß man bei SF 16.1 alles neu durchmessen. Auf seinem eigenen System.
https://www.sp-cc.de/nn-vs-sf-testing.htm

By Clemens Keck Date 2024-02-27 09:05 Upvotes 1

Top !
Danke Stefan

CK