Clemens Keck schrieb:
Danke Stefan. Wirklich sehr intresseant.
Wären die UHO geeignet für ein match Sf16 gegen BT4-6147500?
Und wie kann man aktuell noch eine halbwegs vernünftige Leela Ratio ermitteln?
Gruß, Clemens Keck
Sicher. Ich teste ja gerade BT4-6147500 für meine NN-testruns gegen Stockfish 15.1. Noch mit meinen alten UHO 2022 Eröffnungen. Das klappt super.
Nimm am besten die 2. Stufe der neuen UHO 2024 Eröffnungen, würde ich raten, also 6mvs_+090_+099.pgn. Natürlich muß man nach ein paar Dutzend Partien eben schauen, wie die Remisquote ist. Ist sie unter 45%, dann müßte man eine Stufe heruntergehen (also 6mvs_+085_+094.pgn), aber ich bezweifle, daß das bei 2 so starken Engine nötig sein wird. Ist die Remisquote über 55%-60%, sollte man hingegen noch eine Stufe hochgehen, es gibt nach oben hin ja jede Menge weitere UHO-Stufen. Das hängt dann auch stark von Rechenpower des PCs und der gewählten Bedenkzeit ab. Da hilft nur "eingrooven" bis man die richtige UHO-Stufe für sein Setup gefunden hat. Der Idealfall ist eine Remisquote von 50%, da es fast keine Schwarzsiege gibt, hat man dann auch 50% Weißsiege. Das ergibt dann die quasi perfekte Statistik, was Elo-Spreizung und Gamepair-Resultate angeht. Ergo muß man versuchen, sich durch Benutzung der richtigen UHO-Evalstufe der 50% Remisquote bestmöglich anzunähern. Da meine neuen UHO 2024 Eröffnungsstufen sich immer um 0.05 Eval überlappen, läßt sich die Remisquote jetzt auf knapp 5% genau ansteuern (jede höhere UHO-Evalstufe senkt die Remisquote um knapp 5% (im Schnitt)), was erheblich genauer ist, als noch bei UHO 2022 (ca. 7.5% pro Stufe weniger Remisen, da sich dort die Evalstufen noch nicht überlappen).
Eine "vernünftige" Leela-Ratio gibt es ja nicht. Leider. Man kann so unterschiedliche Hardware und Engines einfach nicht wirklich sinnvoll in Bezug setzen daher ist jede Leela-Ratio eigentlich eine willkürliche Festsetzung. Ich für meinen Teil habe bei meinem NN-testrun setup versucht, die Leela-Ratio des TCEC halbwegs abzubilden. Einfach weil das der "prominenteste" Lc0-Stockfish Wettkampf ist, der die meisten Leute interessiert. Dazu war es nötig, Lc0 u.a. die doppelte Bedenkzeit wie Stockfish einzuräumen. Naja, die genauen Bedingungen kann man ja auf meiner Seite nachlesen, auch mit den nps-Werten von Stockfish 15.1
Aber Achtung: Stockfish 16.1 hat deutlich niedrigere nps als Stockfish 15.1 und auch als Stockfish 16. Insofern muß man bei SF 16.1 alles neu durchmessen. Auf seinem eigenen System.
https://www.sp-cc.de/nn-vs-sf-testing.htm