Lothar Jung schrieb:
Ganz nah dran:
Round Robin: stockfish_10 vs lc0.net.61123
LC0-version: lc0-v0.22, cuda, Default parameters
SF-version: stockfish_10, Threads=4, Default parameters
LC0 options: Backend=cudnn-fp16
Hardware: RTX2060 / i5
Software: Cutechess-CLI
Time control: LC0: 1k nodes/move, sf_10: 500k nodes/move
Book: openings-8ply-10k.pgn, 8 plies, sequential, color reversed
Tablebases: Syzygy 5-men
# PLAYER : RATING ERROR POINTS PLAYED W L D D(%) CFS(%)
1 stockfish_10 : 0.0 10.5 808.5 1500 519 402 579 39 73
2 lc0.net.61055 : -7.2 19.2 245.0 500 142 152 206 41 88
3 lc0.net.61081 : -28.0 21.2 230.5 500 131 170 199 40 88
*4 lc0.net.61123 : -49.0 19.8 216.0 500 129 197 174 35 ---
White advantage = 51.50 +/- 7.18
Draw rate (equal opponents) = 39.57 % +/- 1.30
Oder auch nicht (ganz nah dran)... sobald mit einer Zeitkontrolle gespielt wird, statt dieser idiotischen fix-node Einstellung, sieht die Wirklichkeit gleich ganz anders aus.
Doppelt so viel Bedenkzeit, wie bei mir. Dazu circa doppelt so schnelle Hardware (mindestens), wie bei mir. Also ca. 4.5x mehr Knoten pro gespieltem Zug auf dem Brett.
Und man sieht das, was zu erwarten war: Leicht zusammengeschobene Ergebnisse Richtung 50%-50% (wegen der steigenden Remisqouten) (im Vergleich zu meinen Tests), also etwas geringere Abstände, aber grundlegend nichts anderes. Von ganz nah dran an Stockfish 10 kann bei den T60 Netzen nachwievor überhaupt keine Rede sein. Nimmt man den Durchschnitt der 5 Testläufe (alle mit Netz 61233, zusammen immerhin 1000 Partien, also kein ganz alberner Testrun), dann ca. -90 Elo zu SF 10. Bei mir: ca. -125 zu Stockfish-Dev vom Juni, welche ca. +22 Elo besser als SF 10 ist. Umgerechnet auf SF 10 also bei mir ca. -100 Elo Abstand zum halbwegs aktuellen T60 Netz (61211). Paßt!
Vernünftiges Testen ist halt gar nicht so schwer (vernünftige Leela-Ratio (hier ca. 0.92), wenigstens 1000 Partien, eine richtige Zeitkotrolle). Und dann kommen (quelle surprise) auch immer wieder gut reproduzierbare Ergebniss dabei heraus. Leider ist gerade discord mit Testruns zugemüllt, die auf lächerlichen Bedingungen basieren, wo dann (logischerweise) absurde Ergebnisse herauskommen. Aber ab und zu gibt es mal seriöse Ausnahmen. Wie eben diese hier.
Gauntlet v0.23.0-rc1 (61233) regression test against SF-10 with TC
LC0-version: v0.22.0, v0.23.0-rc1
LC0 options:
v0.22.0: --backend=cudnn-fp16 --syzygy-paths=E:\syzygy --threads=2 --nncache=20000000
v0.23.0-rc1: --backend=cudnn-fp16 --syzygy-paths=E:\syzygy --threads=2 --nncache=20000000
v0.23.0-rc1-log: --backend=cudnn-fp16 --syzygy-paths=E:\syzygy --threads=2 --nncache=20000000 --logit-q
v0.23.0-rc1-short: --backend=cudnn-fp16 --syzygy-paths=E:\syzygy --threads=2 --nncache=20000000 --short-sightedness=0.02
v0.23.0-rc1-log+short: --backend=cudnn-fp16 --syzygy-paths=E:\syzygy --threads=2 --nncache=20000000 --logit-q --short-sightedness=0.02
Time control: 1 min + 1s
Speed:
SF-10: i9-9900K, 12 threads, 4GB Hash ~ 20,000,000 nps
v0.22.0: RTX 2070S ~ 14,100 nps
v0.23.0-rc1: RTX 2070S ~ 14,100 nps
v0.23.0-rc1-log: RTX 2070S ~ 14,100 nps
v0.23.0-rc1-short: RTX 2070S ~ 14,200 nps
v0.23.0-rc1-log+short: RTX 2070S ~ 14,200 nps
Book: Chad's openings-6ply-1000.pgn, sequentially, switched colors
Tablebases: 6-men syzygy
Adjudication: TB's, loss=-800 centipawns, draw=400 moves or 200 moves and value=0.00
Software: Arena
Results:
Code:
# PLAYER : RATING ERROR POINTS PLAYED (%) CFS(%) W D L D(%) OppN
1 Stockfish_10_x64_bmi2 : 0 11 625.0 1000 62.5 100 329 592 79 59.2 5
2 lc0.net.61233-0.23.0-rc1-log+short : -79 27 78.0 200 39.0 60 14 128 58 64.0 1
3 lc0.net.61233-0.22.0 : -85 27 76.5 200 38.3 50 11 131 58 65.5 1
4 lc0.net.61233-0.23.0-rc1-log : -85 27 76.5 200 38.3 73 18 117 65 58.5 1
5 lc0.net.61233-0.23.0-rc1 : -98 27 73.0 200 36.5 64 18 110 72 55.0 1
6 lc0.net.61233-0.23.0-rc1-short : -106 28 71.0 200 35.5 --- 18 106 76 53.0 1
White advantage = 39.86 +/- 6.90
Draw rate (equal opponents) = 65.91 % +/- 1.72