Um einen mittelbaren Vergleich der 11er-, 32er- und 40er-Netze zu bekommen, habe ich sie in einem Spießrutenlauf gegen Stockfish 10 mit 3 Threads spielen lassen. Zeitvorgabe auf Stefan Pohls Empfehlung hin 1'+3". Gespielt wurde ohne Abschätzung und Tablebases, bis zum bitteren Ende. Dadurch dauerten die 231 Partien um die 30 Stunden. Die Leela-Ratio war dabei minimal größer als 1.0. Als Eröffnungsvorgaben dienten Stefan Pohls überarbeiteten 4-Züger-Super-GM-Eröffnungen.
Ergebnis:
Program Elo + - Games Score Av.Op. Draws
1 Stockfish 10...: 3030 28 28 231 58.4 % 2970 60.6 %
2 LC0-id32997....: 2984 42 44 77 43.5 % 3030 68.8 %
3 LC0-id11248....: 2970 50 52 77 41.6 % 3030 57.1 %
4 LC0-id40705....: 2956 51 52 77 39.6 % 3030 55.8 %
Im Einzelnen punktete Stockfish 10 wie folgt:
Gegner Partien Score
LC0-id11248....: 77 (+ 23,= 44,- 10), 58.4 %
LC0-id32997....: 77 (+ 17,= 53,- 7), 56.5 %
LC0-id40705....: 77 (+ 25,= 43,- 9), 60.4 %
Aufgrund der Elo-Auswertung der Selfplay-Ergebnisse der NNs hätte ich (trotz der großen statistischen Unschärfe) ein anderes Ergebnis erwartet.
Natürlich gab es mangels Abschätzung wieder einige Seeschlangen (um die 300 Züge). Zur Schwäche der NNs insbesondere in elementaren Endspielen bei eigenem Materialvorteil fiel mir auf, dass LC0 zielstrebiger wurde, wenn das Remis näher rückte - und dann mitunter noch gewann.
Die kürzeste Gewinnpartie gelang Stockfish mit einem Matt nach 22 Zügen:
Event:
Ort:
Datum:
Weiss:
Schwarz:
Ergebnis
Board
12. Sd2??, mit einem Score von +3.96 gespielt, verliert natürlich sofort. Sollte das ein spekulatives Opfer gewesen sein, wird es von 14. Dxg6?? (+0.39) locker getoppt. Stockfish bewertete die Stellung nach 12. .. cxd2 mit +0.72 und nach 14. .. hxg6 mit mehr als +15 Bauerneinheiten zu seinen Gunsten. Also, die 40er-Netze bieten einem schon was, wenn man aufpasst
.
Viele Grüße
Th. Plaschke