Reinhold Stibi schrieb:
Eine RTX 2080 Ti ist von den Cuda-Benchmark ca. 3x schneller als eine GTX 1070.
Das kann doch nicht sooo schwer zu begreifen sein, daß die RTX-Karten mit Leela erheblich schneller laufen, als die Cuda-Benchmarks nahelegen. Eine RTX 2080Ti ist mit Leela daher nicht 3x schneller als eine GTX 1070. Sondern circa 8.4 mal schneller! Und wenn Leela von Fließkomma-Operationen (s.u.) auf Integer-Operationen umprogrammiert wird, dürfte Leela auf den RTX-Karten noch mal erheblich schneller werden.
Also poste ich es jetzt zum dritten Mal (!):
Wer sich fragt, wie schnell lc0 auf seiner NVIDIA-Karte laufen wird, wenn er sich eine anschafft, hier der Link zu den CUDA-Benchmarks:
https://browser.geekbench.com/cuda-benchmarksDen dortigen BenchWert teilt man durch ca. 42 und das ist dann etwa die Zahl der rollouts/s (von den ChessGUIs fälschlicherweise als nodes/s ausgegeben), die Leela CUDA auf der entsprechenden Karte schaffen sollte. Zumindest, sofern man ein neuronales Netz der Größe 20x256 nutzt, welches ja momentan die aktuelle Größe darstellt, die die 11xxx und 20xxx Nets haben.
Meine alte mobile Karte GTX 950m hat dort einen Wert von gut 43000 und bei mir schafft Leela gut 1000-1100 rollouts/s bei vollem Brett.
Dies gilt NICHT für die neuen RTX Karten! Wer stolzer Besitzer einer solchen ist, kann lc0 in den UCI-Optionen von fp32 auf fp16 setzen. Dies reduziert die Fließkommaoperations-Bandbreite von 32 auf 16 bit, was logischerweise eine beträchtliche Geschwindigkeitssteigerung mit sich bringt, nämlich ca. Faktor 2.7 (!). Ergo teilt man bei den neuen RTX Karten den CUDA-Benchwert nur durch ca. 15 (statt 42). Eine RTX 2080 (Benchwert 409466) erreicht also sagenhafte 27000 rollouts/s (in etwa), die RTX 2080 Ti sogar ca. 36000 (!).Wer also eine neue Grafikkarte für lc0 anschaffen will, sollte unbedingt eine der neuen RTX Karten kaufen. Das ist eine andere Dimension!