Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Ist Deine Hardware Leela-ready?
- - By Michael Scheidl Date 2018-10-15 14:00
Man braucht dem Vernehmen nach eine extra Grafikkarte, bzw. -Hardware im PC. Das können auch Notebooks sein die zum Beispiel eine GeForce zusätzlich drin haben.

https://www.strawpoll.me/16650372

Im Zwischenergebnis von den TCEC-Kibitzen sind das ungefähr zwei Drittel. Mehr als ich geglaubt hätte.
Parent - - By Tom Paul Date 2018-10-15 17:35
Michael Scheidl schrieb:

Man braucht dem Vernehmen nach eine extra Grafikkarte, bzw. -Hardware im PC. Das können auch Notebooks sein die zum Beispiel eine GeForce zusätzlich drin haben.

<a class='ura' href='https://www.strawpoll.me/16650372'>https://www.strawpoll.me/16650372</a>

Im Zwischenergebnis von den TCEC-Kibitzen sind das ungefähr zwei Drittel. Mehr als ich geglaubt hätte.


LC0 ist auf einer RTX 2080 Ti so stark wie jetzt auf TCEC Hardware.
Es führt kein Weg an einer GPU vorbei.
Parent - - By Michael Scheidl Date 2018-10-17 10:31
Zitat:
Es führt kein Weg an einer GPU vorbei.

Sehe ich auch so, wobei ich allerdings seit jeher Gamer bin und die sowieso brauche, um all diese realistischen 3D-Welten im Computer zu erschaffen.

Die Wahlbeteiligung hielt sich wie immer in Grenzen. https://www.strawpoll.me/16650372/r

Jemand hat mir gesagt, Lc0 könne keine "interne" Grafikhardware die in CPUs integriert ist, benützen. Ich kann das nicht gegenchecken. Schade wär's denn die sind ja auch nicht so schlecht glaube ich...
Parent - - By Jörg Oster Date 2018-10-17 11:20
Michael Scheidl schrieb:

Zitat:
Es führt kein Weg an einer GPU vorbei.

Sehe ich auch so, wobei ich allerdings seit jeher Gamer bin und die sowieso brauche, um all diese realistischen 3D-Welten im Computer zu erschaffen.

Die Wahlbeteiligung hielt sich wie immer in Grenzen. <a class='ura' href='https://www.strawpoll.me/16650372/r'>https://www.strawpoll.me/16650372/r</a>

Jemand hat mir gesagt, Lc0 könne keine "interne" Grafikhardware die in CPUs integriert ist, benützen. Ich kann das nicht gegenchecken. Schade wär's denn die sind ja auch nicht so schlecht glaube ich...


Schon schade, habe auch so eine.

Mich würde ja mal interessieren, wie eine AMD Radeon RX580 im Vergleich zu einer NVidia GeForce GTX 1060 performt.
In Bezug auf LC0 natürlich.
AMD ist preislich einfach etwas interessanter. 
Parent - - By Peter Martan Date 2018-10-17 11:27
Jörg Oster schrieb:

Mich würde ja mal interessieren, wie eine AMD Radeon RX580 im Vergleich zu einer NVidia GeForce GTX 1060 performt.
In Bezug auf LC0 natürlich.

Also von der RX580 weiß ich's nicht, aber die ATI Radeon HD 5450 performed gar nicht, weil irgendwelche CUDA- Dingens nicht unterstützt werden, oder wie oder was auch immer das heißt und der Grund ist.
AMD soll überhaupt ein Problem sein, was ich in Zeiten, als ich noch hoffte, es würde doch gehen, las.
Ist allerdings auch schon bald wieder ein gefühltes Jahr her, immerhin habe ich mir so schon bald ein Jahr lang die Investition erspart.
Parent - - By Achim Müller Date 2018-10-17 11:50
Peter Martan schrieb:

Also von der RX580 weiß ich's nicht, aber die ATI Radeon HD 5450 performed gar nicht, weil irgendwelche CUDA- Dingens nicht unterstützt werden, oder wie oder was auch immer das heißt und der Grund ist.
AMD soll überhaupt ein Problem sein, was ich in Zeiten, als ich noch hoffte, es würde doch gehen, las.
Ist allerdings auch schon bald wieder ein gefühltes Jahr her, immerhin habe ich mir so schon bald ein Jahr lang die Investition erspart.



Cuda ist eine von Nvidia entwickelte Architektur für paralleles Rechnen, die meines Wissen auch nur auf Nvidia-Hardware funktioniert. Wer Grafikkarten von anderen Herstellern hat, sollte die OpenCL-Variante von lc0 versuchen/benutzen, die ebenfalls deutlich bessere Ergebnisse als die CPU-Version liefert.

Ciao

Achim
Parent - - By Stefan Pohl Date 2018-10-17 12:04
Achim Müller schrieb:

Cuda ist eine von Nvidia entwickelte Architektur für paralleles Rechnen, die meines Wissen auch nur auf Nvidia-Hardware funktioniert. Wer Grafikkarten von anderen Herstellern hat, sollte die OpenCL-Variante von lc0 versuchen/benutzen, die ebenfalls deutlich bessere Ergebnisse als die CPU-Version liefert.

Ciao

Achim


Das ist alles so völlig korrekt. Aber auch die OpenCL-Version (welche man für AMD-Karten nutzt), ist immer noch viel langsamer als lc0 CUDA.
Wer Leela also wirklich ernsthaft nutzen will, braucht eine NVIDIA-Grafikkarte. Punkt. So ist einfach die Situation (momentan).
Parent - - By Peter Martan Date 2018-10-17 12:11
Nahm ich ohnehin auch so an, Stefan, aber wenn du jetzt schon da bist: dass neuere AMD- Karten in keiner Weise an NVIDIA herankommen, bist du dir schon auch sicher, ja?
Parent - - By Stefan Pohl Date 2018-10-17 14:20 Upvotes 1
Peter Martan schrieb:

Nahm ich ohnehin auch so an, Stefan, aber wenn du jetzt schon da bist: dass neuere AMD- Karten in keiner Weise an NVIDIA herankommen, bist du dir schon auch sicher, ja?


Es geht ja letzlich nicht um die Leistung der Grafikkarten als solche, also ihre “Grafikleistung“, sondern ihre Leistung im KI-Bereich (neuronale Netze) und dafür gibt es eben CUDA, um hochgradig parallele Programmberechnungen optimiert auf der GPU durchzuführen.
CUDA ist NVIDIA-Exklusiv. Im Moment. Ich kann natürlich nicht hellsehen, aber ich denke, das wird auch so bleiben, da NVIDIA mittlerweile ja auch ganz bewußt die KI-Nutzung ihrer Karten im Auge hat und die neuen RTX Karten diesbzgl. optimiert/konstruiert hat. Insofern wären sie ja dumm, wenn sie CUDA als Lizenzprodukt für AMD-Karten (an ihren Konkurrenten) freigeben würden.
Natürlich wäre es vorstellbar, daß AMD für ihre Karten etwas Vergleichbares wie CUDA entwickelt, das halte ich prinzipiell sogar für recht wahrscheinlich. Aber dann müßte erst jemand eine lc0-Version programmieren, die diesen Standard unterstützt. Ergo: in absehbarer Zeit sehe ich das nicht.
Parent - - By Stefan Pohl Date 2018-10-17 15:11 Edited 2018-10-17 15:17 Upvotes 1
Wer sich fragt, wie schnell lc0 auf seiner NVIDIA-Karte laufen wird, wenn er sich eine anschafft, hier der Link zu den CUDA-Benchmarks: https://browser.geekbench.com/cuda-benchmarks

Den dortigen BenchWert teilt man durch ca. 42 und das ist dann etwa die Zahl der rollouts/s (von den ChessGUIs fälschlicherweise als nodes/s ausgegeben), die Leela CUDA auf der entsprechenden Karte schaffen sollte. Zumindest, sofern man ein neuronales Netz der Größe 20x256 nutzt, welches ja momentan die aktuelle Größe darstellt, die die 11xxx und 20xxx Nets haben.

Meine alte mobile Karte GTX 950m hat dort einen Wert von gut 43000 und bei mir schafft Leela gut 1000-1100 rollouts/s bei vollem Brett.
Dies gilt NICHT für die neuen RTX Karten! Wer stolzer Besitzer einer solchen ist, kann lc0 in den UCI-Optionen von fp32 auf fp16 setzen. Dies reduziert die Fließkommaoperations-Bandbreite von 32 auf 16 bit, was logischerweise eine beträchtliche Geschwindigkeitssteigerung mit sich bringt, nämlich ca. Faktor 2.7 (!). Ergo teilt man bei den neuen RTX Karten den CUDA-Benchwert nur durch ca. 15 (statt 42). Eine RTX 2080 (Benchwert 409466) erreicht also sagenhafte 27000 rollouts/s (in etwa), die RTX 2080 Ti sogar ca. 36000 (!). Wahnsinn!
Wer also eine neue Grafikkarte für lc0 anschaffen will, sollte unbedingt eine der neuen RTX Karten kaufen. Das ist eine andere Dimension!
Parent - By Peter Martan Date 2018-10-17 18:07
Danke, Stefan.
Parent - - By Jörg Oster Date 2018-10-17 19:01 Edited 2018-10-17 19:10
Nvidia unterstützt allerdings auch OpenCL. Wie groß der Leistungsunterschied
zur hauseigenen Lösung CUDA ist, weiß ich jedoch nicht.

Prinzipiell scheint mir OpenCL die universellere Schnittstelle zu sein,
weil mehr Geräte (nicht nur Grafikchips) unterstützt werden.

Edit: Hier noch ein ergänzender und weiterführender Link. https://wiki.tiker.net/CudaVsOpenCL
Daraus:
Zitat:
Speed

    If you're addressing the same hardware, both frameworks should be able to achieve the same speeds. With the current beta drivers, this may not be the case, but any advantage should level out quickly. Some early implementations of special functions aside, this has been found to be the case.
Parent - - By Stefan Pohl Date 2018-10-17 20:32
Jörg Oster schrieb:

Nvidia unterstützt allerdings auch OpenCL. Wie groß der Leistungsunterschied
zur hauseigenen Lösung CUDA ist, weiß ich jedoch nicht.


Auf meiner Nvidia GTX 950m etwa Faktor 4.5. Also Lc0-CUDA ist ca. 4.5 mal schneller als lc0-OpenCL.
Parent - - By Jörg Oster Date 2018-10-17 20:42
Stefan Pohl schrieb:

Jörg Oster schrieb:

Nvidia unterstützt allerdings auch OpenCL. Wie groß der Leistungsunterschied
zur hauseigenen Lösung CUDA ist, weiß ich jedoch nicht.


Auf meiner Nvidia GTX 950m etwa Faktor 4.5. Also Lc0-CUDA ist ca. 4.5 mal schneller als lc0-OpenCL.


Das ist natürlich schon beachtlich.
Danke für die Info.
Parent - By Jörg Oster Date 2018-10-17 21:31
Und nur mal so zur Info für alle, habe mir gerade die openblas Version (nutzt die CPU) geholt.
Dazu das Network 11248, welches auch beim TCEC-Cup zum Einsatz kommt.

Großes Lob an die Entwickler, wirklich problemlos das alles.

Hier die Ausgabe von 'go nodes 10000':
Engine:
go nodes 10000
info depth 1 seldepth 2 time 585 nodes 6 score cp 18 hashfull 0 nps 10 tbhits 0 pv d2d4 g8f6
info depth 2 seldepth 3 time 947 nodes 9 score cp 15 hashfull 0 nps 9 tbhits 0 pv d2d4 g8f6 c2c4
info depth 2 seldepth 3 time 972 nodes 13 score cp 11 hashfull 0 nps 13 tbhits 0 pv g2g3 c7c5 c2c4 h7h5
info depth 2 seldepth 4 time 1143 nodes 19 score cp 17 hashfull 0 nps 16 tbhits 0 pv c2c4 e7e5 g2g3 b8c6
info depth 3 seldepth 4 time 1241 nodes 27 score cp 17 hashfull 0 nps 21 tbhits 0 pv c2c4 e7e5 g2g3 b8c6 c4c5
info depth 3 seldepth 5 time 1412 nodes 34 score cp 14 hashfull 0 nps 24 tbhits 0 pv c2c4 e7e5 g2g3 b8c6 f1g2
info depth 4 seldepth 6 time 1774 nodes 63 score cp 14 hashfull 0 nps 35 tbhits 0 pv c2c4 e7e5 d2d3 f8e7 b1c3 g8f6
info depth 4 seldepth 6 time 2289 nodes 96 score cp 14 hashfull 0 nps 41 tbhits 0 pv g1f3 d7d5 g2g3 c7c5 f1g2 g8f6
info depth 4 seldepth 7 time 2515 nodes 122 score cp 15 hashfull 0 nps 48 tbhits 0 pv c2c4 e7e5 d2d3 f8e7 b1c3 g8f6 g1f3
info depth 4 seldepth 8 time 3169 nodes 178 score cp 18 hashfull 0 nps 56 tbhits 0 pv c2c4 e7e5 g2g3 b8c6 f1g2 g7g6 e2e3 d7d6
info depth 4 seldepth 8 time 3606 nodes 206 score cp 15 hashfull 1 nps 57 tbhits 0 pv g1f3 d7d5 d2d4 e7e6 c2c4 g8f6 c4d5 e6d5
info depth 4 seldepth 9 time 4079 nodes 241 score cp 19 hashfull 1 nps 59 tbhits 0 pv c2c4 e7e5 g2g3 b8c6 f1g2 g7g6 e2e3 d7d6 g1e2
info depth 4 seldepth 9 time 4310 nodes 263 score cp 16 hashfull 1 nps 61 tbhits 0 pv g1f3 d7d5 d2d4 e7e6 c2c4 g8f6 c4d5 e6d5
info depth 4 seldepth 10 time 4831 nodes 294 score cp 17 hashfull 1 nps 60 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c7c5 e2e3 c5d4 e3d4
info depth 5 seldepth 10 time 5026 nodes 321 score cp 18 hashfull 1 nps 63 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c7c5 e2e3 c5d4 e3d4
info depth 5 seldepth 11 time 6759 nodes 464 score cp 19 hashfull 2 nps 68 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c7c5 e2e3 c5d4 e3d4 b8c6
info depth 5 seldepth 12 time 9085 nodes 644 score cp 21 hashfull 3 nps 70 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3
info depth 5 seldepth 13 time 10965 nodes 801 score cp 24 hashfull 3 nps 73 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8
info depth 5 seldepth 14 time 13583 nodes 981 score cp 25 hashfull 4 nps 72 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f4c7
info depth 6 seldepth 14 time 13604 nodes 1066 score cp 25 hashfull 4 nps 78 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2
info depth 6 seldepth 15 time 15216 nodes 1153 score cp 27 hashfull 5 nps 75 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2
info depth 6 seldepth 16 time 15837 nodes 1268 score cp 27 hashfull 5 nps 80 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2
info depth 6 seldepth 17 time 16658 nodes 1303 score cp 27 hashfull 5 nps 78 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2
info depth 6 seldepth 18 time 17416 nodes 1330 score cp 27 hashfull 5 nps 76 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2
info depth 6 seldepth 19 time 18033 nodes 1475 score cp 27 hashfull 6 nps 81 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2
info depth 6 seldepth 19 time 23925 nodes 1909 score cp 28 hashfull 8 nps 79 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2 f6e4
info depth 6 seldepth 20 time 24042 nodes 2035 score cp 28 hashfull 8 nps 84 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2 f6e4
info depth 6 seldepth 21 time 27620 nodes 2330 score cp 28 hashfull 9 nps 84 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2 f6e4
info depth 6 seldepth 21 time 32946 nodes 2831 score cp 27 hashfull 11 nps 85 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2 f6e4 d1b3 e4f2
info depth 6 seldepth 22 time 37553 nodes 3245 score cp 26 hashfull 13 nps 86 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2 f6e4 d1b3 b8c6 c4d5
info depth 6 seldepth 23 time 40181 nodes 3569 score cp 25 hashfull 14 nps 88 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2 f6e4 d1b3 b8c6 c4d5
info depth 7 seldepth 23 time 44901 nodes 4021 score cp 25 hashfull 16 nps 89 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2 f6e4 d1b3 b8c6 c4d5
info depth 7 seldepth 23 time 51153 nodes 4606 score cp 24 hashfull 18 nps 90 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2 f6e4 d1b3 b8c6 c4d5
info depth 7 seldepth 24 time 56928 nodes 5255 score cp 23 hashfull 20 nps 92 tbhits 0 pv g1f3 d7d5 d2d4 g8f6 c1f4 c8f5 c2c4 e7e6 b1c3 f8b4 e2e3 e8g8 f1e2 f6e4 d1b3 b8c6 c4d5 e6d5
info depth 7 seldepth 24 time 58635 nodes 5425 score cp 30 hashfull 21 nps 92 tbhits 0 pv d2d4 g8f6 c2c4 e7e6 g2g3 f8b4 b1d2 d7d5 f1g2 e8g8 g1f3 d5c4 a2a3 b4d2 c1d2 c8d7 a1c1
info depth 7 seldepth 24 time 64507 nodes 6064 score cp 30 hashfull 23 nps 94 tbhits 0 pv d2d4 g8f6 c2c4 e7e6 g2g3 f8b4 b1d2 d7d5 f1g2 e8g8 g1f3 d5c4 a2a3 b4d2 c1d2 c8d7 a1c1
info depth 7 seldepth 25 time 70721 nodes 6678 score cp 29 hashfull 25 nps 94 tbhits 0 pv d2d4 g8f6 c2c4 e7e6 g2g3 f8b4 b1d2 d7d5 f1g2 e8g8 g1f3 d5c4 a2a3 b4d2 c1d2 c8d7 a1c1 c4c3
info depth 7 seldepth 25 time 76352 nodes 7249 score cp 29 hashfull 27 nps 94 tbhits 0 pv d2d4 g8f6 c2c4 e7e6 g2g3 f8b4 b1d2 d7d5 f1g2 e8g8 g1f3 d5c4 a2a3 b4d2 c1d2 c8d7 a1c1 d7b5 f3e5
info depth 7 seldepth 26 time 81032 nodes 7706 score cp 29 hashfull 29 nps 95 tbhits 0 pv d2d4 g8f6 c2c4 e7e6 g2g3 f8b4 b1d2 d7d5 f1g2 e8g8 g1f3 d5c4 a2a3 b4d2 c1d2 c8d7 a1c1 d7b5 f3e5 c4c3
info depth 7 seldepth 26 time 86508 nodes 8365 score cp 29 hashfull 31 nps 96 tbhits 0 pv d2d4 g8f6 c2c4 e7e6 g2g3 f8b4 b1d2 d7d5 f1g2 e8g8 g1f3 d5c4 a2a3 b4d2 c1d2 c8d7 a1c1 d7b5 f3e5 c7c6
info depth 7 seldepth 26 time 93313 nodes 9070 score cp 28 hashfull 33 nps 97 tbhits 0 pv d2d4 g8f6 c2c4 e7e6 g2g3 f8b4 b1d2 d7d5 f1g2 e8g8 g1f3 d5c4 a2a3 b4d2 c1d2 c8d7 a1c1 d7b5 f3e5 c7c6
info depth 7 seldepth 26 time 97548 nodes 9743 score cp 28 hashfull 36 nps 99 tbhits 0 pv d2d4 g8f6 c2c4 e7e6 g2g3 f8b4 b1d2 d7d5 f1g2 e8g8 g1f3 d5c4 a2a3 b4d2 c1d2 c8d7 a1c1 d7b5 f3e5 c7c6
bestmove d2d4 ponder g8f6


Nun ja, die Geschwindigkeit ist natürlich mehr als bescheiden, aber es läuft! 
Parent - By Peter Martan Date 2018-10-17 12:09
Achim Müller schrieb:

Cuda ist eine von Nvidia entwickelte Architektur für paralleles Rechnen, die meines Wissen auch nur auf Nvidia-Hardware funktioniert. Wer Grafikkarten von anderen Herstellern hat, sollte die OpenCL-Variante von lc0 versuchen/benutzen, die ebenfalls deutlich bessere Ergebnisse als die CPU-Version liefert.

Danke, Achim, hab ich eh auch probiert, geht aber auch nicht auf dem Rechner mit der AMD- Karte.
Übrigens die CPU- Version auch nicht.
Parent - By Jörg Oster Date 2018-10-17 22:36
Michael Scheidl schrieb:

Zitat:
Es führt kein Weg an einer GPU vorbei.

Sehe ich auch so, wobei ich allerdings seit jeher Gamer bin und die sowieso brauche, um all diese realistischen 3D-Welten im Computer zu erschaffen.

Die Wahlbeteiligung hielt sich wie immer in Grenzen. <a class='ura' href='https://www.strawpoll.me/16650372/r'>https://www.strawpoll.me/16650372/r</a>

Jemand hat mir gesagt, Lc0 könne keine "interne" Grafikhardware die in CPUs integriert ist, benützen. Ich kann das nicht gegenchecken. Schade wär's denn die sind ja auch nicht so schlecht glaube ich...


Das scheint dann doch so nicht zu stimmen.

Engine:
Found pb network file: ./994de36c13ddf2540bf588817fcca0cb4e279e61c7d118c3bccc9c74419caecd
Creating backend [opencl]...
OpenCL, maximum batch size set to 16.
Initializing OpenCL.
Detected 1 OpenCL platforms.
Platform version: OpenCL 1.2
Platform profile: FULL_PROFILE
Platform name:    Intel(R) OpenCL
Platform vendor:  Intel(R) Corporation
Device ID:      0
Device name:    Intel(R) HD Graphics 4600
Device type:    GPU
Device vendor:  Intel(R) Corporation
Device driver:  20.19.15.4624
Device speed:   1150 MHZ
Device cores:   20 CU
Device score:   612
Device ID:      1
Device name:    Intel(R) Core(TM) i5-4570 CPU @ 3.20GHz
Device type:    CPU
Device vendor:  Intel(R) Corporation
Device driver:  5.2.0.10094
Device speed:   3200 MHZ
Device cores:   4 CU
Device score:   512
Selected platform: Intel(R) OpenCL
Selected device: Intel(R) HD Graphics 4600
with OpenCL 1.2 capability.
Started OpenCL SGEMM tuner with batch size 256.
Will try 578 valid configurations.
(1/578) KWG=32 KWI=2 MDIMA=8 MDIMC=8 MWG=16 NDIMB=8 NDIMC=8 NWG=16 SA=0 SB=0 STRM=0 STRN=0 VWM=1 VWN=1 12090.5 us (44.4 GFLOPS)
(2/578) KWG=32 KWI=2 MDIMA=8 MDIMC=8 MWG=32 NDIMB=8 NDIMC=8 NWG=16 SA=0 SB=0 STRM=0 STRN=0 VWM=1 VWN=1 11529.3 us (46.6 GFLOPS)
(119/578) KWG=32 KWI=2 MDIMA=16 MDIMC=16 MWG=64 NDIMB=8 NDIMC=8 NWG=16 SA=0 SB=0 STRM=0 STRN=0 VWM=4 VWN=1 11018.7 us (48.7 GFLOPS)
(290/578) KWG=32 KWI=2 MDIMA=8 MDIMC=8 MWG=16 NDIMB=8 NDIMC=8 NWG=16 SA=1 SB=1 STRM=0 STRN=0 VWM=1 VWN=1 10916.7 us (49.2 GFLOPS)
(300/578) KWG=32 KWI=2 MDIMA=16 MDIMC=16 MWG=32 NDIMB=8 NDIMC=8 NWG=16 SA=1 SB=1 STRM=0 STRN=0 VWM=1 VWN=1 10312.5 us (52.1 GFLOPS)
(354/578) KWG=32 KWI=2 MDIMA=8 MDIMC=8 MWG=16 NDIMB=8 NDIMC=8 NWG=16 SA=1 SB=1 STRM=0 STRN=0 VWM=2 VWN=1 10074.3 us (53.3 GFLOPS)
(363/578) KWG=32 KWI=2 MDIMA=16 MDIMC=16 MWG=32 NDIMB=8 NDIMC=8 NWG=16 SA=1 SB=1 STRM=0 STRN=0 VWM=2 VWN=1 9626.0 us (55.8 GFLOPS)
(483/578) KWG=32 KWI=2 MDIMA=16 MDIMC=16 MWG=32 NDIMB=8 NDIMC=8 NWG=16 SA=1 SB=1 STRM=0 STRN=0 VWM=2 VWN=2 9336.0 us (57.5 GFLOPS)
Wavefront/Warp size: 32
Max workgroup size: 512
Max workgroup dimensions: 512 512 512
info depth 1 seldepth 2 time 621 nodes 6 score cp 18 hashfull 0 nps 9 tbhits 0 pv d2d4 g8f6
info depth 2 seldepth 3 time 1177 nodes 10 score cp 7 hashfull 0 nps 8 tbhits 0 pv e2e3 g8f6 d2d4
info depth 2 seldepth 3 time 1390 nodes 13 score cp 11 hashfull 0 nps 9 tbhits 0 pv g2g3 c7c5 c2c4
info depth 3 seldepth 4 time 1585 nodes 20 score cp 11 hashfull 0 nps 12 tbhits 0 pv e2e3 g8f6 d2d4 d7d5
info depth 3 seldepth 4 time 1910 nodes 27 score cp 17 hashfull 0 nps 14 tbhits 0 pv c2c4 e7e5 g2g3 b8c6
info depth 3 seldepth 5 time 2118 nodes 36 score cp 11 hashfull 0 nps 16 tbhits 0 pv g1f3 d7d5 g2g3 c7c5 f1g2
info depth 3 seldepth 5 time 2479 nodes 48 score cp 14 hashfull 0 nps 19 tbhits 0 pv c2c4 e7e5 d2d3 f8e7 b1c3
info depth 3 seldepth 6 time 2730 nodes 59 score cp 14 hashfull 0 nps 21 tbhits 0 pv c2c4 e7e5 d2d3 f8e7 b1c3
info depth 4 seldepth 6 time 3747 nodes 80 score cp 14 hashfull 0 nps 21 tbhits 0 pv g1f3 d7d5 g2g3 c7c5 f1g2 g8f6
info depth 4 seldepth 7 time 3758 nodes 95 score cp 15 hashfull 0 nps 25 tbhits 0 pv g1f3 d7d5 g2g3 c7c5 f1g2 g8f6
info depth 4 seldepth 7 time 3831 nodes 105 score cp 15 hashfull 0 nps 27 tbhits 0 pv g1f3 d7d5 g2g3 c7c5 f1g2 g8f6 g3g4
bestmove g1f3 ponder d7d5


Von der Performance her aber unterirdisch. 

Verstehe ich jetzt erstmal nicht so ganz ...
Parent - By Tom Paul Date 2018-10-23 19:03
-Extrem starke GPUs mit modernen Funktionen oder neuen Funktionen werden auch für die weitere Entwicklung von LC0 benötigt.
-Diese sind super geeignet um GPU Power zu stiften.
-Neue Verbesserungen lassen sich damit auch besser durchführen und testen.
-Inzwischen gibt es OpenCl und Cuda usw., davor gab es eigentlich nur .
-Wenn in ~1-3 Monaten eine LC0 Version herauskommt die INT4 nutzt (ich glaube das unterstützen nur die RTX GPUs), dann berechnet LC0 plötzlich vier mal so viel und wäre damit auf einen Schlag ~130 ELO stärker.
- By Guenter Stertenbrink Date 2018-10-17 14:14
wie waer's mit einer Forum-Grafikkarte ?
Alle zahlen, bis auf einen, der muss (darf ?)
dafuer die Partien spielen/Stellungen analysieren/Tests laufen
und muss die Ergebnisse im Forum posten und .pgns uploaden.
Wenn er keine Lust mehr hat, weiterschiecken und es kommt der naechste dran ...
Up Topic Hauptforen / CSS-Forum / Ist Deine Hardware Leela-ready?

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill