LC Zero: Neue Neuralnetz-Größe

By Stefan Pohl Date 2018-05-01 12:57 Edited 2018-05-01 13:01 Upvotes 1

Übrigens habe ich (und ich hatte auch noch einige Nachfrage diesbzgl. über meine Website) es nicht geschafft, Leela mit einem der neuen, komplexeren Networks in Fritz 16 in der GPU-Version zum Laufen zu bringen. Falls noch jemand das Problem hat, man kann den inBetween-Adapter zwischenschalten. Eine Lösung, die für lczero v0.6 noch zwingend war. Das funktioniert in Fritz 16 aber auch klaglos mit v0.7 - und es werden dennoch korrekte Bewertungen, Hauptvarianten, Suchtiefen angezeigt. Ich habe mein step-by-step-manual auf meiner Website dahingehend überarbeitet. Ich kopiere es nochmal hier rein:

Since v0.7 no adapter is needed (inBetween, polyglot) for running leela in FritzGUI or ShredderGUI
Just do this:

1) Create a Leela-folder somewhere on your PC in a folder, which is not write protected (normally C:\ProgramFiles\ChessBase\Engines is writeprotected!) - I created it in my documents-folder.
2) download the Windows GPU Leela files here: https://github.com/glinscott/leela-chess/releases
3) Unzip all files in your leela-folder
4) Download the Network-file here (but NOT the first on top of the list (the newest)): http://162.217.248.187/networks
5) unpack the network-file, you get a folder. In it a file. Rename it to weights.txt
6) Copy the weights.txt file in your leela-folder
7) start the lczero.exe -file one time with mouse-double-click. That creates a file called "leelaz_opencl_tuning", which is needed! (If you want to run Leela faster, create a small .bat file with one line in it "lczero.exe -w weights.txt --full-tuner" and start that .bat file with double-click.
Then you have to wait around 20-30 minutes, while Leela tries around 5000 GPU-configurations in order to find the fastest.)
8) Start FritzGUI or ShredderGUI and create UCI-engine with lczero.exe. It is recommended, to set the number of Threads to the number of CPUs of your system, that makes Leela a little bit faster, although she uses the GPU for main calculations. (Thread is 2 by default)

If 8) does not work (in Fritz 16 some people reported problems), use the inBetween-adapter solution:

Download inBetween (I used V1.3) here:
https://www.chess.com/blog/AldoE/the-tale-of-the-lost-wrapper-inbetween-by-odd-gunnar-malin (scroll down)
Extract the files ‘InBetween.exe’ and ‘InBetween.ini’ to your Leela-folder.
Edit ‘InBetween.ini’ and provide the following option in the [InBetween] section:

CommandLine := lczero.exe -w weights.txt --uci --noponder

don’t forget to remove the ";" at the beginning of the Commandline to activate the command !!!!!

Then use the file inBetween.exe as engine-file in the FritzGUI engine-creation process, NOT lczero.exe

Stefan

By Guenter Stertenbrink Date 2018-05-03 08:20 Edited 2018-05-03 08:26

wieviel Watt verbraucht LC0 in Deinen Tests, und wieviel Watt verbrauchen die Gegner ?

ich denke, ein Vergleich von CPU- und GPU- engines sollte sich an dem Energieverbrauch orientieren

(oder an den Hardware-Kosten - die schwanken jedoch)

By Michael Scheidl Date 2018-05-03 13:56

Bei so unterschiedlichen Konzepten müssen wir das Prinzip einer "Hardware-Fairneß" beiseite schieben.

By Stefan Pohl Date 2018-05-03 14:03

Michael Scheidl schrieb:

Bei so unterschiedlichen Konzepten müssen wir das Prinzip einer "Hardware-Fairneß" beiseite schieben.

Naja, zumindest im Moment noch. Wenn Leela wirklich mal richtig stark werden sollte, dann könnte man sie auch im reinen CPU-Betrieb dann unter wirklich gleichen Bedingungen gegen andere Engines testen und spielen lassen. Aber dafür ist sie im Moment im CPU-Modus viel zu schwach.

By Olaf Jenkner Date 2018-05-03 17:38

Stefan Pohl schrieb:

Michael Scheidl schrieb:

Bei so unterschiedlichen Konzepten müssen wir das Prinzip einer "Hardware-Fairneß" beiseite schieben.

dann könnte man sie auch im reinen CPU-Betrieb dann unter wirklich gleichen Bedingungen gegen andere Engines testen und spielen lassen.

Das finde ich unfair. Man sollte Engines auf gleichen Computern mit starker Grafikkarte spielen lassen. Den Programmierern bleibt es unbenommen, ihre Programme auf Grafikkarten zu portieren.

By Peter Martan Date 2018-05-03 18:25

Warte nur, Michael, was hier an Hardware eigentlich beworben wird, und dazu war das ganze A0- Spektakel hauptsächlich gut, ist als Kaufversion völlig unerschwinglich, das sollst du bei Google mieten, und was da das Verhältnis Endverbraucher- Kosten und Stomverbrauch angeht, ist die Rechnung ein bisschen komplizierter.
Hardware- Fairness war sowieso vor- vorgestern.

By Peter Martan Date 2018-05-03 18:21

Guenter Stertenbrink schrieb:

ich denke, ein Vergleich von CPU- und GPU- engines sollte sich an dem Energieverbrauch orientieren

(oder an den Hardware-Kosten - die schwanken jedoch)

Und warum nimmst du dann die von "billigen" GPUs und teuren CPUs?
Was glaubst du, werden die Stromkosten der Google- GPU- Cloud sein?

By Peter Martan Date 2018-05-01 06:34

Das hingegen ist aber auch wieder umstritten, weil es dafür die Rechengeschwindigkeit halbiert, wenn ich das richtig verstehe:
http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=760488&t=67294

By Tom Paul Date 2018-05-01 07:02

Peter Martan schrieb:

Das hingegen ist aber auch wieder umstritten, weil es dafür die Rechengeschwindigkeit halbiert, wenn ich das richtig verstehe:
<a class='ura' href='http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=760488&t=67294'>http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=760488&t=67294</a>

Ich nehme lieber eine +500 ELO stärkere Engine bei der die Geschwindigkeit mehrfach halbiert wurde.

Aber ich kann dir gerne die Engine mit 5000% mehr Geschwindigkeit anbieten, wenn du unbedingt eine Spielstärke von 0 ELO haben möchtest.

By Guenter Stertenbrink Date 2018-05-01 07:43 Edited 2018-05-01 08:14

Johannes Kiliani schrieb:

Richtig, alle Selbstspielspiele werden an festen 800 Knoten durchgeführt. Die Stärke zur festgelegten Zeit
Die Bedienelemente sind im Moment etwa gleich zwischen dem neuen 192x15 net und dem vorherigen
128x10 Netzwerk. Dennoch macht das für den Selbstspieler Elo Sinn, denn die Verstärkung bedeutet
deutlich höhere Qualität der Trainingsdaten. Außerdem ist die neue Netzwerkgröße
hat ein großes Wachstumspotential und sollte in der Lage sein, ein paar hundert mehr zu gewinnen.
Elo in den nächsten Wochen.

Übersetzt mit www.DeepL.com/Translator

[die Qualitaet der Trainingspartien war beaengstigend niedrig, IMO. Regelmaessig
sah ich ein paar Partien pro Tag mit Narrenmatt, es wurde berichtet ueber simple
Bauern- und Figuren-Einsteller]

==========================================

--------------------------------
jemand postete diese Formel : Elo-sf=(3*Elo=se-2558.5) /5
um die LC0 self-play Elos in richtige Elos umzurechnen.
Aber Elos sind linear, warum kommt jetzt der Faktor von 0.6 ??
--------------------------------------

google spielte 44M Trainingspartien auf 5000 1st-generation-TPUs in 9 Stunden

, a TPU costs a little more than 2x as much as a Volta on AWS P3,
and delivers a little less than 2x the performance (180 TOPs for the TPU, 100 for Volta)

Nvidias Tesla-V100 $8000 at ebay

A0 : $ 80M hardware for 9h , 44M games --> 1.5 games per day per $
LC0 : $300K for 150d 400 times more time , 333 times less worth hardware

https://github.com/gcp/leela-zero/issues/305
1070 , 600 games per day
$90 , GTX660=350 games/day --> 3.9 games per day per $

I run two threads on a GTX 970 (about the same as a 1060) that have a combined speed of 1000-1200 nps
The Google Colab performance is about 1100-1300 nps.
On my laptop, the GPU client runs about 550-750 nps on a GTX 965M.

---------=============================--------------------
ich frag mich, wieviel schneller dieser Trainingsprozess in Zukunkt, in ein paar Jahren ablaufen wird.
Das ist noch ziemlich neu und sieht nicht sehr effektiv aus
Da halte ich einen Verbesserungsfaktor von 10-100 fuer moeglich.
========================----------------------=========================

By Peter Martan Date 2018-05-01 08:13 Edited 2018-05-01 08:20 Upvotes 1

Ich glaub mittlerweile, es geht bei dem ganzen Hype nur darum, teure Graphikkarten (der eigentliche Gamer- Markt bisher) endlich auch an Schachspieler verkaufen zu können.
Die teuren CPUs brauchen sie ja trotzdem weiter für alle anderen Schachengines.

Tom Paul wird das sicher wieder ernst nehmen, trotz des Sicherheitssmileys und eine lustige Antwort posten, die er aber seinerseits vermutlich wieder ernst meinen wird.

By Jens Hartmann Date 2018-05-01 08:15

Dont feed the Troll!

By Peter Martan Date 2018-05-01 08:26 Upvotes 1

Du hast recht, aber manchmal kann ich halt meiner eigenen drolligen Ader nicht ganz widerstehen.

By Guenter Stertenbrink Date 2018-05-01 08:18

es geht den Graphikkartenherstellern nicht um die Schachspieler

"gaming" , NN-Anwendungen selbstfahrende Autos etc. , siehe die Deepmind webseite

By Peter Martan Date 2018-05-01 08:24

Naja, sicher nicht um die Schachspieler allein, aber der Sinn der A0- Inszenierung dürfte schon auch irgendwie gewesen sein, die Macht der Graphikkarten zu demonstrieren, Schach als Imageträger war ja (siehe IBM) schon auch immer für die Hardwareproduzenten und -Vertreiber interessant.
Natürlich ging's bei A0 vordergründig vor allem um die Macht von Google.

Ich hoffe ja nach wie vor, dass sich auch jemand der armen verwaisten Giraffe annehmen wird, vielleicht kündigt Matthew Lai ja auch mal wieder bei Deep Mind.
http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=760380&t=67291

By Martin Steinwandter Date 2018-05-01 12:33

The Google Colab performance is about 1100-1300 nps
Diese Performance war mal, jetzt sind es zw. 500 und 800

By Guenter Stertenbrink Date 2018-05-01 13:35

ich frag mich, wieviel schneller dieser Trainingsprozess in Zukunkt, in ein paar Jahren ablaufen wird.
Das ist noch ziemlich neu und sieht nicht sehr effektiv aus
Da halte ich einen Verbesserungsfaktor von 10-100 fuer moeglich.

1005 Euro , gaming PC , Ryzen 1300 , GTX1080
945 Euro , gaming PC , Ryzen 1300 , GTX1070
669 Euro , gaming PG , Ryzen 1300 , GTX1060
505 Euro , gaming PC , Ryzen 1300 , GTX1050

ï»¿Elo-sf=(3*Elo=se-2558.5) /5

gooogle's 2nd generation TPU gets 180 teraflops
up to 11.5 petaflops of peak performance.

This TPU2 board has four of the TPU2 units, each board capable of a maximum peak throughput of 45 teraflops with the system board having an aggregate of 180 teraflops as we have said above. (We presume that this is using 16-bit half-precision floating point.)

https://news.ycombinator.com/item?id=16358557
Market rate is close to $1 per TB outbound. Your rate is $80-$120 per TB.

training ImageNet on a p3.16xlarge cost $358, when this post claims it'll cost
less than $200. (EDIT: never mind; the benchmark uses ImageNet-152, and
Google compares TPU performance against ImageNet-50)

--------------------------------
jemand postete diese Formel : Elo-sf=(3*Elo=se-2558.5) /5
um die LC0 self-play Elos in richtige Elos umzurechnen.
Aber Elos sind linear, warum kommt jetzt der Faktor von 0.6 ??
--------------------------------------

google spielte 44M Trainingspartien auf 5000 1st-generation-TPUs in 9 Stunden

, a TPU costs a little more than 2x as much as a Volta on AWS P3,
and delivers a little less than 2x the performance (180 TOPs for the TPU, 100 for Volta)

Nvidias Tesla-V100 $8000 at ebay

A0 : $ 80M hardware for 9h , 44M games --> 1.5 games per day per $
LC0 : $300K for 150d 400 times more time , 333 times less worth hardware

https://github.com/gcp/leela-zero/issues/305
1070 , 600 games per day
$90 , GTX660=350 games/day --> 3.9 games per day per $

I run two threads on a GTX 970 (about the same as a 1060) that have a combined speed of 1000-1200 nps
The Google Colab performance is about 1100-1300 nps.
On my laptop, the GPU client runs about 550-750 nps on a GTX 965M.

By Jens Hartmann Date 2018-05-01 08:14

Ja, die Rechengeschwindigkeit ist ungefähr halbiert. Auf meinem Rechner ist die Version 227 aber trotzdem die bisher stärkste.
Im 2. Posting des nachstehend verlinkten Threads findet man eine gute Erklärung.

https://groups.google.com/forum/#!topic/lczero/5sy5ztQ4x-k

By Stefan Pohl Date 2018-05-01 08:52

Peter Martan schrieb:

Das verstehst du richtig. Und diese Geschwindigkeitsreduzierung wird Leelas taktische Schwäche weiter verschärfen, was im Selfplay aber nicht auffällt (da spielt taktische Not gegen Elend). Man darf gespannt sein, wie es gegen normale, taktisch viel stärkere Engines laufen wird...
Ich teste ja z.Zt. noch das Network 214 (alte, kleinere Auflösung) und da läuft es bisher super - wohl eine beträchtliche Elosteigerung im Vergleich zu meinem ersten 300er Testrun mit Network 162. Voraussichtlich ab Anfang nächster Woche wird dann der erste Testrun mit dem dann aktuellsten, feiner aufgelösten Network starten. Mal schauen...

By Peter Martan Date 2018-05-01 09:47

Stefan Pohl schrieb:

was im Selfplay aber nicht auffällt (da spielt taktische Not gegen Elend)