v0.19.1-rc2

By Reinhold Stibi Date 2018-12-08 15:27

Danke für die Mitteilung, da können ja Fachleute einiges experimentieren.

Muss noch mit v0.19.00 vergleichen und schauen was dazugekommen ist.

Gibt es eine Anleitung was die einzelnen Parameter bewirken ?

By Thorsten Czub Date 2018-12-08 18:55

Ist das immer noch so kompliziert zu installieren oder gibt es da mittlerweile eine UCI engine die ohne viel Aufwand läuft?

By Michael Hoeppenstein Date 2018-12-08 20:06 Upvotes 1

Nein, es ist überhaupt nicht kompliziert.

1. Einfach lc0.exe herunterladen https://github.com/LeelaChessZero/lc0/releases
2. Gewünschtes Netzwerk herunterladen http://lczero.org/networks/
3. Alles in den gleichen Ordner packen
4. UCI-Engine in einer GUI deiner Wahl installieren
5. Fertig

By Stefan Pohl Date 2018-12-08 20:38 Upvotes 2

Naja, ganz so einfach ist es nicht. Zunächst muß man wissen, welche der drei Downloads man braucht
Die Blas-Version läuft auf der CPU, ist aber de facto unbrauchbar langsam.
Die opencl-Version ist für alle nicht-NVIDIA Grafikkarten. Nutzt man diese, muß man die lc0.exe erst mal per Doppelklick starten und go infinite eingegeben, damit sie sich auf die GPU des PCs optimal konfigurieren kann (das kann gut 30 Minuten dauern!).
Die CUDA Version läuft nur auf NVIDIA-GPUs. Da es mittlerweile Cuda 10 ist, muß man aber zwingend zunächst seinen Grafiktreiber auf der NVIDIA-Website aktualisieren, sonst geht gar nix.
Nur die CUDA-Version ist wirklich schnell. Wer zudem eine neue RTX Karte hat, muß in den Uci-Optionen noch fp16 einstellen (statt fp32), das macht Leela noch mal deutlich schneller.

Wirklich kompliziert ist das aber letzlich alles nicht mehr, da man sich die nötigen CUDA-Dateien eben nicht mehr auf der NVIDIA-Developerseite zusammenklauben muß, diese Dateien sind jetzt im Leela-Download enthalten. Weswegen der Cuda-Leela Download auch über 200MB groß ist (!)

By Michael Hoeppenstein Date 2018-12-08 20:47 Upvotes 1

Den aktuellen Grafikkartentreiber sollte man sowieso immer installiert haben. Welche Version zu verwenden ist, erklärt sich von selbst.

By Thorsten Czub Date 2018-12-09 11:24 Edited 2018-12-09 11:30

Ich habe das alles gemacht aber im Task Manager wird nur gpu 0 gefordert. Gpu1 macht nix. Und die gpu 0 geht so maximal auf 8 Prozent.

Muss ich da noch Parameter einstellen das beide gpus genutzt werden oder die gpu ausgiebiger genutzt wird ?!

Die Grafikkarte in dem alten pc ist nicht die neueste. Irgendwas mit gtx 690 oder so. Hinten hat der pc 3 dvi Ausgänge. Keine Ahnung was das alles bedeutet. War ja ein Schach pc. Die Grafikkarte hat mich nie interessiert... bislang

By Stefan Pohl Date 2018-12-09 11:59 Edited 2018-12-09 12:08

Um die korrekte Auslastung im Taskmanager zu sehen muß man folgendes tun:

Tipp von Albert Silver, um sich im Windows Taskmanager die korrekte GPU-Auslastung anzeigen zu lassen:
Taskmanager öffen, auf den Reiter Leistung (Performance) klicken. Dann auf das entsprechende kleine Auslastungsfenster der Grafikkarte (alle untereinander auf der linken Fenster-Seite) klicken. Auf normalen Systemen wahrscheinlich GPU 1 (GPU 0 ist die OnBoard-Grafikeinheit). Dann werden rechts davon mehrere weitere Auslastungsfenster angezeit. Jedes hat links oben einen kleinen Reiter (z.B.: 3D). Diesen anklicken und dann Compute_0 (oder Compute_1) auswählen. Dann sieht man in diesem Auslastungsfenster die reale Auslastung der GPU durch Leela.
Bei der CUDA-Version sollten dann um die 98% angezeigt werden. Bei älteren GTX karten reicht eine Threadzahl von 2 aus (1 aber nicht!), um Leela mit voller Leistung laufen zu lassen. Das läßt noch jede Menge CPU-Kerne frei, um andere Engines zeitgleich laufen zu lassen, falls gewünscht (oder zum Pondern).

By Stefan Pohl Date 2018-12-09 12:32

Bei den Test auf twitch:
https://m.twitch.tv/potato_chess

Ist nachwievor das Net 11250 das Stärkste. Das sollte man also benutzen. Dazu muß man auf der Networksite sehr weit runterscrollen... lohnt aber. Die neuen 30xxx Nets sind nachwievor signifikant schwächer.

Siehe dazu mein long thinking-time Turnier, wo Net 11250 mitspielt:
https://www.sp-cc.de/long-thinkingtime.htm

By Lothar Jung Date 2018-12-09 12:42

Dazu ein Auszug aus dem heutigen LCZero-Blog:

„Leela in 3rd division participated with Lc0 TP("Trade Penalty", i.e it gives a penalty to every early trades making Leela play stronger as results showed) binary and 11248 net.
But in the 2nd division Leela participates with the newer Lc0-RC2 binary version that has some new innovations(see this post) inspired from the new release of Deepmind's paper for AlphaZero and again the 11248 net from the old test10. Thankfully test30 is getting stronger and soon will probably overtake test10 nets.“

By Thorsten Czub Date 2018-12-09 12:50

Was hat der twitch Typ für ne Grafikkarte. Die NPS sind sehr hoch.

By Tom Paul Date 2018-12-09 13:46

Thorsten Czub schrieb:

Was hat der twitch Typ für ne Grafikkarte. Die NPS sind sehr hoch.

Wie definierst du hohe kN/s?

By Thorsten Czub Date 2018-12-09 12:36

Ja. Bei der gpu 0 tut sich was. Da wird unter compute 0 auf vollanschlag angezeigt. Aber bei gpu 1 habe ich weder bei compute 0 noch compute 1 etwas. So wie ich das sehe hat der pc 2 gtx 690 eingebaut. Die kann ich im Nvidia menü auch ansteuern,
In der Nvidia Systemsteuerung gibt es unter Multi gpu ein Menü da kann man Multi gpu Modus deaktivieren, und dafür 3D Performance maximieren,
Ob das sich irgendwie auswirkt mag ich aber nicht zu sagen, bislang passiert nix,
Vielleicht muss man lcz auch irgendwie darüber verständigen das es 2 gpus sind. Oder der Treiber kann nicht 2 Grafik gpus ansteuern. Keine Ahnung.
Die Schach Engines laufen bei mir mit 6 Kernen, rybka wurde gerade geschlagen und Stockfish 10 hat auch nur ein Remis geschafft.

By Stefan Pohl Date 2018-12-09 12:54

Thorsten Czub schrieb:

Da ich keine multi-GPU Systeme habe, kann ich mich dazu nicht qualifiziert äußern. Ich weiß aber, daß Leela mehrere GPUs ansteuern und parallel nutzen kann.

By Lothar Jung Date 2018-12-09 13:57 Edited 2018-12-09 14:02

Trage folgende UCI-Parameter (Kommandozeilen Parameter unter Arena) ein:
—threads=4 --minibatch-size=512 --backend=multiplexing —backend-opts=„a (backend=cudnn,gpu=0), b (backend=cudnn,gpu=1)" --nncache=2000000

By Thorsten Czub Date 2018-12-09 14:20

Arena sagt Threads =4 kennt er nicht, habe die Parameter per copy paste aus dem Forum Eintrag in Arena kopiert,

By Tom Paul Date 2018-12-09 14:27

Thorsten Czub schrieb:

Arena sagt Threads =4 kennt er nicht, habe die Parameter per copy paste aus dem Forum Eintrag in Arena kopiert,

Wer benutzt denn auch Arena nur weil es kostenlos ist und dann wundert man sich

.
Einfach mal ChessOk Aquarium 2018 installieren.

By Lothar Jung Date 2018-12-09 15:28 Edited 2018-12-09 15:32

—threads=4
-t=4
Usage: lc0 [<mode>] [flags...]

Available modes. A help for a mode: lc0 <mode> --help
uci (default) Act as UCI engine
selfplay   Play games with itself
benchmark Quick benchmark

Allowed command line flags for current mode:
-h, --help Show help and exit.

-w, --weights=STRING
   Path from which to load network weights.
   Setting it to <autodiscover> makes it search in ./ and ./weights/subdirectories
   for the latest (by file date) file which looks like weights.
   [UCI: WeightsFile DEFAULT: <autodiscover>]

-b, --backend=CHOICE
   Neural network computational backend to use.
   [UCI: Backend DEFAULT: blas VALUES: blas,check,random,multiplexing]

-o, --backend-opts=STRING
   Parameters of neural network backend. Exact parameters differ per backend.
   [UCI: BackendOptions]

   --minibatch-size=1..1024
   How many positions the engine tries to batch together for parallel NN
   computation. Larger batches may reduce strength a bit, especially with a small
   number of playouts.
   [UCI: MinibatchSize DEFAULT: 256 MIN: 1 MAX: 1024]

   --max-prefetch=0..1024
   When the engine cannot gather a large enough batch for immediate use, try to
   prefetch up to X positions which are likely to be useful soon, and put them into
   cache.
   [UCI: MaxPrefetch DEFAULT: 32 MIN: 0 MAX: 1024]

   --cpuct=0.00..100.00
   Cpuct constant from "UCT search" algorithm. Higher values promote more
   exploration/wider search, lower values promote more confidence/deeper search.
   [UCI: CPuct DEFAULT: 3.40 MIN: 0.00 MAX: 100.00]

   --temperature=0.00..100.00
   Tau value from softmax formula for the first move. If equal to 0, the engine
   picks the best move to make. Larger values increase randomness while making the
   move.
   [UCI: Temperature DEFAULT: 0.00 MIN: 0.00 MAX: 100.00]

   --tempdecay-moves=0..100
   Reduce temperature for every move from the game start to this number of moves,
   decreasing linearly from initial temperature to 0. A value of 0 disables
   tempdecay.
   [UCI: TempDecayMoves DEFAULT: 0 MIN: 0 MAX: 100]

   --temp-visit-offset=-1.00..1000.00
   Reduces visits by this value when picking a move with a temperature. When the
   offset is less than number of visits for a particular move, that move is not
   picked at all.
   [UCI: TempVisitOffset DEFAULT: 0.00 MIN: -1.00 MAX: 1000.00]

-n, --[no-]noise
   Add Dirichlet noise to root node prior probabilities. This allows the engine to
   discover new ideas during training by exploring moves which are known to be bad.
   Not normally used during play.
   [UCI: DirichletNoise DEFAULT: false]

   --[no-]verbose-move-stats
   Display Q, V, N, U and P values of every move candidate after each move.
   [UCI: VerboseMoveStats DEFAULT: false]

   --smart-pruning-factor=0.00..10.00
   Do not spend time on the moves which cannot become bestmove given the remaining
   time to search. When no other move can overtake the current best, the search
   stops, saving the time. Values greater than 1 stop less promising moves from
   being considered even earlier. Values less than 1 causes hopeless moves to still
   have some attention. When set to 0, smart pruning is deactivated.

   [UCI: SmartPruningFactor DEFAULT: 1.33 MIN: 0.00 MAX: 10.00]

   --fpu-reduction=-100.00..100.00
   "First Play Urgency" reduction. Normally when a move has no visits, it's eval is
   assumed to be equal to parent's eval. With non-zero FPU reduction, eval of
   unvisited move is decreased by that value, discouraging visits of unvisited
   moves, and saving those visits for (hopefully) more promising moves.
   [UCI: FpuReduction DEFAULT: 1.20 MIN: -100.00 MAX: 100.00]

   --cache-history-length=0..7
   Length of history, in half-moves, to include into the cache key. When this value
   is less than history that NN uses to eval a position, it's possble that the
   search will use eval of the same position with different history taken from
   cache.
   [UCI: CacheHistoryLength DEFAULT: 0 MIN: 0 MAX: 7]

   --policy-softmax-temp=0.10..10.00
   Policy softmax temperature. Higher values make priors of move candidates closer
   to each other, widening the search.
   [UCI: PolicyTemperature DEFAULT: 2.20 MIN: 0.10 MAX: 10.00]

   --max-collision-events=1..1024
   Allowed node collision events, per batch.
   [UCI: MaxCollisionEvents DEFAULT: 32 MIN: 1 MAX: 1024]

   --max-collision-visits=1..1000000
   Total allowed node collision visits, per batch.
   [UCI: MaxCollisionVisits DEFAULT: 9999 MIN: 1 MAX: 1000000]

   --[no-]out-of-order-eval
   During the gathering of a batch for NN to eval, if position happens to be in the
   cache or is terminal, evaluate it right away without sending the batch to the
   NN. When off, this may only happen with the very first node of a batch; when on,
   this can happen with any node.
   [UCI: OutOfOrderEval DEFAULT: true]

   --multipv=1..500
   Number of game play lines (principal variations) to show in UCI info output.
   [UCI: MultiPV DEFAULT: 1 MIN: 1 MAX: 500]

   --score-type=CHOICE
   What to display as score. Either centipawns (the UCI default), win percentage or
   Q (the actual internal score) multiplied by 100.
   [UCI: ScoreType DEFAULT: centipawn VALUES: centipawn,win_percentage,Q]

   --history-fill=CHOICE
   Neural network uses 7 previous board positions in addition to the current one.
   During the first moves of the game such historical positions don't exist, but
   they can be synthesized. This parameter defines when to synthesize them (always,
   never, or only at non-standard fen position).
   [UCI: HistoryFill DEFAULT: fen_only VALUES: no,fen_only,always]

   --nodes=-1..999999999
   Number of nodes to run as a benchmark.
   [DEFAULT: 30000 MIN: -1 MAX: 999999999]

   --movetime=-1..999999999
   Benchmark time allocation, in milliseconds.
   [DEFAULT: -1 MIN: -1 MAX: 999999999]

   --fen=STRING
   Benchmark initial position FEN.
   [DEFAULT: rnbqkbnr/pppppppp/8/8/8/8/PPPPPPPP/RNBQKBNR w KQkq - 0 1]

   --nncache=0..999999999
   Number of positions to store in a memory cache. A large cache can speed up
   searching, but takes memory.
   [UCI: NNCacheSize DEFAULT: 200000 MIN: 0 MAX: 999999999]

-t, --threads=1..128
   Number of (CPU) worker threads to use.
   [UCI: Threads DEFAULT: 2 MIN: 1 MAX: 128]

By Tom Paul Date 2018-12-09 13:51

Thorsten Czub schrieb:

Hast du multiplexing und parallelism eingestellt?
Hast du einfach mal getestet wie das ganze aussieht, wenn du für einpaar Stunden den Client fürs Training laufen lässt?

By Thorsten Czub Date 2018-12-09 14:05

Nein, habe nix eingegeben.
Daher dümpelt er wohl bislang nur mit einer gpu herum. Scheint aber dennoch sehr stark zu sein, 4.5 aus 6 bislang. Noch keine Partie verloren, und das gegen Stockfish 10, Houdini 6 etc. Die ja mit 6 Kernen auch nicht gerade schwächlich spielen, alles schon sehr schockierend.

die Parameter kann ich bei Arena in der entsprechenden Zeile einfach übernehmen ?!
Ok. Werde das mal ausprobieren, danke.

By Tom Paul Date 2018-12-09 14:15

Thorsten Czub schrieb:

Naja eigentlich ist daran nichts schockierend, denn schließlich habe ich schon vor längerer Zeit darauf hingewiesen

. Aber manch einer möchte die Ergebnisse einfach nicht wahrhaben

By Thorsten Czub Date 2018-12-09 14:32

Schon erstaunlich zu sehen wenn Komodo 12.2 12 Millionen NPS macht und lc0 nur 250-1700 und der Komodo dennoch ins straucheln kommt.
Deswegen plädiere ich schon lange dafür das wir uns auf die b Strategie konzentrieren.