Lc0 im Vergleich auch gegen schwächere Programme

By Roland Riener Date 2019-04-15 11:13

Danke, sehr aufschlußreiche Arbeit und Darstellung!

By Stefan Pohl Date 2019-04-15 12:01 Edited 2019-04-15 12:19 Upvotes 4

Gute Arbeit!

Bestätigt eindrücklich eines der diversen Probleme, das man als Tester hat, wenn man Leela testen will (oder später wird man die Probleme 1-3 auch bei andere NN-Engines haben).
Ich liste mal die Probleme auf, die ich als Tester z.Zt. bei Leela sehe:

1) Hardware-Gerechtigkeit: Da die NN-Engines auf der GPU laufen und die AB-Engines eben auf der CPU. Und zudem beide Ansätze auch noch intern sehr konträr funktionieren, ist es eigentlich unmöglich, eine wirklich faire Hardware-Testumgebung zu erstellen. Man hat nur die Leela-Ratio, wobei die Eichung auf 1.0 eben von Google stammt, die ja AlphaZero "gebaut" haben und welche daher sicher alles andere als neutrale Tester sind.

2) Deutliche Siege gegen schwache Gegner: Aufgrund der taktischen Aussetzer, die bei Leela (und anderen NN-Engines) systembedingt unvermeidlich sind (die Monte-Carlo-Suche ist hochselektiv und die NeuralNetz-Bewertung ca. Faktor 1000 langsamer als eine klassische Stellungsbewertung), kann Leela Matches gegen deutlich schwächere Gegnerengines nicht so deutlich gewinnen, wie es starke AB-Engines können. Da es eben immer wieder taktische Aussetzer gibt, die einem Selbstmord gleichkommen und damit praktisch unabhängig von der Gegner-Stärke auftreten. Das einzig Positive ist, daß sich dieser Effekt natürlich auf den schnellen RTX-Karten abschwächt, weil mit der viel höheren Rechengeschwindigkeit auch das taktische Niveau steigt.

3) Eröffnungsvorgaben: Leela hat völlig andere Stärken und Schwächen, als AB-Engines. Eine ihrer großen Stärken ist die Eröffnung, ganz im Gegensatz zu den AB-Engines. Demzufolge sind Leelas Testergebnisse gegen AB-Engines umso besser, je unentwickelter, flacher die Eröffnungsvorgabe-Stellungen sind. Bzw. eben schwächer, wenn man lange, tiefe Eröffnungsvorgaben, die bis ins Mittelspiel reichen, wählt.

4) Bedenkzeit-Einteilung: Das betrifft zunächst mal nur Leela. Bei anderen NN-Engines belibt zu hoffen, daß diese einen besseren Zeiteinteilungsalgorithmus bekommen werden... Wie ich hier schon ausgeführt hatte, verbraucht Leela meist bis Zug 60 die gesamte Basiszeit und muß dann im Tempo des Fischerbonus ziehen. Zudem kommt erschwerend hinzu, daß Leela eine gewisse Mindestrechentiefe braucht (und damit auch eine gewisse Mindestbedenkzeit), um ein wenigstens halbwegs brauchbares, taktische Niveau zu halten. Daraus folgt, daß Leela umso bessere Testergebnisse erzielt, je kleiner das Verhältnis von Basiszeit zu Fischerbonus ist. Dies gilt umso mehr auf alten GTX-Karten, wo Leela nur langsam läuft. Und ich rede hier nicht von ein paar Elo - in meinen Pre-Tests war der Unterschied eklatant.

Leider lassen sich diese Probleme nicht irgendwie "lösen". Sondern man muß sich als Tester für Testbedingungen entscheiden, die man für geeignet hält. Und sich dann darüber im Klaren sein, daß sich die eigenen Ergebnisse nur sehr bedingt mit Ergebnissen anderer Tester vergleichen lassen, wenn diese sich für andere Testbedingungen entschieden haben. Das ist leider nicht zu ändern.

By Peter Weise Date 2019-04-15 13:05

Danke für die Ausführungen. Ein weiterer wichtiger Punkt fehlt meines Erachtens. Endspielschwäche! Lc0 kann selbst mit 5-Steiner-Tabellen nicht vernünftig Endspiele abwickeln. Z.B. KQR-KR, KRR-KB sind krasse Beispiele. Lc0 versucht immer in KR-K zu kommen um selbst dann nur sehr umständlich Matt zu setzen falls überhaupt. Selbst bei KQR-K (!!) wird fast immer zuerst die Dame eingestellt um dann wieder in KR-K zu kommen! Dies gilt ebenso für KRR-K bezüglich des 2 Turmes. Ohne die Tabellen werden einige gewonnene Stellungen zum Remis verdorben. Gegen Stockfish, Komodo, Houdini und Fire schadet dies der Wertung kaum gegen schwächere Programme jedoch spürbar.

By Tom Paul Date 2019-04-15 16:00

Peter Weise schrieb:

Da brauchst du dich wirklich nicht aufzuregen. Du erwartest doch nicht ernsthaft, dass ein 20 x 256 Netzwerk die 5 und 6 Steiner beherrscht

By Peter Weise Date 2019-04-15 16:13

Aber es geht es doch gar nicht um beherrschen von 5- oder 6-Steinern. Die geschilderten Endspiele bringen selbst 1000-Punkte-Programme besser zuende als Lc0 zur Zeit.

By dkappe Date 2019-04-17 22:26

Probiere mal mein Ender Netz. Ist zwar nur 128x10, ist aber auf das Endspiel spezialisiert. https://github.com/dkappe/leela-chess-weights/wiki/Endgame-Net

By Thomas Plaschke Date 2019-04-18 00:56

Welche der Weight-Dateien funktioniert mit LC 0.21.1 bzw. ist mit "Ender128-90l" gemeint? Eine Datei dieses Namens finde ich in den genannten Archiven nicht. Testweise mit der Datei weights_394.txt gestartet, meldet sich LC 0.21.1 nicht mehr.
Mit den anderen, destilled NNs habe ich keine Probleme.

Viele Grüße
Th. Plaschke

By Jörg Oster Date 2019-04-15 16:22

Tom Paul schrieb:

Peter Weise schrieb:

Da brauchst du dich wirklich nicht aufzuregen. Du erwartest doch nicht ernsthaft, dass ein 20 x 256 Netzwerk die 5 und 6 Steiner beherrscht

Das Netzwerk hat damit so gut wie nichts zu tun!

Das liegt einzig an der Suche mit den Informationen aus den TBs
vernünftig umzugehen. Genauso wie die Mattsetzung letzlich durch
die Suche erfolgen muss, und nicht durch die Bewertung!

By Peter Martan Date 2019-04-18 08:08

Jörg Oster schrieb:

Das Netzwerk hat damit so gut wie nichts zu tun!

Das liegt einzig an der Suche mit den Informationen aus den TBs
vernünftig umzugehen.

Wie kann dann eigentlich ein Ender- Net helfen?

By Tom Paul Date 2019-04-15 15:58

Stefan Pohl schrieb:

Wenn du LC0 auf einem höheren taktischen Niveau haben möchtest, dann musst du doch nur ein 40 x 512 Netzwerk trainieren, da sieht LC0 dann zwangsweise um ein vielfaches mehr an Taktik.

By Clemens Keck Date 2019-04-15 12:44

klasse gemacht , Peter !

vielen Dank.

C.K.

By Guenter Stertenbrink Date 2019-04-15 14:45

bestaetigt das, was kurzlich hier :
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=120402
zu lesen war.

Aber anscheinend noch krasser, etwa doppelt so stark ?!