Stefan Pohl schrieb:
Gute Arbeit!
Bestätigt eindrücklich eines der diversen Probleme, das man als Tester hat, wenn man Leela testen will (oder später wird man die Probleme 1-3 auch bei andere NN-Engines haben).
Ich liste mal die Probleme auf, die ich als Tester z.Zt. bei Leela sehe:
1) Hardware-Gerechtigkeit: Da die NN-Engines auf der GPU laufen und die AB-Engines eben auf der CPU. Und zudem beide Ansätze auch noch intern sehr konträr funktionieren, ist es eigentlich unmöglich, eine wirklich faire Hardware-Testumgebung zu erstellen. Man hat nur die Leela-Ratio, wobei die Eichung auf 1.0 eben von Google stammt, die ja AlphaZero "gebaut" haben und welche daher sicher alles andere als neutrale Tester sind.
2) Deutliche Siege gegen schwache Gegner: Aufgrund der taktischen Aussetzer, die bei Leela (und anderen NN-Engines) systembedingt unvermeidlich sind (die Monte-Carlo-Suche ist hochselektiv und die NeuralNetz-Bewertung ca. Faktor 1000 langsamer als eine klassische Stellungsbewertung), kann Leela Matches gegen deutlich schwächere Gegnerengines nicht so deutlich gewinnen, wie es starke AB-Engines können. Da es eben immer wieder taktische Aussetzer gibt, die einem Selbstmord gleichkommen und damit praktisch unabhängig von der Gegner-Stärke auftreten. Das einzig Positive ist, daß sich dieser Effekt natürlich auf den schnellen RTX-Karten abschwächt, weil mit der viel höheren Rechengeschwindigkeit auch das taktische Niveau steigt.
3) Eröffnungsvorgaben: Leela hat völlig andere Stärken und Schwächen, als AB-Engines. Eine ihrer großen Stärken ist die Eröffnung, ganz im Gegensatz zu den AB-Engines. Demzufolge sind Leelas Testergebnisse gegen AB-Engines umso besser, je unentwickelter, flacher die Eröffnungsvorgabe-Stellungen sind. Bzw. eben schwächer, wenn man lange, tiefe Eröffnungsvorgaben, die bis ins Mittelspiel reichen, wählt.
4) Bedenkzeit-Einteilung: Das betrifft zunächst mal nur Leela. Bei anderen NN-Engines belibt zu hoffen, daß diese einen besseren Zeiteinteilungsalgorithmus bekommen werden... Wie ich hier schon ausgeführt hatte, verbraucht Leela meist bis Zug 60 die gesamte Basiszeit und muß dann im Tempo des Fischerbonus ziehen. Zudem kommt erschwerend hinzu, daß Leela eine gewisse Mindestrechentiefe braucht (und damit auch eine gewisse Mindestbedenkzeit), um ein wenigstens halbwegs brauchbares, taktische Niveau zu halten. Daraus folgt, daß Leela umso bessere Testergebnisse erzielt, je kleiner das Verhältnis von Basiszeit zu Fischerbonus ist. Dies gilt umso mehr auf alten GTX-Karten, wo Leela nur langsam läuft. Und ich rede hier nicht von ein paar Elo - in meinen Pre-Tests war der Unterschied eklatant.
Leider lassen sich diese Probleme nicht irgendwie "lösen". Sondern man muß sich als Tester für Testbedingungen entscheiden, die man für geeignet hält. Und sich dann darüber im Klaren sein, daß sich die eigenen Ergebnisse nur sehr bedingt mit Ergebnissen anderer Tester vergleichen lassen, wenn diese sich für andere Testbedingungen entschieden haben. Das ist leider nicht zu ändern.
Wenn du LC0 auf einem höheren taktischen Niveau haben möchtest, dann musst du doch nur ein 40 x 512 Netzwerk trainieren, da sieht LC0 dann zwangsweise um ein vielfaches mehr an Taktik.