https://blog.lczero.org/2019/06/whats-going-on-with-training.html?m=1#moreSehr interessant. Insbesondere die Aussagen bzgl. des nächsten Main-Runs:
Dieser soll zunächst mit einem größeren Net beginnen (24x320), dann aber später in ein kleineres self-scaling Net (24x256) überführt werden:
“Next big run will be test60. It will likely be a larger net in the beginning (320x24).
Unlike test40, which we didn't tweak during the training, test60 is planned to be tweaked as soon as we have something promising (e.g. something discovered by test7x experiments which will start soon after test60).
One of the possible improvements we'll have in the middle is switching to 256x24 self-scaling network (by training it in parallel from same training data). It's expected that 256x24 self-scaling net is stronger than 320x24 without self-scaling while having same computational complexity.“
Mehr über self-scaling Nets:
https://github.com/Cyanogenoid/lczero-training/wiki/Positive-results#self-scaling-httpsgithubcomcyanogenoidlczero-trainingtreeselfscale2Ganz wesentlich ist m.E. dieser Punkt:
“Because convolutions scale quadratically with number of filters and multiplication is only linear, this costs less time relatively with a bigger 256x20 network, especially when the self-scaling adds a fixed number of filters, say 64.“
Meint, daß der Rechenaufwand bei den größeren 20x256 Nets weniger stark ansteigt, verglichen mit kleineren Nets, weil er bei self-scaling Nets nur linear steigt, nicht aber im Quadrat (exponentiell).
Ich gebe aber zu, daß ich da auch schon am Rande meiner Verständnisfähigkeit angekommen bin, da das ganze Thema doch sehr kompliziert ist. Und zunehmend komplexer wird.
Letzlich, um das Ganze doch wieder auf ein etwas simpleres Niveau herunterzubrechen, scheinen die lc0-Macher es aber genau so zu sehen, wie ich heute morgen schon in einem anderen Thread hier gepostet hatte:
“Ob größere Netzstrukturen wirklich einen weiteren Fortschritt bringen können, ist eben die Frage. Viele (auch ich) sind der Meinung, daß Lc0 und der ganze (ja generell sehr langsame) NN-Ansatz von mehr Bedenkzeit und/oder mehr Hardware-Power mehr profitiert, als die klassischen AB-Engines. Sollte dem so sein, so heißt das natürlich im Umkehrschluß logischerweise, daß eine Vergößerung der Netzstruktur, die ja immer auch eine entsprechende Verlangsamung der Verarbeitung bedeutet, Lc0 auch (elomäßig) sehr schwer trifft und inwieweit die größere Netzstruktur das dann elomäßig ausgleichen oder eben sogar übertreffen kann, das ist die Frage.
Aber die 20x256 Nets können ja sicherlich intern noch weiter verbessert werden. Das SE-Konzept muß hier noch lange nicht der Weisheit letzter Schluß sein. Verbesserungen in der internen Netzstruktur halte ich daher für erfolgsversprechender, als Netze einfach zu vergrößern.“
Genau das scheint also der Plan der lc0-Macher für die nähere Zukunft zu sein: nicht die Netzgröße deutlich zu erhöhen, um Elo zu gewinnen, sondern die interne Struktur der Nets weiter zu verbessern. Sowie die Qualität des Lernens aus den Rohdaten heraus (also den gespielten Lernpartien) zu erhöhen.