Neues grünes Netz nn-46832cfbead3.nnue

By Andreas Matthies Date 2021-08-05 19:11

Max Siegfried schrieb:

<a class='ura' href='https://abrok.eu/stockfish/'>https://abrok.eu/stockfish/</a>

...
see source

<a class='ura' href='https://tests.stockfishchess.org/nns'>https://tests.stockfishchess.org/nns</a>
First Test: <a class='ura' href='https://tests.stockfishchess.org/tests/view/610a79692a8a49ac5be793f4'>https://tests.stockfishchess.org/tests/view/610a79692a8a49ac5be793f4</a>
Last Test: <a class='ura' href='https://tests.stockfishchess.org/tests/view/610b8eeb2a8a49ac5be79499'>https://tests.stockfishchess.org/tests/view/610b8eeb2a8a49ac5be79499</a> - nicht grün

Wie groß ist das neue grüne Netz?
256?
512?
1024?
2048?

Können die Entwickler nicht automatisch die jeweilige Größe online neben den anderen Daten anzeigen?
Man stelle sich vor was los wäre wenn bei LC0 die Größe der jeweiligen Netze nicht sichtbar wäre.

Tja, bei Stockfish ist es viel einfacher als bei LC0. Man lädt das letzte Binary herunter und hat die beste Version.
Die Entwickler wollen vermutlich gar nicht, dass sich User irgendwelche Netze von Ihrer Site herunterladen, weil diese dann ggf. nicht auf den verfügbaren Binaries laufen.

Das neue grüne Netz ist jedenfalls genauso groß wie das alte (keine Ahnung, was da aktuell verwendet wird), was du siehst, wenn du auf der Abrok-Seite auf den Link ganz unten unter source gehst.
Da sieht man, dass lediglich das Netz geändert und keinerlei Anpassungen an der Architektur gemacht wurden:

- #define EvalFileDefaultName "nn-56a5f1c4173a.nnue"
+ #define EvalFileDefaultName "nn-46832cfbead3.nnue"

Dass der letzte Test "nicht grün" ist, ist völlig normal, da dieses Netz ja im neuen Master verwendet wird und derzeit also jeder Test dieses Netz verwendet, und sehr häufig gar kein Netz sondern irgendein beliebiger Patch getestet wird.

By Max Siegfried Date 2021-08-05 19:39

Wie lange wird es dauern bis die Kompatibilität für die 1024 Netzgröße hergestellt wird?
Es macht ja nicht wirklich Sinn Netzgröße 512 gegen 512 zu testen und +1 Elo besser abzuschneiden, wenn Netzgröße 1024 deutlich besser abgeschnitten hat.
Erst recht wenn man bedenkt das die CPU Hardware immer stärker wird, wodurch größere Netze immer mehr profitieren.

By Andreas Matthies Date 2021-08-05 21:28 Upvotes 1

Max Siegfried schrieb:

Hat sie deutlich besser abgeschnitten? Ich glaube nicht. Dann hätte man das in den Master aufgenommen.
Wenn ich es richtig mitbekommen habe, gab es wohl einen positiven LTC-Test mit einem größeren Netz (768 oder 1024) aber der war auch nur ca. +1 Elo und dann kam ein noch etwas besseres Netz mit der alten Architektur.
Ich glaube Sopel ist noch dabei, größere Netze zu trainieren, die dann wahrscheinlich demnächst so gut sind, dass sie auch in den Master gehen.

By Max Siegfried Date 2021-08-05 22:08

Andreas Matthies schrieb:

Max Siegfried schrieb:

Das 1024 Netz hatte doch mit +4,59 Elo abgeschnitten.
Das 768 Netz, einige glaubten mal wieder das kleiner = besser ist und mussten enttäuscht mit gerade einmal der Hälfte an Elo Zuwachs leben.
Das 512 Netz hat wiederum nur ungefähr die Hälfte an Elo Zuwachs im Vergleich zum 768.
Deshalb die Frage warum man Ressourcen für die kleinen Netze verschwenden sollte, wo doch klar ist wohin die Reise geht.

By Andreas Matthies Date 2021-08-05 22:22 Edited 2021-08-05 22:32

Max Siegfried schrieb:

Andreas Matthies schrieb:

Max Siegfried schrieb:

Das 1024 Netz hatte doch mit +4,59 Elo abgeschnitten.

Wo?
Edit: Vermutlich meinst du diesen Test: https://tests.stockfishchess.org/tests/view/610264ecafad2da4f4ae3a8d
Das ist aber kein Test gegen den Master sondern gegen ein (schwächeres) Netz nn-fe7b5f0a028c.nnue unter dem Aspekt "Both (nets) trained in almost the same way." um grundsätzlich zu testen, ob 1024 besser ist (sein kann) als 512. Jetzt geht es aber darum ein Netz zu trainieren, das wirklich stärker ist als der aktuelle Master.

Ansonsten kann ich deine Fragen auch nicht beantworten. Verfolge Fishtest zwar relativ regelmäßig aber halt auch nur von außen.

By Benno Hartwig Date 2021-08-06 06:17

> ...um grundsätzlich zu testen, ob 1024 besser ist (sein kann) als 512.

Verstehe ich die Situation eigentlich richtig, wenn ich denke:

- dass größere Netze schon das Potential bergen, besser zu sein
zumindest aber nicht schlechter zu sein

- dass aber ein großes Netz immer langsamer ist, sodass der einzelne NN-analysierte Knoten dann mehr Zeit braucht,
dass dies der Suche dann natürlich doch auch wieder "schadet"?

Bei gegebener Rechnergeschwindigkeit möchte ich dann erwarten,
dass es eine tatsächlich optimale Netzgröße gibt, bei der die Chance auf das tatsächlich dann stärkste Netz besteht.

By Andreas Matthies Date 2021-08-06 09:36

Genauso verstehe ich es auch.
Und höchstwahrscheinlich geht auch noch die Zeitkontrolle ein in die Frage nach einer optimalen Netzgröße. Bei sehr schneller Zeitkontrolle kommt es vermutlich etwas mehr auf die Geschwindigkeit und weniger auf die Qualität der Bewertung an, bei längerer Zeitkontrolle verschiebt sich das vermutlich in Richtung der Qualität und damit in Richtung größerer Netze.

Bei den aktuellen Tests von Sopel muss zusätzlich noch betrachtet werden, dass er nicht nur mit unterschiedlichen Netzgrößen experimentiert (Inputlayer Dimensionen 384, 512, 768, 1024 und teilweise auch Varianten in den Hiddenlayers) sondern zeitgleich auch eine Veränderung (Vereinfachung) in den Features, also in der "Kodierung der Position" testet (HalfKAv2_hm, wo die Position des Königs "horizontal gespiegelt" wird), deshalb ist die Gewichtsdatei nn-796849a37a9e.nnue mit HalfKAv2_hm Featurearchitektur und 1024 Neuronen im Inputlayer sogar geringfügig kleiner als eine Gewichtsdatei für die aktuelle Netzarchitektur des Masters mit HalfKAv2 Features und 512 Input-Neuronen.

Da wird also derzeit zeitgleich an unterschiedlichen Schrauben gedreht.

By Max Siegfried Date 2021-08-06 14:34

Nach mehreren hundert Analysen bin ich zu dem Fazit gekommen, dass das 1024 Netz besser ist bei der Ansammlung von winzigen Vorteilen im Mittelspiel.
Außerdem ist es minimal besser in der Eröffnungsphase.
Aber es ist schlechter im Endspiel so wie damals bei LC0 wo ständig hin und her gezogen wurde, anstatt den Vorteil zu verwerten und oft endete es nur in einem Remis und manchmal auch in einer Niederlage anstatt zu gewinnen.
Die Probleme hatte ich aber nur mit Beginn der Endspielphase bis zu den 8-Steinern. In ungefähr 50% der Fälle habe ich selbst eigene Züge ausgeführt und bin deutlich schneller zum Mattsetzen gekommen. Oft zeigte Stockfish ein Matt in 34 oder 60 an und ich spielte ein Matt in 9. Das ist ein klarer Fall von zu viel rumziehen ohne einen konkreten Plan.
Bei 7-Steinern oder weniger Figuren hatte ich allerdings keine Probleme, dank aller wichtigen 7-Steiner.
Bei den Bedenkzeiten in der Stockfish Testing Queue wundert es mich sehr, dass das Netz nicht wesentlich schlechter abgeschnitten hat.
Da waren wohl manche Schrauben an denen gedreht wurde sehr schädlich.

By Benno Hartwig Date 2021-08-06 19:24

> Aber es ist schlechter im Endspiel...

Würde man dem nicht schon begegnen können, wenn im Training mehr darauf geachtet wird, das Endspiele durchgezogen werden?
Ggf. also direkt Startstellungen wählen, die schon weit im Mittelspiel sind.

By Max Siegfried Date 2021-08-06 19:33

Benno Hartwig schrieb:

Unabhängig davon ob das möglich ist aber das Problem lag wahrscheinlich daran das etwas per Hand falsch eingestellt/ausgewählt wurde.
Im Endspiel war das ein Unterschied wie Tag und Nacht zwischen 1024 und 512.

By dkappe Date 2021-08-06 19:50

Benno Hartwig schrieb:

Die leela Daten die zum Training verwendet werden haben oft weniger Endspiel Stellungen. Das liegt daran das hoffnungslose “Self Play” Partien oft vor dem Endspiel abgebrochen werden. Noch dazu haben die neuen Netze 8 kleine “subnets” die je nach Stückzahl trainiert und benutz werden, also zum Beispiel 512x16x32 Netze Nummer 0 bis 7. Welches Netz benutzt wird gibt die Formel (Stückzahl - 1)/4.

Jetzt braucht man aber weit aus mehr Daten, also 10b anstatt 1b. Bei noch größeren Netzen braucht man wahrscheinlich noch mehr.

By dkappe Date 2021-08-06 14:31

Was zum überlegen: Dark Toga hat ein ziemlich starkes nnue Netz (the white rose) aber ist nicht eine bitboard Engine, also ist langsamer was nps geht. Gegen gleichstarke Gegner sucht es oft 2-4 ply weniger. Gegen bestimmte Gegner die sehr schnell suchen, also sehr hohes nps, schlägt sich Dark Toga schlechter als erwartet.

Also zu langsam darf ein Netz nicht sein. Irgendwann sackt das gegen einen schnellen Gegner stark ab.