Stockfish 14.07.19 Costalba schlägt zurück !

By Reinhold Stibi Date 2019-07-22 09:27

Denke schon dass sich Stockfish 14.07.19 gegen Stockfish 10 verbessert hat.

Habe ein paar Turniere mit über 20 Engines und je ca. 500 Partien durchgeführt. In diesen Turnieren setzten
sich die neueren Stockfishe schon von Stockfish 10 ab.

Stockfish 10 hat bei deinen Tests im Vergleich zu den neueren Stockfishen sehr gut abgeschnitten was aber den
Testschwankungen geschuldet sein dürfte.

Von der Aussagekraft wäre es schon am besten, wenn Wolfgang im CEGT Team die Version 14.07.19 Costalba nehmen
würde, denn es ist die neueste Version und Costalba bürgt für Qualität.
Die Stockfish Costalba Versionen waren bei meinenTests auch taktisch mit am besten und besonders auch nur mit 1 CPU.

By Stefan Pohl Date 2019-07-22 13:39 Edited 2019-07-22 13:45 Upvotes 1

Reinhold Stibi schrieb:

??? Bei mir sind die neuesten Stockfish-Versionen gut +30 Elo besser als Stockfish 10. Siehe gerade gepostete Teil-Liste. Natürlich haben sich die neuen Versionen verglichen SF10 verbessert.

Und das ist sogar besser, als das, was das Stockfish-Team im Selfplay gemessen hat:
https://github.com/glinscott/fishtest/wiki/Regression-Tests
(letzter Test war die Version vom 11.7. diese ist dort nur +24 Elo besser als Stockfish 10)

Reinhold Stibi schrieb:

Costalba bürgt für Qualität.
Die Stockfish Costalba Versionen waren bei meinenTests auch taktisch mit am besten und besonders auch nur mit 1 CPU.

Das ist einfach falsch. Costalba ist schon seit 2014 nicht mehr der Maintainer des Stockfish-Projekts. Er reicht nur noch ab und zu Patches ein, wie viele andere auch. Die meisten davon sind non-functional, so wie auch der Letzte vom 14.7., der nur die Bench-Ausgabe korrigiert und nichts aber auch gar nichts am Spiel von Stockfish verändert. Und wenn er mal einen functional patch einbringt (was wie gesagt nur noch sehr selten passiert), dann hat dieser Patch die ganz normalen Tests durchlaufen und dort gut genug abgeschnitten. Nur dann wird er in den Stockfish-Code integriert. So wie alle anderen functional patches anderer Leute auch.

Wirklich interessant sind auf abrok.eu nur die Patches, die functional und Elo-Gainer sind. Das erkennt man daran (Beispiel), daß die Intervall-Grenzen der Tests komplett positiv sind:
STC:
LLR: 2.96 (-2.94,2.94) [0.50,4.50]
Total: 39657 W: 8966 L: 8604 D: 22087 Elo +3.17
http://tests.stockfishchess.org/tests/view/5d279fa40ebc5925cf0d4566
LTC:
LLR: 2.96 (-2.94,2.94) [0.50,3.50]
Total: 32582 W: 5740 L: 5427 D: 21415 Elo +3.34
http://tests.stockfishchess.org/tests/view/5d27dbf90ebc5925cf0d4b7e

Dann gibt es noch die functional Patches die keine Elo-Gainer sind, meist sind es Vereinfachungen oder Umstrukturierungen. Das erkennt man daran (Beispiel), daß die Intervall-Grenzen der Tests nicht komplett positiv sind:
STC
LLR: 2.95 (-2.94,2.94) [-3.00,1.00]
Total: 23471 W: 5245 L: 5127 D: 13099 Elo +1.75
http://tests.stockfishchess.org/tests/view/5d27ac1b0ebc5925cf0d476b
LTC
LLR: 2.95 (-2.94,2.94) [-3.00,1.00]
Total: 51533 W: 8736 L: 8665 D: 34132 Elo +0.48
http://tests.stockfishchess.org/tests/view/5d27b74e0ebc5925cf0d493c

Und dann gibt es noch die non-functional Patches, die sich gar nicht auf das Spiel, die Berechnung von Stockfish auswirken, diese machen gar keine Testspiele, was ja auch sinnlos wäre. Wie eben Marcos letzter Patch vom 14.7.

Ergo: Auf abrok.eu immer nach
STC: LLR: 2.96 (-2.94,2.94) [0.50,4.50] und LTC: LLR: 2.96 (-2.94,2.94) [0.50,3.50]
Ausschau halten. Nur, wenn solche Patches in den Stockfishcode eingebaut wurden, kann ein neuer Test überhaupt Sinn machen, bzw. kann es überhaupt nennenswerte Elo-Zugewinne geben.

By Reinhold Stibi Date 2019-07-22 14:44

Ja, dein tiefes Fachwissen habe ich nicht; sehr interessante Ausführungen.

Gehe mehr vom praktischen aus und wenn ich sehe, dass eine neue Version von Stockfish Costalba (oder auch von Anderen)
sich taktisch verbessert hat, dann ist mir die natürlich lieber. Anschließend erfolgen die Testspiele.

Gut 30 Elo Verbesserung gegen Stockfish 10 ist sehr beachtlich.

Darum auch das gute Abschneiden von Stockfish 14.07.19 Costalba gegen Lc0 mit Net 42668 in meinem Test 500 Partien + 27 Elo für Stockfish.

By Stefan Pohl Date 2019-07-22 15:47 Edited 2019-07-22 15:57

Reinhold Stibi schrieb:

Ja, dein tiefes Fachwissen habe ich nicht; sehr interessante Ausführungen.

Das ist sehr freundlich, aber völlig übertrieben. Jörg Oster hier aus dem Forum hat tiefes Fachwissen über Stockfish und die Entwicklung von Stockfish. Ich bin davon weit entfernt. Ich habe mich nur soweit schlau gemacht, daß ich abschätzen kann, wann ein neuer Stockfish-Testrun für meine Website Sinn macht und wann (noch) nicht. Da ich mich nie mit dem objektorientierten Programmieren anfreunden konnte und somit auch bei C++ nicht wirklich den Durchblick habe (C, Pascal, Modula 2 waren meine Programmiersprachen, in denen ich mich auskenne), kann ich gar kein tiefes Fachwissen über Stockfish und den Stockfishcode haben. Leider.

Wenn du abrok.eu und den dortigen Patches noch ein bißchen voraus sein willst, kannst du dir hier nur die erfolgreichen Patches aus dem Stockfish-Framework ansehen:
http://tests.stockfishchess.org/tests?success_only=1

Hier mußt du - wie schon erklärt - nach den rein positiven Intervallen Ausschau halten. Zusätzlich muß jeder functional Patch die längere der beiden Zeitkontrollen im Testverfahren erfolgreich durchlaufen. Man muß also hier nach Patches mit Tests mit der Bedenkzeit 60+0.6 schauen, welche den Intervall [0.50;4.50] oder [0.00;3.50] haben. Haben diese ein neueres Datum, als der letzte Patch auf abrok,eu, so ist der Patch noch nicht in Stockfish eingebaut, wird das aber demnächst. So kann man gut abschätzen, ob sich demnächst bei Stockfish etwas Interessantes tut, oder eben eher nicht.
Wann die Patches dann schlußendlich wirklich eingebaut werden, kann man nicht genau sagen, da die Maintainer das ja auch in ihrer Freizeit machen müssen. Sonntagabend ist aber oft was Neues auf abrok.eu...

By Thomas Lagershausen Date 2019-07-23 08:18

Herzlichen Dank an Dich Stefan für diese Einblicke.

Ich informiere mich über Stockfish gerne auf dieser Seite.

https://nextchessmove.com/dev-builds

Wie würdest Du diese Testreihen mit jeweils 20.000 Partien einordnen?

By Stefan Pohl Date 2019-07-23 08:39

Thomas Lagershausen schrieb:

Herzlichen Dank an Dich Stefan für diese Einblicke.

Ich informiere mich über Stockfish gerne auf dieser Seite.

<a class='ura' href='https://nextchessmove.com/dev-builds'>https://nextchessmove.com/dev-builds</a>

Wie würdest Du diese Testreihen mit jeweils 20.000 Partien einordnen?

Naja, das ist so eine Sache. 20000 Partien sind natürlich sehr viel, damit hat man ein sehr präzises Ergebnis, klar. Als Problematisch sehe ich, daß immer noch gegen Stockfish 7 getestet wird. Somit hat man einen sehr großen Elo-Abstand zwischen der Base-Engine (Stockfish 7) und der zu testenden Dev-Version. Gerade im Selfplay, wie es ja hier stattfindet, halte ich so große Spiestärkeunterschiede für suboptimal. Würde dort die jeweils letzte offizielle Release-Version als Base genommen, also jetzt Stockfish 10, dann wäre es super.

Trotzdem ein gutes Projekt.

By Wolfgang Battig Date 2019-07-22 18:15

Reinhold Stibi schrieb:

....
Von der Aussagekraft wäre es schon am besten, wenn Wolfgang im CEGT Team die Version 14.07.19 Costalba nehmen
würde, denn es ist die neueste Version und Costalba bürgt für Qualität.
Die Stockfish Costalba Versionen waren bei meinenTests auch taktisch mit am besten und besonders auch nur mit 1 CPU.

Ich habe die Version von Costalba genommen. Da diese keine "functional changes" hatte soviel ich weiß, dürfte sie weitestgehend identisch mit anderen Versionen gleichen Datums sein.

Die ersten 1200 Partien sind gespielt. Praktisch kein Fortschritt zur zuletzt von mir getesteten Version vom 20. März. Somit bleibt auch der Abstand zu Stockfish 10 mit etwa 20 Punkten konstant.
http://cegt.forumieren.com/t1115-testing-stockfish-development-versions#2378

Die "errechnete" Performance ist natürlich nur ein Anhaltspunkt, weil sehr einfach errechnet (Summe der Einzelperformances geteilt durch Anzahl der Matches), was natürlich mit einer vernünftigen Ranglistenauswertung nicht viel zu tun hat.

By Horst Sikorsky Date 2019-07-22 19:57 Edited 2019-07-22 19:59

immerhin zeigt mir dieser Stockfish mit 6 Steiner ein Matt (ein 8 Steiner) in 122 an (lustig) und 2 Züge später Matt in 104 Zügen in null sek.
Zum Glück werde ich das auf keinen Fall zeigen!
Horst

By Reinhold Stibi Date 2019-07-23 10:16

Mir scheint dass das beste Net von Lc0 das Net 42668 ist.

Nach den letzten 3 großen Turnieren bei mir mit über 20 Engines und mehr als 500 Partien pro Turnier

erreichte Lc0 Net 42668 infolge den 1en Platz.

Zwar lag Lc0 in der direkten Begegnung mit Stockfish (nicht bei den Turnieren) zurück, hatte aber gegen andere Engines hervorragende Ergebnisse (bei Stefan Pohl).

Da hatte Stefan Pohl bei der Auswahl eine gute Spürnase oder er hat Lc0 gut ausgetestet.

Genauere Ergebnisse dürfte CEGT in ihrer Rangliste bieten.

Bin gespannt, ob Stockfish den 1en Platz zurückerobert.

By Stefan Pohl Date 2019-07-23 12:17 Edited 2019-07-23 12:29

Reinhold Stibi schrieb:

Also mein Stand bzgl. der verschiedenen Netze ist momentan so:

Das 42668 war (meine alten Testsettings, also nur 700 Partien und längere Bedenkzeit) eher enttäuschend und signifikant schlechter als 42595. Daher teste ich momentan 42595 noch mal nach mit meinen neuen Testbedingungen (3000 Partien, kurze Bedenkzeit) - dieser Test ist schon weit fortgeschritten und es sieht momentan so aus, daß 42595 sich zwischen dem T40.T8.610 (TCEC 15 Superfinal Net) und dem Net 42741 einpendeln wird. Was auch rein chronologisch betrachtet zu erwarten wäre (40xxx Nets sollten ja tendenziell mit fortschreitender Zeit und Lernaufwand besser werden), da T40.T8.610 von den drei Netzen das Älteste und 42741 das jüngste Netz ist.
Stand jetzt wäre also bei meinen Tests 42741 das Beste.

Code:


   1 Stockfish 190622 bmi2    : 3529    7    7  6000    71.5 %   3357   44.8 %
   2 Stockfish 10 181129      : 3508    7    7  6000    73.8 %   3320   44.8 %
   3 Lc0 0.21.2 42741         : 3503    9    9  3000    67.5 %   3366   46.7 %
   4 Lc0 0.21.2 T40.T8.610    : 3491    9    9  3000    66.1 %   3366   46.0 %

Seit einigen Tagen nutze ich ja nun cutechess-cli, um sehr schnell viele Partien mit lc0 gegen andere lc0-Netze zu spielen (mit der fixen Suche von 100 nodes pro Zug, damit schaffe ich eine Partie in ca. 28 Sekunden, also ca. 3000 pro Tag auf meiner alten GTX950m GPU). Das habe ich nun genutzt, um zunächst drei Netze zu testen, die bei einem anderen Tester, der auf discord Ergebnisse postet, gut abgeschnitten haben: 42785, 42787 und 42794.
Diese drei Netze haben jetzt seit gestern jeweils 720 Partien gegen das 42741 gespielt, was ja eine ganze Menge ist, und das Netz 42794 hat dabei deutlich am besten abgeschnitten, nämlich mit 53.6%.
Daher spielt nun Netz 42794 gegen 5 der neusten Netze (stand heute morgen), nämlich 42808 bis 42812. Das lasse ich nun bis morgen Mittag laufen, dann sollten auch diese 5 Netze jeweils mindestens 600 Partien gegen 42794 gespielt haben. Wenn eines davon meßbar über 50.0% scored, würde ich dann damit weitertesten, sonst probiere ich nochmal 5 neue Netze gegen 42794.
Den regulären Testrun für meine Website auf der RTX 2060 starte ich dann voraussichtlich übermorgen, wenn der aktuelle Testrun des alten 42595 Netzes durch ist...

By Reinhold Stibi Date 2019-07-23 16:47 Edited 2019-07-23 16:55

Damals teilte ich mit, dass das Net 42595 im Match gegen Stockfish wesentlich besser abgeschnitten hat als das Net 42668.

Du gabst aber an Wolfgang vom CEGT Team die Empfehlung das Net 42668 zu verwenden, die dann deiner Empfehlung folgten.

By Stefan Pohl Date 2019-07-23 20:24 Edited 2019-07-23 20:34

Reinhold Stibi schrieb:

Das war nur ein Schnelltest über 200 Partien gegen ein anderes Netz, da sah 42668 gut aus. Was eindrücklich zeigt (mal wieder), daß 200 Partien, insbesondere im Selfplay nicht reichen. Und zudem hatte ich im richtigen Testrun von Net 42668 das Pech, daß dieser in den ersten gut 150 Partien sehr gut gestartet war und danach einbrach. Und zwar so heftig, wie ich das selten erlebt habe. Und Wolfgang hatte mich genau vor diesem Einbruch per Mail gefragt, wie der Testrun läuft.
Dazu kommt noch, daß der 700er Testrun des Nets 42595 wohl etwas zu gut lief, wie der jetzt noch laufende 3000 Partien Testrun dieses Nets zeigt.

Statistische Schwankung traf hier auf Vorschnelligkeit meinerseits. Ersteres war Pech, zweiteres war ein Fehler von mir. Nobody is perfect.
Generell würde ich raten, immer erst die Endergebnisse meiner neuen 3000 Partien Testruns abzuwarten. Diese erlauben es erst, ein Netz wirklich sicher einzuschätzen. Allerdings dauert 1 Testrun gut 6 Tage. Daher kann ich nicht viele Netze so testen.
Deswegen auch meine Empfehlung, daß Net 42741 definitiv stark ist. Denn das hat 3000 Partien gespielt und liegt nur ein paar Elopünktchen schlechter als Stockfish 10. Und ist besser als das TCEC 15 Superfinal Net (welches auch 3000 Partien gespielt hat).

By Peter Weise Date 2019-07-23 20:35 Edited 2019-07-23 20:40

Nun, so schlecht ist die CEGT mit Net 42668 nicht gefahren. In beiden Listen (40/4 und 40/20) liegt es nun ziemlich sicher vor Stockfish 10. Und bei meinen eigenen Tests sieht es nach knapp 500 Partien ebenso gut aus. Leider ist es gerade wieder einmal viel zu warm in der Bude - die Tests sind unterbrochen bei mir.

By Stefan Pohl Date 2019-07-23 20:41 Edited 2019-07-23 20:47

Peter Weise schrieb:

Nun, so schlecht ist die CEGT mit Net 42668 nicht gefahren. In beiden Listen (40/4 und 40/20) liegt es nun ziemlich sicher vor Stockfish 10.

Stimmt. Wie gesagt, Net 42595 wird im großen 3000er Testrun bei mir wahrscheinlich (ich betone WAHRSCHEINLICH) auch nicht mehr so stark abschneiden. Wahrscheinlich haben wir 42595 mehr über- als 42668 unterschätzt.
Ich finde auch, daß das CEGT Ergebnis von 42668 sehr, sehr ordentlich geworden ist.

Generell liegen diese Netze alle ziemlich dicht zusammen, was die Stärke angeht. Hier zu bestimmen, welches Netz nun am besten ist, ist extrem schwierig.
Dies mit 700-Partien Testruns messen zu wollen, war eine Schnapsidee von mir. Ich hätte gleich mit mindestens 3000 Partien testen sollen, um wenigstens eine einstellige Errorbar zu bekommen.

By Reinhold Stibi Date 2019-07-23 22:05

Ja, Stefan, dass der Einbruch bei deinen überragenden Ergebnissen im Vortests für das Net 42668, die unnatürlich hoch waren,
kommen werde, habe ich vorhergesagt.

Jetzt im nachhinein glaube ich aber trotzdem dass das Net 42688, unter Umständen, doch das beste Lc0 Net ist.

Nachdem dieses Net 3 x infolge bei meinen großen Turnieren, bei denen die 4 besten Stockfishe und 5 Lc0s (darunter auch das Net 42595]
und weitere über 10 andere Engines mitgespielt haben den ersten Platz belegt hat, hat mich das sehr beeindruckt.
Das war kein Zufall. Ob die neusten Netze dies toppen können ist die Frage. Das muss noch ausgetestet werden.

By Reinhold Stibi Date 2019-07-24 07:22

Danke an Stefan Pohl für seine wertvollen Anregungen.
Meistens hat er recht; zwischendurch auch ich.

Das Net 42816 Net Elo 3317 34.588 Partien von gestern scheint auch interessant zu sein.

Wie zuverlässig sind von deiner Warte aus gesehen, die Net Elo-Angaben und wie kommen sie zustande ?

Werde nun auch die Netzwerke 42741, 42794 und 42816 testen.