SPCC: Stockfish 140809 Testrun durch

By Tom Paul Date 2014-08-14 08:15

Immerhin jetzt zum zweiten mal die 3190 ELO also mindestens gleich gut wenn nicht sogar besser.
Wenn du freie CPU Power hast, dann kannst du diese bei Stockfish stiften und das Projekt etwas vorantreiben auch mit Ideen.
Nach deinem Diagramm gibt es seit gut 3 Monaten (keinen) Fortschritt.
Andererseits sehen jetzt alle, dass man manchmal mehrere Monate den Code umändern muss, bevor neue Verbesserungen ein + an ELO bringen können.

By Hauke Lutz Date 2014-08-14 21:31

Ein so zuverlässiger und dennoch sehr schneller, kontinuierlicher Test ist mehr Wert als 3 Laptopkerne mehr im Framework.
Abgesehen davon ist dort bis auf die 20.000 Partien von heute tote Hose, weil keine neuen Tests.

By Tom Paul Date 2014-08-14 21:35

Ich sehe dort einen Test:

14-08-14 Fi fast_recapture diff
Pending...
20000 @ 15+0.05 th 1 final tuning before sprt to decide what slow mover value matches better.

Aber keine Maschinen.

Active - 0 machines 0 cores 0.00M nps (0.00M total nps) 0 games/minute
Machine Cores MNps System Version Running on Last updated
No machines running

By Hauke Lutz Date 2014-08-14 22:37

6 biffhero-1cores 97 minutes ago 1000 / 1000 172 182 646 0 0 1.660

Demnach stand der Test schon seit 21 Uhr

By Hauke Lutz Date 2014-08-14 22:57

Aber sobald jemand befähigtes die Idee mit dem Vorteilsverlust durch Abtausch programmiert hat wird das Framework erstmal genug zu tun bekommen.

By Stefan Pohl Date 2014-08-15 06:57

Hauke Lutz schrieb:

Danke!
Ich denke, auf meine Art und Weise und trotz meiner bescheidenen Hardwareausstattung leiste ich auch einen Beitrag zur Stockfish-Weiterentwicklung. Wenn auch nur indirekt.
Und wenn mal einer meiner beiden PCs (auf dem anderen läuft ja das Endless RoundRobin 24/7) mal ruht, so ist das ja auch mal ganz schön für meinen Stromzähler. Im Moment teste ich für mein experimentelles Ippolit-RoundRobin gerade Mars 3.0 (sieht nach einem Plus aus!). Der Saros eXp 6h-Test ist schon durch. Beide Ergebnisse baue ich am Wochenende auf meiner "Experiments"-Unterseite ein.
Außerdem diskutiere ich gerade eine interessante Idee bzgl. Stockfish, die mirbei der Analyse meiner Testergebnisse kam, mit dem Experten Jörg Oster, mal sehen...Ob da was Konkretes draus wird, weiß ich noch nicht, daher noch keine näheren Infos hier. Vielleicht wirds auch nix. Und wenn was draus wird, kanns ja im realen Testrun auch scheitern. Also: abwarten.

Stay tuned!

Stefan

By Michael Scheidl Date 2014-08-15 14:35

Danke; was ist die Sarosversion "h" im Unterschied zur normalen?

By Stefan Pohl Date 2014-08-16 08:07

Michael Scheidl schrieb:

Danke; was ist die Sarosversion "h" im Unterschied zur normalen?

Auf der Saros Website steht:
This version is a variant of rev.6, more daring and aggressive... I like it!
Ideal for chess players who want to find plans sharp and brave.

Das stimmt in gewisserweise mit meine Testergebnissen überein, da die 6h eine sehr viel niedrigere Remisquote aufweist, als die 6er bzw. die anderen Ippo-Derivate.

Stefan

By Hauke Lutz Date 2014-08-15 15:09

Bei der Umsetzung dieser Idee wünsche ich Euch viel Erfolg.
Was für eine Idee hast du aufgrund deiner Auswertung bekommen?

By Stefan Pohl Date 2014-08-16 08:19

Hauke Lutz schrieb:

Bei der Umsetzung dieser Idee wünsche ich Euch viel Erfolg.
Was für eine Idee hast du aufgrund deiner Auswertung bekommen?

Die functional-Patches aus Stockfish rausmontieren, die bei mir schlechtere Ergebnisse nach sich zogen (gab ja immer wieder mal einen Knick in der Elokurve in meinem Diagramm). Das könnten natürlich auch statistische Schwankungen sein, aber ich denke, das es einen Versuch wert wäre, falls Jörg Oster es hinkriegt, aus dem aktuellen Stockfishcode einige der älteren Patches nachträglich rauszumontieren ohne das Gesamtkunstwerk zu beschädigen und mir ein solches experimentelles x64 SSE 4.2 Compilat zur Verfügung stellen kann. Interessanterweise waren die meisten dieser fraglichen Patches welche, die nur im no-regression-mode getestet wurden. Mal sehen...
Wenn wirklich ein Testrun erfolgt, teile ich das hier mit...

Diese Idee kam mir einfach dadurch, daß die letzten 3 Testrun mit praktisch identischen Stockis, bei mir so gut übereinstimmende Ergebnisse produzierten (alle in einem 1-Elo-Bereich)... Da gaben mir die Knicks in der Stocki-Elokurve doch zu denken.

Alle weiteren Fragen dazu kann dann nur Jörg beantworten. Aber ich kann sagen, daß auch Jörg seine Zweifel an einigen dieser no-regression-Patches hat - und ja viel mehr vom Stockfishcode versteht als ich. Weitere Fachfragen daher bitte an Jörg.Ich bin nur ein Testfreak.

Stefan

By Stefan Pohl Date 2014-08-16 18:44

Stefan Pohl schrieb:

Hauke Lutz schrieb:

Bei der Umsetzung dieser Idee wünsche ich Euch viel Erfolg.
Was für eine Idee hast du aufgrund deiner Auswertung bekommen?

Hallo zusammen,

Jörg Oster, den ich hiermit zum Speedy Gonzales des Computerschachs ernenne, hat mir 2 Compiles zugeschickt. Einen mit 5 rausmontierten Patches und einen mit nur 3 rausmontierten Patches, weil Jörg die beiden anderen Patches für unverdächtig (bzgl. Regressions) hält.
Ich teste zunächst mal die Version mit den 5 rausmontierten Patches. Nur wenn dieser Test erfolgreich sein sollte, würde ich dann noch die minus 3er Version nachtesten, um die Regression-Patches weiter einzugrenzen.
Anmerken muß ich noch, daß Jörgs Compiles bei mir ca. 10% langsamer laufen, als die Compiles auf abrok.eu, die ich sonst teste. Ergo würde das bedeuten, daß die minus 5 Patches Version mit einem Handicap von ca. -5 Elo ins Rennen geht. Ergo würde das Erreichen des bisherigen Topscores eigentlich de facto schon eine kleine Verbesserung bedeuten.

Demnächst poste ich mal einen Zwischenstand...

Stefan

By Jörg Oster Date 2014-08-16 20:16

Zuviel der Ehre, git macht es da einem wirklich leicht, wenn man weiß, wie.

Bei Gelegenheit muss ich mal Roman Korba anmailen und fragen, wie er so schnelle Compiles erzeugt. Wer weiß, vielleicht verrät er es mir ja.

Vielleicht weiß ja aber auch hier jemand, wie ich unter Linux evtl. schnellere Compiles für Windows erzeuge, und teilt dieses Wissen mit uns?

Bin auf jeden Fall sehr gespannt, was bei dem Test rauskommt!

Gruß, Jörg.

By Kalle Wirsch Date 2014-08-17 09:32

Dann Frage doch mal den Jim A.

By Kalle Wirsch Date 2014-08-17 11:33

Das war der mit den JA Compiles. Fiel mir gerade dazu noch ein.

By Stefan Pohl Date 2014-08-18 08:49

Stefan Pohl schrieb:

Ich teste zunächst mal die Version mit den 5 rausmontierten Patches. Nur wenn dieser Test erfolgreich sein sollte, würde ich dann noch die minus 3er Version nachtesten, um die Regression-Patches weiter einzugrenzen.
Anmerken muß ich noch, daß Jörgs Compiles bei mir ca. 10% langsamer laufen, als die Compiles auf abrok.eu, die ich sonst teste. Ergo würde das bedeuten, daß die minus 5 Patches Version mit einem Handicap von ca. -5 Elo ins Rennen geht. Ergo würde das Erreichen des bisherigen Topscores eigentlich de facto schon eine kleine Verbesserung bedeuten.

Demnächst poste ich mal einen Zwischenstand...

Stefan

Tja, nach 2000 Partien liegt die Stockiversion mit den 5 rausmontierten Patches bei ca. -5 Elo zur bisher stärksten, getesteten Version. Also genau dort, wo eine gleichstarke Version, die ca. 10% langsamer läuft, zu erwarten wäre. Ergo scheinen die 5 Patches wirklich keine Wirkung in Elo zu haben...Aber ich lasse den Test noch weiterlaufen, evt. ändert sich ja noch was.

Stefan

By Jörg Oster Date 2014-08-18 11:05

Stefan Pohl schrieb:

Interessant. Ich hatte eigentlich erwartet, dass sich zumindest einer dieser non-regression Patches negativ gegen andere Gegner auswirkt.
Tja, mal abwarten, ob sich noch was tut.

Gruß, Jörg.

By Stefan Pohl Date 2014-08-20 11:50

Jörg Oster schrieb:

Stefan Pohl schrieb:

Interessant. Ich hatte eigentlich erwartet, dass sich zumindest einer dieser non-regression Patches negativ gegen andere Gegner auswirkt.
Tja, mal abwarten, ob sich noch was tut.

Gruß, Jörg.

Da ich die nächsten Tage wenig bis keine Zeit habe, habe ich den Testrun nach 4550 Partien (von 5000) abgebrochen. Ergebnis -1.1% schlechter als der bisherige Spitzenreiter, also ca. -8 Elo.
Schade, aber war dennoch einen Versuch wert.

Jetzt teste ich Mars 3.1

Stefan

By Benno Hartwig Date 2014-08-20 13:01

Ich kann mir gut vorstellen, dass deine Tests hilfreiche Infos für das Stockfish-Development bieten.
Gehen auch derartige Infos über abgebrochene Tests, über wenig erfolgreiche Engine-Versionen irgendwie systematisch an das SF-Development?

Benno

By Stefan Pohl Date 2014-08-20 17:17

Benno Hartwig schrieb:

Normalerweise teste ich ja nur die offiziellen abrok.eu Versionen. Diese Tests werden dann auch nicht abgebrochen und werden auf meiner Website eingearbeitet und sind dort für alle sichtbar.
In diesem Fall war es ja eine Experimentalversion, aus der Jörg Oster einige Patches rausgenommen hat, von denen wir vermuteten, daß sie evt. eine Regression sein könnten. Das war also gewissermaßen inoffiziell. Da Jörg im framework Patches testet und auch im Fishcooking-Forum aktiv ist, steht es ihm natürlich frei, das Ergebnis dieses inoffiziellen Testruns dort zu publizieren oder sonstwie zu verarbeiten.
Was wir aus diesem Testrun gelernt haben, ist, daß die Patches keine Regressions waren, das Framework also "Recht hatte".
Ist ja auch was.

Stefan

By Tom Paul Date 2014-08-20 17:26

Zurzeit laufen auch zwei weitere Tests die positiv abschließen und somit die Verbesserungen in den Code übernommen werden.

20-08-14 Fi fast_recapture diff
ELO: 1.89 +-3.2 (95%) LOS: 87.6%
Total: 12686 W: 1825 L: 1756 D: 9105
20000 @ 60+0.05 th 1 Since this patch affects timing and the tuning runs and STC showed pretty consitent gains but LTC was only neutral I want to run a couple of small LTC tuning runs to see if scaling is an issue. Low pri 2.

20-08-14 Fi fast_recapture diff
ELO: 2.26 +-2.7 (95%) LOS: 94.9%
Total: 17081 W: 2359 L: 2248 D: 12474
20000 @ 60+0.05 th 1 Since this patch affects timing and the tuning runs and STC showed pretty consitent gains but LTC was only neutral I want to run a couple of small LTC tuning runs to see if scaling is an issue. Low pri 1.

Nur sind das die einzigen Tests die zurzeit laufen.
Die Entwickler könnten auch mal ruhig Tests starten, von denen sie glauben, dass diese mit 1% Wahrscheinlichkeit bestehen oder evtl. auch mehr.
Ein Test ist schließlich besser als keiner.

By Jörg Oster Date 2014-08-20 18:38

Tom Paul schrieb:

Zurzeit laufen auch zwei weitere Tests die positiv abschließen und somit die Verbesserungen in den Code übernommen werden.

Ach ja, wirklich?

By Tom Paul Date 2014-08-20 18:50

Schaue doch einfach nach:
http://tests.stockfishchess.org/tests

By Jörg Oster Date 2014-08-20 19:41

Ja ja, mir ist schon klar, was da läuft. Dir auch?

Das ist ein Patch mit unterschiedlichen Einstellungen.
Da der ursprüngliche Test http://tests.stockfishchess.org/tests/view/53ee6a050ebc595117f9bd54 es bei LTC nicht geschafft hat, versucht der Autor jetzt die beste Einstellung zu finden bzw. prüft, ob der Patch schlecht skaliert.

Mein Problem ist dein Satz

Zitat:

Zurzeit laufen auch zwei weitere Tests die positiv abschließen und somit die Verbesserungen in den Code übernommen werden.

der so nicht stimmt! Das weiß man doch noch gar nicht.

By Ernest Bonnem Date 2014-08-20 19:09

Stefan Pohl schrieb:

Anmerken muß ich noch, daß Jörgs Compiles bei mir ca. 10% langsamer laufen, als die Compiles auf abrok.eu, die ich sonst teste. Ergo würde das bedeuten, daß die minus 5 Patches Version mit einem Handicap von ca. -5 Elo ins Rennen geht.

Naja Stefan, nicht daß das einen großen Unterschied macht, aber 10% langsamer ist mehr ein Handicap von ca. -9 bis -10 Elo !

By Hauke Lutz Date 2014-08-20 21:01

Wirklich genau testen kann man es nur über ne Netzwerkverbindung, wobei die PCs dafür sorgen müssen, dass der Geschwindigkeitsverlust der Jörg-Version ausgeglichen wird.

By Stefan Pohl Date 2014-08-21 13:47

Hauke Lutz schrieb:

Wirklich genau testen kann man es nur über ne Netzwerkverbindung, wobei die PCs dafür sorgen müssen, dass der Geschwindigkeitsverlust der Jörg-Version ausgeglichen wird.

Oder Jörg müßte die aktuelle abrok.eu-Version auch selber compilieren. Dann wären beide Versionen gleich schnell bzw. gleich langsam...Aber für unseren Test-Versuchsballon war das m.E. nicht notwendig. Hätte es wirklich ein Plus gegeben, hätte man ggf. noch mal genauer testen können. Aber so lohnte das nicht.

Stefan