Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SPCC: Stockfish 5 testrun durch
- - By Stefan Pohl Date 2014-06-06 09:03
Stockfish 5 Testrun ist durch. Es sah lange Zeit recht gut aus, aber zum Ende hin gabs einen heftigen Einbruch. Daher leider ein eher mäßiges Ergebnis, gemessen an den LS-Werten auch unter Houdini 4. Bester Stockfish weiterhin die Version vom 7.Mai. Mittlerweile mit +8 Elo.
Das Endless RoundRobin habe ich auch upgedated. Erstes Ergebnis von Stockfish 5 auch hier sehr mäßig, aber das sind natürlich auch noch sehr, sehr wenige Partien, das braucht noch ein paar Wochen.

http://spcc.beepworld.de

Stefan

(Perhaps you have to clear your Browsercache or reload the website)
Parent - - By Benno Hartwig Date 2014-06-06 09:33
Thanx.
ich hatte in jeweils 1000 Partien den SF_140507 gegen einen späteren Mai-SF und SF5 antreten lassen.
Hier hatte jeweils dieser Gegner von SF_140507 sehr leicht die Nase vorn.
Ich schließe daraus mal: sie sind ziemlich gleich stark.
Und aus deinen Ergebnissen ziehe ich letztlich die Vermutung:

     Stockfish 140507 x64s hat ggf. etwas Glück gehabt und etwas mehr erreicht, als es seiner Spielstärke entspricht.

Spekulation, klar.
Das bedeutet aber auch: Es wird dann erst ein SF vor dem jetzigen Favoriten landen, wenn dieser SF ein gutes Stück stärker geworden ist.
Widerspräche es deiner Philosophie, wenn du gezielt der Version vom 7.Mai eine Überprüfung verordnest?

Benno
Parent - By Stefan Pohl Date 2014-06-06 09:42 Edited 2014-06-06 09:54
Benno Hartwig schrieb:

Thanx.
ich hatte in jeweils 1000 Partien den SF_140507 gegen einen späteren Mai-SF und SF5 antreten lassen.
Hier hatte jeweils dieser Gegner von SF_140507 sehr leicht die Nase vorn.
Ich schließe daraus mal: sie sind ziemlich gleich stark.
Und aus deinen Ergebnissen ziehe ich letztlich die Vermutung:

     Stockfish 140507 x64s hat ggf. etwas Glück gehabt und etwas mehr erreicht, als es seiner Spielstärke entspricht.

Spekulation, klar.
Das bedeutet aber auch: Es wird dann erst ein SF vor dem jetzigen Favoriten landen, wenn dieser SF ein gutes Stück stärker geworden ist.
Widerspräche es deiner Philosophie, wenn du gezielt der Version vom 7.Mai eine Überprüfung verordnest?

Benno


Hi Benno,

ich denke, das bringt nix. Jedes Ergebnis hat eine Errorbar. Einzelne Ergebnisse so lange zu wiederholen, bis man das erhält, was man sich wünscht, wäre den anderen Ergebnissen/Messungen gegenüber unfair. Zudem: Wäre der zweite Testlauf wirklich schwächer, mit welchem Recht wollte man diesem Ergebnis mehr "Korrektheit" zubilligen als dem ersten Testrun? Da dreht man sich im Kreis...

Auch ist die Regressions-Bewegung in den letzten 3 Messungen sichtbar (sie sacken weiter und weiter ab, zwar nur minimal, aber kontinuierlich). Daß das wirklich Zufall/Errorbarschwankung ist, halte ich für sehr, sehr unwahrscheinlich. Die Qualität meiner Messungen beruht ja nicht nur auf der großen Zahl der gespielten Partien pro Testrun, sondern auch ganz wesentlich auf der großen Menge der Testruns an sich. Einzelne Ausreißer, sofern es sie gibt, werden in der Entwicklungs-Linie der Messungen im Diagramm dadurch "glattgebügelt". Entscheidend ist die Gesamtsteigung der Meßdaten-Kurve. Das ist die wesentliche Qualität meiner Messungen!

Der nächste Testrun der dann aktuellsten Version wird am Sonntag-Abend starten, da ich beruflich in der kommenden Woche sowieso erst am Freitag Zeit haben werden, um meine Website zu aktualisieren.
Vielleicht gehts ja dann wieder bergauf?!?

Stay tuned!

Stefan

PS: Interessanterweise gab es den gleichen Effekt (leichte Regression bei der Release-Version) auch bei Stockfish 4 und bei Stockfish DD (siehe Diagramm auf meiner Website). Dazu muß ich anmerken, daß ich immer die oberste Version von abrok.eu des jeweiligen Stockfishs benutze (Windows x64 for modern computers + sse4.2), auch bei den Release-Versionen. Es liegt also nicht daran, daß die Release-Version von der offiziellen Stockfish-Seite ggf. schwächer ist als die DEV-Versionen auf abrok.eu.
Die offizielle Release-Version von Stockfish 5 von der offiziellen Stockfish-Website benutze ich nur in meinem Endless RoundRobin-Turnier.
Up Topic Hauptforen / CSS-Forum / SPCC: Stockfish 5 testrun durch

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill