SPCC: Stockfish 5 testrun durch

By Benno Hartwig Date 2014-06-06 09:33

Thanx.
ich hatte in jeweils 1000 Partien den SF_140507 gegen einen späteren Mai-SF und SF5 antreten lassen.
Hier hatte jeweils dieser Gegner von SF_140507 sehr leicht die Nase vorn.
Ich schließe daraus mal: sie sind ziemlich gleich stark.
Und aus deinen Ergebnissen ziehe ich letztlich die Vermutung:

Stockfish 140507 x64s hat ggf. etwas Glück gehabt und etwas mehr erreicht, als es seiner Spielstärke entspricht.

Spekulation, klar.
Das bedeutet aber auch: Es wird dann erst ein SF vor dem jetzigen Favoriten landen, wenn dieser SF ein gutes Stück stärker geworden ist.
Widerspräche es deiner Philosophie, wenn du gezielt der Version vom 7.Mai eine Überprüfung verordnest?

Benno

By Stefan Pohl Date 2014-06-06 09:42 Edited 2014-06-06 09:54

Benno Hartwig schrieb:

Hi Benno,

ich denke, das bringt nix. Jedes Ergebnis hat eine Errorbar. Einzelne Ergebnisse so lange zu wiederholen, bis man das erhält, was man sich wünscht, wäre den anderen Ergebnissen/Messungen gegenüber unfair. Zudem: Wäre der zweite Testlauf wirklich schwächer, mit welchem Recht wollte man diesem Ergebnis mehr "Korrektheit" zubilligen als dem ersten Testrun? Da dreht man sich im Kreis...

Auch ist die Regressions-Bewegung in den letzten 3 Messungen sichtbar (sie sacken weiter und weiter ab, zwar nur minimal, aber kontinuierlich). Daß das wirklich Zufall/Errorbarschwankung ist, halte ich für sehr, sehr unwahrscheinlich. Die Qualität meiner Messungen beruht ja nicht nur auf der großen Zahl der gespielten Partien pro Testrun, sondern auch ganz wesentlich auf der großen Menge der Testruns an sich. Einzelne Ausreißer, sofern es sie gibt, werden in der Entwicklungs-Linie der Messungen im Diagramm dadurch "glattgebügelt". Entscheidend ist die Gesamtsteigung der Meßdaten-Kurve. Das ist die wesentliche Qualität meiner Messungen!

Der nächste Testrun der dann aktuellsten Version wird am Sonntag-Abend starten, da ich beruflich in der kommenden Woche sowieso erst am Freitag Zeit haben werden, um meine Website zu aktualisieren.
Vielleicht gehts ja dann wieder bergauf?!?

Stay tuned!

Stefan

PS: Interessanterweise gab es den gleichen Effekt (leichte Regression bei der Release-Version) auch bei Stockfish 4 und bei Stockfish DD (siehe Diagramm auf meiner Website). Dazu muß ich anmerken, daß ich immer die oberste Version von abrok.eu des jeweiligen Stockfishs benutze (Windows x64 for modern computers + sse4.2), auch bei den Release-Versionen. Es liegt also nicht daran, daß die Release-Version von der offiziellen Stockfish-Seite ggf. schwächer ist als die DEV-Versionen auf abrok.eu.
Die offizielle Release-Version von Stockfish 5 von der offiziellen Stockfish-Website benutze ich nur in meinem Endless RoundRobin-Turnier.