Benno Hartwig schrieb:
Welchen konkreten Einfluss auf deine Ergebnisse mag es haben, wenn du die Testläufe, die (evtl. zufälligerweise) vergleichsweise unglücklich beginnen, konsequent vorab rausschmeißt und nur die (evtl. zufälligerweise) glücklich beginnenden durchlaufen lässt?
Benno
Tja, das kann man nie genau sagen. Aber ich breche ja wie schon erwähnt nur ab, wenn das Ergebnis nach 3000+ Partien (24 Stunden) schlechter ist, als das Endergebnis des letzten kompletten Durchlaufs einer Dev-Version. Sicher könnte da auch mal eine hinten raus stärkere Version durch den Rost fallen. Aber sehr wahrscheinlich ist das nicht, da das Ergebnis erfahrungsgemäß nach 3000 Partien entweder stabil bleibt oder aber zum Ende hin leicht absinkt. Zumindest bei Stockfish. Generell gehen aber fast alle Scores von Engines, die besser als 50% (Durchschnitt gegen die Gegner im LS-top10-tournament) scoren, zum Ende eines Testruns eher noch etwas nach unten und die von Engines unter 50% eher etwas nach oben. Und Stockfish liegt ja mittlerweile bei über 60% Erfolgsscore. Und soweit ich mich erinnere, wurde kein Stockfish-Ergebnis nach 3000 Partien zum Ende hin noch besser. Ein mal hat eine Komodoversion nach 5000 Partien noch ein paar Elopunkte zugelegt. Aber das war die berühmte Ausnahme, die die Regel bestätigt...
Wenn also eine Stockfishversion nach gut 3000 Partien bei -3 bis -10 Elo liegt, dann ist Wahrscheinlichkeit, daß die zum Ende hin wirklich noch besser wird, also ins Plus dreht, sehr, sehr gering. Mit diesem Restrisiko kann ich leben und der nächste Stockfishtest ist ja immer schon sehr bald. Da würde dann eben die nächste Version evt. mehr Erfolg haben.
Stefan