Stefan Pohl schrieb:
Stockfish stagniert weiterhin. Bestenfalls. Eigentlich geht es sogar leicht abwärts, allerdings weit innerhalb der Errorbars.
Dennoch ist es bedenklich, daß im Testframework ein Fortschritt nach dem anderen vermeldet wird und sogar der letzte Regression-Test ein meßbares Plus erbrachte, aber in der LS-Rangliste, gegen andere Engines, dabei seit dem 22.2. nix zählbares herauskommt.
Wenn man sich die Regressionstest-Ergebnisse anschaut, dann hat sich das messbare Plus aber jeweils stark in Grenzen gehalten. Die builds, die für die Regressions-Tests und für die LS-Rangliste verwendet wurden stimmen nicht überein, aber wenn man für Mitte/Ende Februar 39 ELO ansetzt und für Ende März 44 ELO, so wären es 5 ELO im Selftest, der zumindest erfahrungsgemäß größere Unterschiede anzeigt, als es dann in anderen Ranglisten gemessen wird - also könnte man demnach u.U. eventuell 3-4 ELO erwarten. Vom 5. bis zum 8. April kam noch ein functional Patch, daher könnte man statt den aus den Regressionstests gemessenen ~8-9 ELO Unterschied für Ende Februar bis Anfang April eventuell ~6-8 ELO ansetzen (1-2 ELO weniger eben). Wir hatten vor ein paar Wochen glaube ich ca. 70-80% als ungefähren Wert für das Verhältnis Ranglisten-ELO zu Selftest-ELO ermittelt, dementsprechend erhält man ca. 3 ELO Unterschied bis Ende März und 4-6 ELO bis zum 5. April. Das sind bzw. wären zwar schöne Fortschritte, aber halt eben doch relativ kleine Unterschiede angesichts der Messungenaugkeiten - selbst bei der hohen Anzahl der Spiele der LS-Rangliste. Von daher wäre es schon gut vorstellbar, dass gegen andere Engines durchaus inzwischen wieder zählbares herauskommt, aber es in Ranglisten zumindest nicht immer auch in entsprechende Ergebnisse mündet.
Quelle für die obigen bzw. folgenden Zahlen ist Discoverers Post im
Immortalchess-Forum.
14-04-08 ELO: 47.70 +-2.1 wins : losses = 2.164 : 1
14-03-25 ELO: 43.70 +-2.1 wins : losses = 2.024 : 1
14-03-14 ELO: 40.85 +-2.0 wins : losses = 1.950 : 1
14-03-01 ELO: 41.97 +-2.1 wins : losses = 1.932 : 1
14-02-27 ELO: 38.93 +-2.0 wins : losses = 1.902 : 1
14-02-27 ELO: 39.25 +-2.1 wins : losses = 1.871 : 1
14-02-11 ELO: 38.63 +-2.0 wins : losses = 1.894 : 1
Stefan Pohl schrieb:
Seit dem Testrun der Version vom 22.2. sind mittlerweile 4 komplette Testruns (je 10000 Partien) mit neueren Stockfishen durchgelaufen. Keiner brachte ein Plus (im Gegenteil). Das kann keinesfalls noch mit der Errorbar erklärt werden. Das ist eine zweifelsfreie Stagnation.
Das sehe ich anders, die Errorbars geben doch (wenn ich das richtig verstanden habe) nur an, dass die tatsächliche Spielstärke mit 95%iger Wahrscheinlichkeit im entsprechenden Intervall liegt. Es gibt also auch 5% Wahrscheinlichkeit, dass es tatsächlich außerhalb liegt und somit ist es dann ja auch möglich, dass das Ergebnis für den 22.2. (z.B.) um 10 ELO zu hoch ausgefallen ist. Die Wahrscheinlichkeit dafür ist gering, es ist aber eben durchaus möglich und somit absolut erklärbar. Die Fortschritte waren in den letzten zwei Monaten offensichtlich deutlich geringer als in den zwei Monaten davor und wenn man sich die Ergebnisse der Regressionstest UND der LS-Rangliste anschaut, dann gab es von Mitte/Ende Februar bis Mitte März tatsächlich Stagnation.
Stockfish 140405: 3162 Elo (10000 games)
Stockfish 140326: 3165 Elo (10000 games)
Stockfish 140314: 3164 Elo (10000 games)
Stockfish 140226: 3166 Elo (10000 games)
Stockfish 140222: 3170 Elo (10000 games)
Das Ergebnis vom 5. April finde ich jedoch auch enttäuschend und hoffe, dass sich die (bisher) vier funktionalen Patch, die seitdem eingeflossen sind beim nächsten Testlauf wieder messbar positiv bemerkbar machen. Ansonsten fände ich es nochmal interessant zu überprüfen, ob der in der LS-Rangliste bisher beste Stockfish vom 22. Februar bei einem erneuten Testlauf dieses Ergebnis bestätigen kann. Noch lieber wäre es mir natürlich wenn der nächste Testlauf noch besser abschneidet und 140222 einfach als möglicher statistischer Ausreißer eine Fußnote in der Geschichte wird.