Stockfish: Neuer Regression-Test sieht super aus

By Guest Date 2014-01-03 17:46

Hallo Stefan,

wie sah das in der Vergangenheit aus? Kannst Du abschätzen aus Deiner bisherigen Erfahrung, ob ein z. B. +7 Elo Gewinn auf http://tests.stockfishchess.org/tests
bei Dir (nur als Beispiel) +5 Elo Zugewinn (also quasi ein "konstanter Faktor 0.7") bedeutete?

Wenn ja, wären ja diese "inzüchtigen" Tests (zuminderst bei SF) nicht so verkehrt.

Vielen Dank.

By Stefan Pohl Date 2014-01-04 11:06

Guest schrieb:

Hallo Stefan,

wie sah das in der Vergangenheit aus? Kannst Du abschätzen aus Deiner bisherigen Erfahrung, ob ein z. B. +7 Elo Gewinn auf <a class='ura' href='http://tests.stockfishchess.org/tests'>http://tests.stockfishchess.org/tests</a>
bei Dir (nur als Beispiel) +5 Elo Zugewinn (also quasi ein "konstanter Faktor 0.7") bedeutete?

Wenn ja, wären ja diese "inzüchtigen" Tests (zuminderst bei SF) nicht so verkehrt.

Vielen Dank.

Naja, wenn wir uns den Regression-Test ansehen, der zeitnah zur letzten von mir getesteten Version (131223) durchgeführt wurde, so waren es da +17 und bei mir +8. Und ähnliche Werte habe ich auch früher schon 2 oder 3 Mal beobachtet. Wenn ich also schätzen soll, dann sage ich mal, daß ca. 50% des Elogewinns im Selftest des Frameworks sich auch bei mir gegen andere Gegner manifestieren...Aber das ist mit Vorsicht zu genießen, da wir hier über so geringe Zuwächse und Differenzen reden, daß selbst meine genauen Messungen hier an ihre Grenzen stoßen (bzw. die Errorbar "durchstoßen")...
Aber wir können ja mal aufgrund dieser Schätzung spekulieren: Der letzte Regression-Test ist fast durch und liegt bei +25.4 Elo zu Stockfish DD. Wenn ich am Montag nun den nächsten Stockfishtest starte (und bis dahin nicht noch mehr tolle Patches eingebaut werden, die im jetzigen Regression-Test noch nicht berücksichtigt sind), dann würde man also knapp +13 Elo zu Stockfish DD für diese neue Version in der LS-Liste erwarten (und somit +5 Elo zu Stockfish 131223)...
Wenn ich mir allerdings das Framework so ansehe, könnte es gut sein, daß Marco am Wochenende noch einige Patches in Stocki reinmontiert. Dann wäre diese Rechnung natürlich obsolet und das Ergebnis hoffentlich noch etwas besser.
Aber wie schon erwähnt, auch meine Messungen/Tests können nicht zaubern. Eine Errorbar von +/-5 bleibt und somit +/-10 bei Vergleichen zweier LS-gelisteter Stockfische. Noch geringere Zuwächse werden erst durch die Menge an Stockfishtests, die ich mache, wirklich nachweisbar, weil die Kurve der Elogewinne von Stockfish insgesamt nach oben zeigt und man eine Steigerung über einen längeren Zeitraum (bzw. mehrere Versionen) dann mit größerer Sicherheit ableiten kann (so wie Benno das mit seinem Diagramm meiner Stockfish-Tests gerade so toll hier präsentiert hat). Ein einzelner Vergleich zwischen Selftest und LS-Test ist aber schwierig. Der Selftest mit 40000 Partien sollte eine Errorbar von 2-3 Elo haben und mein LS-Test von 5. Ergo hätte man eine Vergleichserrorbar von +/-8. Das ist leider genausoviel, wie man überhaupt an Differenz ausmessen will.

Wenn alles läuft wie geplant, dann sollte der Stockfishtest am Montag starten und hoffentlich am Donnerstag durch sein. Zeitangaben wie immer ohne Gewähr...

Schaun mer mal - Stefan

By sachista Date 2014-01-04 23:17

Stefan Pohl schrieb:

Wenn ich also schätzen soll, dann sage ich mal, daß ca. 50% des Elogewinns im Selftest des Frameworks sich auch bei mir gegen andere Gegner manifestieren...

Hallo,

ich denke, dass man da durchaus etwas höher ansetzen kann, ich hatte für mich bisher immer ca. 3/4 des Selftest-ELO-Gewinns angesetzt, aber dankenswerterweise hat Gary Linscott gerade noch mal die Zahlen für die verschiedenen Selftests zwischen den SF-Versionen rausgesucht, da ergibt sich dann folgendes Bild:

Code:

LightSpeed ratinglist

Stockfish DD x64s       3121 (+53)
Stockfish 4 x64s        3068 (+49)
Stockfish 3 x64s        3019 (+24)
Stockfish 2.3.1 x64s    2995  

SF selftests

+25 ELO - master vs SF DD - http://tests.stockfishchess.org/tests/view/52c5ad780ebc5954c3432f07
+67 ELO - SF DD vs SF 4 - http://tests.stockfishchess.org/tests/view/529939330ebc5903719161c0
+57 ELO - SF 4 vs SF 3 - http://tests.stockfishchess.org/tests/view/521077fb0ebc593f4bb9a39d
+31 ELO - SF 3 vs SF 2.3.1 - http://tests.stockfishchess.org/tests/view/517f5f538f0c3e0fd9df8d35

Damit erhält man folgende Werte für LS/Selftest:

Code:

 SFDD vs SF4       53/67 = 0.791045
SF4 vs SF3        49/57 = 0.859649
SF3 vs SF2.3.1    24/31 = 0.774194

Demnach könnte man eher von ca. 80% ausgehen, natürlich mit entsprechenden Schwankungen. Klingt für mich ehrlich gesagt selbst erstaunlich hoch, denn dann wären ja für den nächsten SF-Testlauf 3141 (3121 + 0.8 * 25) ELO zu "erwarten"

(evtl. sogar noch mehr bei weiteren Verbesserungen bis dahin...) aber beschweren würde sich hier darüber wohl auch niemand.

By Stefan Pohl Date 2014-01-05 15:33

sachista schrieb:

Stefan Pohl schrieb:

Wenn ich also schätzen soll, dann sage ich mal, daß ca. 50% des Elogewinns im Selftest des Frameworks sich auch bei mir gegen andere Gegner manifestieren...

Code:

LightSpeed ratinglist

Stockfish DD x64s       3121 (+53)
Stockfish 4 x64s        3068 (+49)
Stockfish 3 x64s        3019 (+24)
Stockfish 2.3.1 x64s    2995  

SF selftests

+25 ELO - master vs SF DD - <a class='ura' href='http://tests.stockfishchess.org/tests/view/52c5ad780ebc5954c3432f07'>http://tests.stockfishchess.org/tests/view/52c5ad780ebc5954c3432f07</a>
+67 ELO - SF DD vs SF 4 - <a class='ura' href='http://tests.stockfishchess.org/tests/view/529939330ebc5903719161c0'>http://tests.stockfishchess.org/tests/view/529939330ebc5903719161c0</a>
+57 ELO - SF 4 vs SF 3 - <a class='ura' href='http://tests.stockfishchess.org/tests/view/521077fb0ebc593f4bb9a39d'>http://tests.stockfishchess.org/tests/view/521077fb0ebc593f4bb9a39d</a>
+31 ELO - SF 3 vs SF 2.3.1 - <a class='ura' href='http://tests.stockfishchess.org/tests/view/517f5f538f0c3e0fd9df8d35'>http://tests.stockfishchess.org/tests/view/517f5f538f0c3e0fd9df8d35</a>

Damit erhält man folgende Werte für LS/Selftest:

Code:

 SFDD vs SF4       53/67 = 0.791045
SF4 vs SF3        49/57 = 0.859649
SF3 vs SF2.3.1    24/31 = 0.774194

(evtl. sogar noch mehr bei weiteren Verbesserungen bis dahin...) aber beschweren würde sich hier darüber wohl auch niemand.

Sehr interessante Aufstellung bzw. Gegnüberstellung. Bei Stockfish lasse ich meine Schätzungen gerne nach oben korrigieren...
Der Houdini 4 Contempt=0 Testrun ist fast durch. Morgen Mittag geht es höchstwahrscheinlich schon mit dem nächsten Stockfish-Testrun los, sodaß das Ergebnis hoffentlich Donnerstag vorliegt. Wird interessant zu sehen, wo die neuste Developmentversion landen wird...An 3141 LS-Elo zu glauben fällt mir ehrlich gesagt etwas schwer, aber toll wärs natürlich. Das wären dann nur noch 10 Elo Abstand zu Houdini 3 - davon hätte man vor einem Jahr bei Stockfish noch nicht mal zu träumen gewagt.
Stay tuned!

Stefan