Reinhold Stibi schrieb:
Denke schon dass sich Stockfish 14.07.19 gegen Stockfish 10 verbessert hat.
Habe ein paar Turniere mit über 20 Engines und je ca. 500 Partien durchgeführt. In diesen Turnieren setzten
sich die neueren Stockfishe schon von Stockfish 10 ab.
Stockfish 10 hat bei deinen Tests im Vergleich zu den neueren Stockfishen sehr gut abgeschnitten was aber den
Testschwankungen geschuldet sein dürfte.
??? Bei mir sind die neuesten Stockfish-Versionen gut +30 Elo besser als Stockfish 10. Siehe gerade gepostete Teil-Liste. Natürlich haben sich die neuen Versionen verglichen SF10 verbessert.
Und das ist sogar
besser, als das, was das Stockfish-Team im Selfplay gemessen hat:
https://github.com/glinscott/fishtest/wiki/Regression-Tests(letzter Test war die Version vom 11.7. diese ist dort nur +24 Elo besser als Stockfish 10)
Reinhold Stibi schrieb:
Costalba bürgt für Qualität.
Die Stockfish Costalba Versionen waren bei meinenTests auch taktisch mit am besten und besonders auch nur mit 1 CPU.
Das ist einfach falsch. Costalba ist schon seit 2014 nicht mehr der Maintainer des Stockfish-Projekts. Er reicht nur noch ab und zu Patches ein, wie viele andere auch. Die meisten davon sind non-functional, so wie auch der Letzte vom 14.7., der nur die Bench-Ausgabe korrigiert und nichts aber auch gar nichts am Spiel von Stockfish verändert. Und wenn er mal einen functional patch einbringt (was wie gesagt nur noch sehr selten passiert), dann hat dieser Patch die ganz normalen Tests durchlaufen und dort gut genug abgeschnitten. Nur dann wird er in den Stockfish-Code integriert. So wie alle anderen functional patches anderer Leute auch.
Wirklich
interessant sind auf abrok.eu
nur die Patches, die functional und Elo-Gainer sind. Das erkennt man daran (Beispiel), daß die Intervall-Grenzen der Tests
komplett positiv sind:
STC:
LLR: 2.96 (-2.94,2.94)
[0.50,4.50] Total: 39657 W: 8966 L: 8604 D: 22087 Elo +3.17
http://tests.stockfishchess.org/tests/view/5d279fa40ebc5925cf0d4566 LTC:
LLR: 2.96 (-2.94,2.94)
[0.50,3.50] Total: 32582 W: 5740 L: 5427 D: 21415 Elo +3.34
http://tests.stockfishchess.org/tests/view/5d27dbf90ebc5925cf0d4b7e Dann gibt es noch die functional Patches die keine Elo-Gainer sind, meist sind es Vereinfachungen oder Umstrukturierungen. Das erkennt man daran (Beispiel), daß die Intervall-Grenzen der Tests
nicht komplett positiv sind:
STC
LLR: 2.95 (-2.94,2.94)
[-3.00,1.00] Total: 23471 W: 5245 L: 5127 D: 13099 Elo +1.75
http://tests.stockfishchess.org/tests/view/5d27ac1b0ebc5925cf0d476b LTC
LLR: 2.95 (-2.94,2.94)
[-3.00,1.00] Total: 51533 W: 8736 L: 8665 D: 34132 Elo +0.48
http://tests.stockfishchess.org/tests/view/5d27b74e0ebc5925cf0d493cUnd dann gibt es noch die non-functional Patches, die sich gar nicht auf das Spiel, die Berechnung von Stockfish auswirken, diese machen gar keine Testspiele, was ja auch sinnlos wäre. Wie eben Marcos letzter Patch vom 14.7.
Ergo: Auf abrok.eu immer nach
STC: LLR: 2.96 (-2.94,2.94)
[0.50,4.50] und LTC: LLR: 2.96 (-2.94,2.94)
[0.50,3.50] Ausschau halten. Nur, wenn solche Patches in den Stockfishcode eingebaut wurden, kann ein neuer Test überhaupt Sinn machen, bzw. kann es überhaupt nennenswerte Elo-Zugewinne geben.