Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Stockfish 16.1 veröffentlicht
- - By Jörg Oster Date 2024-02-24 19:06 Upvotes 3
https://github.com/official-stockfish/Stockfish/releases/tag/sf_16.1
https://github.com/official-stockfish/Stockfish/commit/e67cc979fd2c0e66dfc2b2f2daa0117458cfc462
https://stockfishchess.org/
Parent - By Max Siegfried Date 2024-02-24 22:01
Fehlt noch LC0 BT5 und der Spaß kann losgehen 
Parent - - By Stefan Pohl Date 2024-02-25 06:47 Edited 2024-02-25 07:26 Upvotes 1
Da ich die Version 240217, die den gleichen Bench hat, schon getestet habe, weiß man schon, daß es nur +10 Elo im Ranglistentest zu SF 16 sind (+27 Elo sind es ja wohl im Fishtest Selfplay-Test). Also nicht wirklich nennenswert. Und die ewig Gestrigen, die noch mit nicht-UHO Eröffnungen testen, werden dann vermutlich quasi gar keinen Elo-Zuwachs messen.
Was aber bemerkenswert ist, ist, daß SF 16.1 den höchsten EAS-Score aller Stockfishe erreicht hat. Das habe ich auf meiner Website auch nochmal herausgearbeitet, ich kopiere das mal hier rein:

Testrun of Stockfish 240217 finished (= Stockfish 16.1 release candidate): -3 Elo to Stockfish 240203.

Seems to be a bad choice for making this version to Stockfish 16.1? But IMHO it is not. Why? Because Stockfish 240217 has the highest EAS-Score of all Stockfish so far (it is normal, that more aggressive play can cost some Elo):

EAS-Score: 198736 (SF 240203: 183947, SF 16: 182211). Single stats:

Sacrifices: 23.73% (SF 240203: 21.92%, SF 16: 20.93%).

Short wins: 25.09% (SF 240203: 23.49%, SF 16: 23.46%).

Bad draws: 8.78% (SF 240203: 9.25%, SF 16: 10.23%).

Average length of all wins: 70 moves (SF 240203: 71 moves, SF 16: 71 moves)

Dazu muß ich noch anmerken, daß diese Zuwächse in den Einzel-Stats in absoluten Zahlen wesentlich beeindruckender sind.
Beispiel: Von 1000 gewonnenen Partien in einem beliebigen Testrun wären laut der Sacrifice-Prozentquote in einem Test eben bei SF 16 dann 209 Opferpartien dabei. Bei SF 16.1 wären es dann entsprechend 237 Opferpartien. Und das ist dann im Direktvergleich dieser Partiemengen ein Zuwachs von immerhin 13% mehr Opfern (237 sind 113% von 209). Das ist schon ganz erheblich.
Parent - - By Peter Martan Date 2024-02-25 09:05 Upvotes 1
Stefan Pohl schrieb:

Was aber bemerkenswert ist, ist, daß SF 16.1 den höchsten EAS-Score aller Stockfishe erreicht hat. Das habe ich auf meiner Website auch nochmal herausgearbeitet, ich kopiere das mal hier rein:

Testrun of Stockfish 240217 finished (= Stockfish 16.1 release candidate): -3 Elo to Stockfish 240203.

Seems to be a bad choice for making this version to Stockfish 16.1? But IMHO it is not. Why? Because Stockfish 240217 has the highest EAS-Score of all Stockfish so far (it is normal, that more aggressive play can cost some Elo):

EAS-Score: 198736 (SF 240203: 183947, SF 16: 182211). Single stats:

Sacrifices: 23.73% (SF 240203: 21.92%, SF 16: 20.93%).

Short wins: 25.09% (SF 240203: 23.49%, SF 16: 23.46%).

Bad draws: 8.78% (SF 240203: 9.25%, SF 16: 10.23%).

Average length of all wins: 70 moves (SF 240203: 71 moves, SF 16: 71 moves)

Dazu muß ich noch anmerken, daß diese Zuwächse in den Einzel-Stats in absoluten Zahlen wesentlich beeindruckender sind.
Beispiel: Von 1000 gewonnenen Partien in einem beliebigen Testrun wären laut der Sacrifice-Prozentquote in einem Test eben bei SF 16 dann 209 Opferpartien dabei. Bei SF 16.1 wären es dann entsprechend 237 Opferpartien. Und das ist dann im Direktvergleich dieser Partiemengen ein Zuwachs von immerhin 13% mehr Opfern (237 sind 113% von 209). Das ist schon ganz erheblich.

Im Stellungstest hat die Version bei mir auch seit Längerem das erste Mal einen Fortschritt knapp außerhalb der error bar relativ zur Vorgängerversion (der letzten, die ich getestet habe, 240203 und auch relativ zur besten unter den jüngsten, die 240101 war, er ist damit unter den Nicht-Branches mit default Settings an der Spitze von denen, dich ich in dieser Liste habe) bei einer Suite mit längerer TC und taktischen anti engine puzzles.
Parent - By Stefan Pohl Date 2024-02-25 10:51 Upvotes 1
Tja, dazu kann ich jetzt nicht so viel sagen, mit den Stellungstests kenne ich mich nicht aus. Es scheint mir aber prinzipiell logisch, daß eine Engineversion, die im praktischen Spiel nachweislich deutlich aggressiver spielt, auch in taktischen Stellungen eines Stellungstests besser abschneiden könnte (und eigentlich auch sollte). Insofern eine Korrelation, die ich nicht abwegig finde.
Parent - - By Peter Weise Date 2024-02-25 22:27 Upvotes 3
Stefan Pohl schrieb:
...
Und die ewig Gestrigen, die noch mit nicht-UHO Eröffnungen testen, werden dann vermutlich quasi gar keinen Elo-Zuwachs messen.
...

Hhm, Arroganz 2.0?
Parent - - By Stefan Pohl Date 2024-02-26 05:49 Edited 2024-02-26 06:22 Upvotes 1
Peter Weise schrieb:

Stefan Pohl schrieb:
...
Und die ewig Gestrigen, die noch mit nicht-UHO Eröffnungen testen, werden dann vermutlich quasi gar keinen Elo-Zuwachs messen.
...

Hhm, Arroganz 2.0?


Vielleicht. Vielleicht sind die Fakten aber auch, daß alle halbwegs guten Engines mit UHO-Eröffnungen entwickelt werden. Alleine Fishtest spielt ca. 1 Milliarde Partien pro Jahr mit UHO. In der Torch-Entwicklung, die natürlich nicht öffentlich ist, dürfte es mindestens genauso viel sein (andernfalls könnte chesscom nicht darauf hoffen, irgendwann Stockfish zu überholen), im OpenBench-Framework dürften es auch mehrere Millionen sein. Von den Engine-Turnieren auf chesscom gar nicht zu reden, die fallen in der Menge auch nicht ins Gewicht, sehr wohl aber in der Wahrnehmung. Ebenso TCEC: Im Superfinale werden die Eröffnungen seit etlichen Seasons auch nach dem UHO-Prinzip gewählt (man peilt eine Gewinnwahrscheinlichkeit für Weiß (oder im TCEC auch manchmal für Schwarz) von 50% an (dort mit Lc0-Evals, aber das ist kein prinzipieller Unterschied)) - was genau das Ziel ist, daß UHO im Idealfall habe soll.

Ergo: 99% (das ist konservativ geschätzt, vermutlich sind es eher 99.99%) aller Enginepartien auf dem Planeten werden heutzutage mit UHO Eröffnungen gespielt (wobei längst nicht mehr alle UHO-Sets von mir persönlich erstellt worden sind, aber das zugrundeliegende Pinzip ist ja letzlich das Entscheidende). Wer in seinen Tests diese Tatsache ignoriert oder als Fehlentwicklung brandmarkt - warum sollte man solche Leute nicht ewig gestrig nennen? Ich finde das aufgrund der Faktenlage treffend.

Natürlich gilt das alles nur für den Top-Bereich (zur Zeit so ca. Rang 1-15, aber das wird mit der Zeit immer mehr). Aber da gehört Stockfish ja nun mal dazu. Insofern ist es einfach unzeitgemäß, Stockfish und Co mit ausbalancierten Eröffnungen zu testen. Eben weil das nicht mehr vernünftig funktioniert. Fishtest, OpenBench und Co sind ja nicht auf UHO umgestiegen, weil sie Langeweile hatten, oder weil sie mir einen Gefallen tun wollten. Es war einfach unumgänglich. Sonst hätte man nicht mehr weiterentwicklen können. Und weiterentwickeln in Fishtest heißt ja nichts anderes als neue Dev-Versionen von Stockfish gegen die letzte Dev-Version von Stockfish zu testen. Und wenn das dort mit ausbalancierten Eröffnungen nicht mehr funktioniert (trotz kürzester Bedenkzeiten (60sec+600ms auf nur einem Core)), dann in Ranglisten mit längeren Bedenkzeiten erst Recht nicht. Den RubiChess Test der CCRL hatte ich mir ja gerade auf talkchess angesehen: Gegen die Top14 Engines war die Remisquote über 90%...gegen Ethereal 14.25 lag die Remisquote bei 98.1% (51 Remisen aus 52 Partien). Das ist doch nun wirklich absurd. Und trotzdem macht man dort bei CCRL weiter, als wäre alles in Butter. Wie soll man das sonst nennen, wenn nicht ewig gestrig? Realitätsentrückt? Ist mir auch recht.

Arrogant? mag sein, das müssen andere beurteilen. Stolz? Auf jeden Fall. Immerhin habe ich UHO Eröffnungen erfunden. Inklusive des Begriffs "Unbalanced Human Openings" und der Abkürzung UHO. Letztere ist auf discord oder auch hier im Forum mittlerweile ein Fachbegriff, der ganz selbstverständlich benutzt wird und den jeder ohne weitere Erklärung versteht. Wer wäre darauf nicht stolz? Der werfe den ersten Stein.
Parent - By Lothar Jung Date 2024-02-26 08:29 Upvotes 2
Deine UHO Eröffnungen sind ganz zentral und wichtig beim Test von Engines.
Besonders zwischen Stockfish und LC0.
Sehr gut zur statistischen Spreizung und zentral zur Reduzierung der Remisquote.
Parent - By Stefan Pohl Date 2024-02-26 19:06 Edited 2024-02-26 19:38
TheBigGreek hat gerade ein Video zum Release von Stockfish 16.1 veröffentlicht, garniert mit einer schönen Opferpartie gegen Torch aus meinem Testrun der Stockfish 16.1 Release-Candidate Dev-Version. Unterhaltsam. Und, wer es sich anschaut, unterstützt damit auch TBG finanziell, also eine Win-Win Situation...

https://youtu.be/9ev2uctxjeM?si=eCcleKowq3VNMD4J
Parent - By Patrick Götz Date 2024-02-27 03:00 Upvotes 1
Beim Test von Stockfish 16.1 (10 Nodes) vs. Stockfish 14.1 (10 Nodes) konnte ich ein Plus von mehr als 500 Elo feststellen, das war eine totale Zerstörung. von  Stockfish 14.1 .
Habe es danach mal (mit der Nibbler GUI) selbst ausprobiert und  gegen Stockfish 16.1 mit 10 Nodes pro Zug  gespielt und die erzeugen  wirklich eine erstaunliche Spielstärke, gepaart mit einem sehr interessanten und aggressiven Spielstiel, der Spaß macht.
Aggressiver und mehr auf Angriff programmiert als der in diesem Punkt legendäre Junior 7 würde ich sagen.
Dabei menschlich, da ihm taktische Fehler passieren können.
Up Topic Hauptforen / CSS-Forum / Stockfish 16.1 veröffentlicht

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill