Dreikampf um Platz 2

By Stefan Pohl Date 2025-12-13 06:44 Edited 2025-12-13 06:52 Upvotes 1

Die Engine Reckless macht rapide, geradezu unglaublich schnelle, Fortschritte. Die letzte von mir getestete dev vom 21.11. lag schon ganz knapp hinter PlentyChess und nur -15 Elo hinter Torch 4.
Nun, nur 3 Wochen später, hat mich der Autor kontaktiert und mich um einen weiteren Testrun gebeten, da er Reckless nun auch auf Threat-Input Neuralnetze umgestellt hat (PlentyChess und Stockfish haben diese Transformation ja schon hinter sich, das hatte ich ja schon ausführlich erläutert): Die neue Binary von Reckless ist 3x größer als die Dev vom 21.11. und läuft ca. 20-25% langsamer.
Der Testrun läuft nun seit gestern früh bei mir und das Zwischenergebnis ist - gelinde gesagt - beeindruckend.
Die neue Reckless-dev legt deutlich zu und ist nun auf Augenhöhe mit Torch 4 (auch im Head-2-Head gegen Torch 4 ist Reckless momentan nach 290 von 1000 Partien knapp im Plus: 50.3%).

Code:


     Program                     Celo    +    - Games    Score   Av.Op. Draws

   1 Stockfish 251130 a512     : 3872    4    4 15290    68.3%   3734   49.0%
   2 Stockfish 17.1 250330     : 3854    4    4 15290    65.9%   3735   49.0%
   3 Reckless 251212 a512      : 3807    7    7  4333    59.5%   3738   47.9%
   4 Torch 4 a512              : 3806    4    4 15290    59.3%   3738   49.4%
   5 PlentyChess 7.0.22 TI     : 3793    4    4 15290    57.5%   3739   48.6%
   6 Reckless 251121 a512      : 3791    4    4 15000    57.3%   3738   49.5%
   7 Obsidian 250706 a512      : 3784    4    4 15290    56.2%   3739   50.2%
   8 Integral 250805 a512      : 3754    4    4 15290    51.8%   3741   50.3%
   9 Berserk 250606 a512       : 3735    4    4 15289    49.0%   3743   50.4%
  10 Alexandria 8.1.12 a512    : 3733    4    4 15288    48.7%   3743   50.4%
  11 Caissa 1.24 a512          : 3697    4    4 15288    43.5%   3745   50.7%
  12 Clover 9.1 a512           : 3692    4    4 15288    42.8%   3745   50.4%
  13 KomodoDragon 3.3 avx2     : 3688    4    4 15288    42.2%   3746   50.1%
  14 Viridithas 18.0 a512      : 3687    4    4 15288    42.0%   3746   49.2%
  15 Stormphrax 7.0 avx2       : 3668    4    4 15288    39.4%   3747   48.2%
  16 Horsie 1.1 a512           : 3651    4    4 15288    36.9%   3748   48.9%
  17 RubiChess 250606 a512     : 3650    4    4 15288    36.8%   3748   49.2%

Das Tolle ist: Der Kampf um die Spitze, oder zumindest um Platz 2 hinter Stockfish ("best of the rest"), ist nun wirklich voll entbrannt. Mit nun 3 Engines, die direkt um diesen konkurrieren (PlentyChess, Reckless, Torch) - so was gab es seit locker 15 Jahren nicht. Früher rannte KomodoDragon Stockfish eine Dekade als einziger ernsthafter Verfolger hinterher, was leider extrem unspannend war.
Chesscom hat nämlich mittlerweile die Entwicklung von Torch wieder voll aufgenommen: Ich habe kürzlich mit A.Grant, dem Chefentwickler von Torch, gesprochen, das hat er mir zum Thema Torch-Entwicklung mitgeteilt (zusammen mit der Zusage, mir in absehbarer Zeit eine neue Torch-dev zum Testen zuzusenden):
"We've got some updates finally. Seems we are getting Elo quickly at the moment with tuning. We never really put much effort into tuning historically. I hope to update the Torch TCEC version ASAP; the version they have is now quite far behind."

Und Patrick ist auch voll im Kampfmodus, er hat mir schon eine weitere Version von PlentyChess angekündigt:
"Wenn der Reckless Testrun durch ist lege ich auch nochmal nach... Bin wieder bei so +8 Elo gegenüber 7.0.22 aktuell und ein paar Speedups auch, die möglicherweise auf deinem System besonders gut funktionieren".

Ein echter Dreikampf um Platz 2, mit der Perspektive, vielleicht sogar Stockfish bald ernsthaft zu gefährden. 2 Hobbyentwickler (Reckless, PlentyChess) gegen die Riesenfirma chesscom (Torch) und das Megaprojekt Stockfish. Wie genial ist das denn??? So spannend wars im Spitzencomputerschach seit 15 Jahren nicht. Wenn das mal reicht.
Und auch noch die Spannung, nun zum ersten Mal Torch im TCEC spielen zu sehen... Wer wird ins Superfinale einziehen? Torch? Oder ist bis dahin Reckless oder PlentyChess schon an Torch vorbeigezogen? Oder kann Lc0 unter den extremen TCEC-Konditionen (lange Bedenkzeit, schnelle Hardware), die Lc0 klar bevorteilen, doch die Konkurrenz nochmal düpieren?
Völlig unmöglich, das jetzt vorherzusagen. Spannung pur!!! Hach, wie schön.

Hier ein schöner Opfersieg von Reckless aus meinem Testrun vs. die aktuelle Stockfish dev. 6 Züge UHO-Vorgabe, Weiß hat Vorteil, 3min+1sec, singlethread. Partie wird bei Erreichen von 5 Steinen beendet.

Event:

Ort:

Datum:

Weiss:

Schwarz:

Ergebnis

Board

By Tommy Tulpe Date 2025-12-13 12:13

Das klingt interessant, Stefan.
Dass Torch ein Großprojekt von Chess.com ist / werden soll, weiß ich inzwischen. Aber wie sieht es mit den beiden anderen erwähnten Engines Reckless und PlentyChess aus? Kann man diese als Interessierter irgendwo in neuester Version herunter laden? Wenn ja, dann würde ich mich über die Downloadadresse freuen.
Viele Freundliche Grüße, Ulrich

By Peter Martan Date 2025-12-13 12:23 Edited 2025-12-13 12:29

Ich hatte meinerseits schon den einen und den anderen Download- Link im Posting unter deinem, hier sind noch einmal die beiden, die dich am meisten interessieren werden, denke ich, zu den jüngsten Compiles, frühere Prerelease- und Release- Versionen sowie die Sourcen und Readme- Files hast du auf github, wenn du diese beiden Links entsprechend kürzt bis zum Engine- Namen.

https://github.com/codedeliveryservice/Reckless/releases/tag/v0.9.0-dev-0dd5b9ac

und

https://github.com/Yoshie2000/PlentyChess/releases/tag/b-7.0.22

By Stefan Pohl Date 2025-12-14 07:25

Tommy Tulpe schrieb:

Peter war schon so nett, die Links zu posten. Generell nehme ich nur dev-versionen zum Testen, die jedermann herunterladen kann (ja, bis auf Torch...). Wenn die betreffende Version nicht vom offiziellen Engine GitHub kommt (wie bei PlentyChess z.B.), dann poste ich immer den Download-Link zur Binary, wenn ich das Testergebnis auf meiner Website veröffentliche. Meistens handelt es sich dann um Binaries von Jim Ablett, die man in seinem Themen-Thread auf talkchess auch wiederfinden kann. Die Downloads stellt er dankenswerterweise dauerhaft (oder zumindes bis zur nächstneueren dev-version) zur Verfügung.

By Tommy Tulpe Date 2025-12-14 10:52 Upvotes 2

Stefan Pohl schrieb:

Peter war schon so nett, die Links zu posten.

Der Peter ist halt ein ganz Netter.

Darf man ruhig mal öffentlich feststellen.......

By Peter Martan Date 2025-12-14 11:26 Edited 2025-12-14 11:29 Upvotes 2

Dir auch schöne Weihnachten!

Natürlich bei der Gelegenheit auch gleich allen Anderen schöne Feiertage zusammen!

By Peter Martan Date 2025-12-13 09:30 Edited 2025-12-13 10:02

Ja, erstaunliches Tempo. Ein Minimatch gegen Plentychess der vorletzten Reckless- dev. hab' ich nach 250 Partien abgebrochen, weil Plenty da die Nase schon noch deutlich vorn hatte, jetzt hab' ich mal erst nur die Stellungstest- Suite der 256 laufen lassen, mit denen ich eine neue EloStatTS- Liste angefangen habe mit dem neuen Rechner, um nicht ständig bei allen Compiles, die schon in der alten waren, die neue CPU dazu schreiben zu müssen. 0.9.0.1 ist Reckless 0.9.0-dev-c5af2cea und 0.9.0.2 heißt in der Liste bei mir die jüngste Reckless 0.9.0-dev-0dd5b9ac Prerelease- Version.



    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

  1 RemsM-091224-8t-26-4-2000                : 3548    4   4832    57.2 %   3497   218/256    3.3s    7.3s   0.75
  2 Leptir251203-8t-26-4-500                 : 3539    4   4761    55.9 %   3498   213/256    3.8s    8.2s   0.73
  3 Reckless0.9.0.2-8t-MuPV4                 : 3533    4   4728    55.0 %   3498   207/256    3.7s    8.7s   0.70
  4 Reckless0.9.0.1-8t-MuPV4                 : 3527    4   4673    54.1 %   3499   199/256    3.5s    9.4s   0.70
 
  6 Stockfish-251112-8t-MuPV4                : 3514    4   4530    52.1 %   3499   189/256    3.4s   10.4s   0.70

 12 Lc0v0.32.0-6147500PT-RTX5070-MuPV4        : 3502    5   4642    50.3 %   3501   187/256    4.3s   11.2s   0.60
 13 Lc0v0.32.0-1740-MuPV4-RTX5070             : 3500    5   4616    49.9 %   3501   184/256    4.0s   11.3s   0.59
 14 PlentyChess7.0.22-8t-MuPV4                : 3500    5   4565    49.9 %   3500   181/256    3.8s   11.4s   0.61
 15 HypnoS-251206-8t-MuPV4                    : 3500    4   4538    49.9 %   3500   188/256    4.2s   11.0s   0.58
 16 PlentyChess7.0.12avx512vnni-8t-MuPV4      : 3495    4   4527    49.2 %   3501   183/256    4.6s   11.8s   0.56
 17 Lc0v0.32.0-6147500-MuPV4                  : 3494    5   4602    49.0 %   3501   182/256    4.2s   11.6s   0.57
 18 Lc0v0.31.0onnx-RTX5070-BT5-3700M          : 3491    5   4666    48.6 %   3501   185/256    5.1s   12.0s   0.52
 19 Obsidian16.0-avx512-8t-MuPV4              : 3473    5   4381    45.8 %   3502   164/256    4.4s   13.6s   0.56
 
 22 Monty-251201-8t-Co100                     : 3386    6   4229    33.4 %   3506   100/256    4.1s   19.9s   0.31

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position

Mit erst 22 runs insgesamt sind die error bars noch relativ hoch (bei der alten Liste von 175 waren's bei den meisten nur noch 2 StatTS- Elo, die Abstände rücken aber dafür mit mehr runs, vor allem, wenn viele der besten Ergebnisse dazu kommen, noch näher zusammen und vor allem ganz oben sind noch zu wenige Vergleichs- Runs drin. Wenn man das z.B. mit einer etwas größeren Suite, kürzerer TC und MEA laufen lässt, (dabei ist die Zahl der Vergleichs- Runs ja egal, da werden einfach nur die Punkte des einzelnen für sich allein gezählt), kehrt sich das Verhältnis der beiden Führenden gleich mal um. Das waren die 1024 von hier

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=176682#pid176682

, mit 15"/Stellung und single thread:


3.Leptir251203T4.3    15" 1t 16cc : 10363=75.03% Found 866 
4.Lc0v0.31onnx-BT5    13" 2t  1cc : 10272=74.38% Found 851
5.Rems091224T4.3      15" 1t 16cc :  9880=71.54% Found 837

7.Reckless0.9.0.1     15" 1t 16cc :  8495=61.51% Found 786

T4.3 steht für 4.3GHz des einzelnen CPU- Threads, cc für concurrencies. Die error bar dieser Liste liegt bei 1% des maximalen Scores and MEA- Punkten, in dieser Suite 13810.

Man kommt kaum mit dem Runterladen nach derzeit, zwischen den beiden letzten Updates von Reckless liegt gerade mal eine Woche

Mit Compiles von Plentychess, bei der sich ja auch dauernd was tut jetzt, versorgt uns Chris Forumula im Talkchess:

https://talkchess.com/viewtopic.php?p=986512#p986512

Leider hat er in der Regel keine avx512- Versionen dabei, aber vielleicht kommt auf der Plentychess- site ja auch bald wieder was, die 7.0.22 hatte auch ein eigenes Prerelease:

https://github.com/Yoshie2000/PlentyChess/releases

By Stefan Pohl Date 2025-12-13 10:09 Upvotes 1

Peter Martan schrieb:

Man kommt kaum mit dem Runterladen nach derzeit, zwischen den beiden letzten Updates von Reckless liegt gerade mal eine Woche

Mit Compiles von Plentychess, bei der sich ja auch dauernd was tut jetzt, versorgt uns Chris Forumula im Talkchess.

Ich hatte doch PlentyChess erwähnt:

Und Patrick ist auch voll im Kampfmodus, er hat mir schon eine weitere Version von PlentyChess angekündigt:
"Wenn der Reckless Testrun durch ist lege ich auch nochmal nach... Bin wieder bei so +8 Elo gegenüber 7.0.22 aktuell und ein paar Speedups auch, die möglicherweise auf deinem System besonders gut funktionieren".

Die pre-releases macht Patrick explizit meinetwegen, weil ich nichts teste (ja, Torch ist ein Grenzfall...), was nicht jeder nutzen kann. Daher wartet Patrick jetzt auf das Ende meines Reckless Testruns und wird dann hoffentlich zeitnah einen neuen pre-release von PlentyChess auf github einstellen. Den werde ich dann testen.

By Peter Martan Date 2025-12-13 10:16 Edited 2025-12-13 10:19

Alles klar, danke.
Ich wollte vorhin nur dazu sagen, dass Chris Formula auch zwischen den Prereleases von Plentychess auf Talkchess hin und wieder Compiles verlinkt, die er macht. Mit dem nächsten Download von Plentychess warte ich jetzt aber ohnehin auf die github- site.

By Lothar Jung Date 2025-12-13 14:08

Bei den ins Netz gestellten Engines handelt es sich teilweise um Dopplungen und Plagiate.
Die von P. Martan verwendete Bewertung ist höchst zweifelhaft.
Lc0 befindet sich derzeit in einer Umbauphase, die sowohl die Engine und auch das Netztraining betrifft.
Zwischenstände bei den Engines wurde eingepflegt.
Im übrigen hat sich derzeit bei CUDA und den GPUs einiges getan.

By Peter Martan Date 2025-12-13 14:25 Edited 2025-12-13 14:30

Lothar Jung schrieb:

Bei den ins Netz gestellten Engines handelt es sich teilweise um Dopplungen und Plagiate.

Was heißt, "ins Netz gestellte Engines"?

Zitat:

Die von P. Martan verwendete Bewertung ist höchst zweifelhaft.

Natürlich ist sie das, würde ich selbst keine Zweifel an der Bewertung haben, nämlich an dem, was beim Test herauskommt, wozu sollte ich dann testen?

Weil ich weiß, dass auch du an jedem Einzelergebnis zweifelst, habe ich eigens schon 2 ziemlich verschiedene Arten der Bewertung gezeigt, wie sie mich halt interessieren, und ja, beide für sich zweifelhaft, dafür sind sie aber durchaus miteinander vergleichbar und geben gemeinsam ein kompletteres Bild als jede für sich. Zeig doch mal "Bewertungen" von dir, ich sag' dir dann, ob ich an denen auch zweifeln werde.

Zitat:

Lc0 befindet sich derzeit in einer Umbauphase, die sowohl die Engine und auch das Netztraining betrifft.
Zwischenstände bei den Engines wurde eingepflegt.
Im übrigen hat sich derzeit bei CUDA und den GPUs einiges getan.

Alles ebenso Gründe zu testen und keine, es nicht zu tun.
Wenn dir meine Ergebnisse und die der anderen Leute, die auch jeweils ihre eigenen Resultate veröffentlichen, nicht gefallen, bräuchte es als Diskussionsgrundlage mit dir wenigstens irgendwas, was du besser findest. Und ja, natürlich sind die Ranglisten, wie sie Stefan führt und auch die der Entwickler selbst, deren Fortschrittskontrollen der eigenen Versionen ja auch meistens gut nachvollziebar sind, wenn die Engines in entsprechend guter Dokumentation "ins Netz gestellt" sind, von größerem, im Sinne von allgemeinerem Interesse. Was ich mich nur immer wieder frage ist, warum melden sich immer ausgerechnet diejenigen Leute zur Veröffentlichung von Resultaten zu Wort, die nicht solche Allgemeingültigkeit darstellen, die sich angeblich für derlei überhaupt nicht interessieren? Ich meine, wenn mich was nicht kümmert, schreib' ich das doch nicht extra jedesmal als Antwort auf solche "Neuigkeiten", da hätte ich viel zu tun, wenn ich jedes Mal und für alles, was mir am A...ufmerksamkeitsfenster vorbei geht, dazu öffentlich verkündete, dass es nicht mein Hauptinteresse trifft. Vor allem müsste ich dann noch und noch Sachen lesen, von denen ich ohnehin schon vorher weiß, dass sie mich nicht interessieren werden

By Andreas Matthies Date 2025-12-13 15:58 Upvotes 1

Herr Jung als Gentleman beschützt nur seine Geliebte, weil man ihr zu nahe kommt.
Seine Argumente sind allerdings tatsächlich sehr schwach.

Ich stelle allerdings an dieser Stelle mal die Prognose auf, dass Leela im gerade laufenden TCEC Swiss (würde also eigentlich besser in den Thread passen) sehr gut abschneiden wird.
Die Hardware ist gut für GPU Engines und Leelas Contempt Implementierung scheint inzwischen wirklich gut zu funktionieren (zu beobachten bei einem Sieg im Testspiel mit Schwarz und einer -1 Eröffnung), was ja in einem Schweizer Turnier mit einigen etwas schwächeren Gegnern durchaus hilfreich sein kann.

Gruß, Andreas