Ranglisten der Schach-Engine vom 19.12.2023

By Max Siegfried Date 2023-12-22 03:49

Dietmar Klinger schrieb:

Hallo,

für alle Computerfreaks, welche sich für die aktuellen [url]Ranglisten der Schach-Engine vom 19.12.2023[/url] interessieren.
Es ist wirklich schade, dass man Torch nirgends downloaden kann.

MfG Dietmar

Warten wir erst mal ab bis Stockfish im Blitz und bei lander Bedenkzeit deutlich überholt wird.

By Dietmar Klinger Date 2023-12-22 11:04 Upvotes 1

Max Siegfried schrieb:

Warten wir erst mal ab bis Stockfish im Blitz und bei langer Bedenkzeit deutlich überholt wird.

Von wem soll Stockfish denn deutlich überholt werden?
Einzig Torch könnte vorerst leicht vorbeigehen.
Die ersten drei nehmen sich im Grunde genommen nicht viel.
Das da irgendeiner sich mit Deutlichkeit absetzt ist in der heutigen Zeit eher unwahrscheinlich.

MfG Dietmar

By Volker Göbel Date 2023-12-22 05:24 Edited 2023-12-22 05:29 Upvotes 2

Dietmar Klinger schrieb:

Hallo,

Es ist wirklich schade, dass man Torch nirgends downloaden kann.

MfG Dietmar

Hallo,

Dinge die ich nicht erwerben kann, erwecken in mir keinerlei Interesse.

Egal, ob es sich hierbei um eine Schachengine, oder um irgend sonst etwas handelt.

MfG Volker

Und schöne Feiertage

By Reinhold Stibi Date 2023-12-22 08:05 Upvotes 1

Lc0 schneidet in dieser Rangliste viel zu schlecht ab.

M.E. ist Lc0 von der Spielstärke auf dem 2en Platz hinter Stockfish.

Leider wurde Lc0 mit alten Versionen (von der exe und den Netzen) getestet.

An der Realität sind da die Ergebnisse bei TCEC näher.

By Dietmar Klinger Date 2023-12-22 11:12 Upvotes 1

Reinhold Stibi schrieb:

Lc0 schneidet in dieser Rangliste viel zu schlecht ab.

Das sehen einige Insider allerdings anders.
LcO ist doch langsam wieder am Abklingen.

Zitat:

M.E. ist Lc0 von der Spielstärke auf dem 2en Platz hinter Stockfish.

Mit Sicherheit nicht. Oder hast du dafür eine fundierte Quelle?

MfG Dietmar

By Lothar Jung Date 2023-12-22 14:29 Upvotes 1

Die Einschätzung zeugt von einer soliden Unkenntnis.

By Dietmar Klinger Date 2023-12-22 15:16 Upvotes 2

Lothar Jung schrieb:

Die Einschätzung zeugt von einer soliden Unkenntnis.

Dann zeige doch bitte mal das Gegenteil. Maßgebend sind genaue Analysen und Auswertungen, schwarz auf weiß.

By Peter Martan Date 2023-12-22 15:23 Edited 2023-12-22 15:26 Upvotes 1

Bevor hier wieder um Kaisers Bart gestritten wird, SPCC sieht's z.B. so:

https://www.sp-cc.de/nn-vs-sf-testing.htm

, bzw. so, dass Lc0 zwischen SF und Torch zu landen käme, wenn die Partien von SF gegen Lc0 in die Liste der 16 aktuell Besten eingetragen würden (allerdings mit einer entsprechend höheren error bar wegen der geringeren Partiezahl)

https://www.sp-cc.de/

By Dietmar Klinger Date 2023-12-22 16:03

Peter Martan schrieb:

Bevor hier wieder um Kaisers Bart gestritten wird, SPCC sieht's z.B. so:
<a class='ura' href='https://www.sp-cc.de/nn-vs-sf-testing.htm'>https://www.sp-cc.de/nn-vs-sf-testing.htm</a>
, bzw. so, dass Lc0 zwischen SF und Torch zu landen käme, wenn die Partien von SF gegen Lc0 in die Liste der 16 aktuell Besten eingetragen würden (allerdings mit einer entsprechend höheren error bar wegen der geringeren Partiezahl)
<a class='ura' href='https://www.sp-cc.de/'>https://www.sp-cc.de/</a>

Hallo Peter,

wenn da u.a. steht: "Lc0 läuft auf der GPU (NVIDIA RTX-Karte). Daher kann nur 1 Spiel gleichzeitig auf einer
gleichzeitig auf einer GPU gespielt werden. Das macht es unmöglich, Lc0 regelmäßig für meine UHO-Top15-Ratingliste zu testen" usw, usw.....
Das würde dann aber auch bedeuten, dass man die wahren Gesamtwerte vergessen kann, da die Bedingungen viel zu unterschiedlich sind.
Mit einfachen Worten, es gibt keine genaue reelle Liste, welche die Spielstärke wiedergibt. Im Prinzip sind das dann nur Momentaufnahmen.

By Peter Martan Date 2023-12-22 18:20 Edited 2023-12-22 18:22 Upvotes 1

Jede Rangliste ist eine Momentaufnahme, Stefan Pohl hat wenigstens die 1000 Partien aus dem direkten SF- Lc0- Vergleich und weil das relativ zu den 15000 der übrigen weniger ist, steht die Engine in diesem Top- 15- Vergleich nur in Klammer und die error bar ist höher, steht aber auch dabei. In der NN vs. SF- Liste vom anderen Link wird nur momentan pausiert

Zitat:

NN-testing had to be suspended, because the PC is needed for the evaluation. Estimated time needed: around 75-80 days from today (2023/11/14

Und jede Rangliste hat mit Lc0 dasselbe Problem, jede einzelne GPU kann nur eine Instanz gleichzeitig spielen, die RTX 2080 von CCRL ist hingegen im Vergleich zu 8CPU- Kernen nicht ganz so ausgeglichen an "Leele- ratio" heutzutage, finde ich halt, Lc0 hat dort auch "nur" 2924 Partien gespielt für die Liste, dass es mehr Gegner sind, macht das Rating auch wieder zu einem anderen, als wenn nur die besten unter sich sind, und dann kommen noch die Eröffnungsstellungen, die bei Stefan UHO sind, bei CCRL ausgeglichenere.
Das alles macht die Momentaufnahmen, die beide Listen darstellen, zu 2 verschiedenen, die man nur bedingt vergleichen kann, da hast du recht, das gilt aber für alle anderen Arten der Spielstärkemessungen gleichermaßen, welche einem mehr sagt und welche man für die aussagekräftigere hält, bleibt dem Betrachter überlassen.
Statistisch belastbar müssen sie sein, möglichst die error bar auch angeben (die ist übrigens für Lc0 in der CCRL- Liste von deinem Link ziemlich ähnlich wie die von Lc0 in der Top 15 von SPCC, 10 in der einen, 15 in der anderen) , und es muss einem klar sein, wo die Unterschiede zu suchen sind.

By Stefan Pohl Date 2023-12-23 07:30 Upvotes 2

Peter Martan schrieb:

Zitat:

NN-testing had to be suspended, because the PC is needed for the evaluation. Estimated time needed: around 75-80 days from today (2023/11/14

Ich habe die Evaluierung meiner 8-zügigen UHO 2024 Eröffnungen aufgrund der Menge der zu analysierenden Endstellungen (über 500000) in 4 Blöcke aufgeteilt, um den PC alle 14 Tage mal zu booten. Daher ist es möglich, Lc0 doch mal zwischendurch zu testen. Und das werde ich auch bald machen.
Der 2.Block sollte in 3 Tagen durch sein, dann werde ich einen Lc0 Testrun dazwischenschieben, natürlich mit dem neuesten BT4-Netz: BT4-1024x15x32h-swa-3400000

By Frank Quisinsky Date 2023-12-22 21:34 Edited 2023-12-22 22:11 Upvotes 1

Hallo Dietmar,

die ganzen Listen sind immer nur Momentaufnahmen.

Bei den größeren Listen kommt hinzu, dass zu viele ältere Engines mit neuen gemixt werden, Hardware gemixt wird etc.. Das sorgt immer für kleine Unterschiede und es wird nie ganz genau. Es ist völlig egal ob dann 10.000 oder 1.000 Partien pro Engine gespielt wurden. Auch die unterschiedlichen Bedenkzeiten sorgen teils für unterschiedliche Ergebnisse. Daher interessiert mich z. B. persönlich seit vielen Jahren eine pure Elo nicht mehr. Eher der Spielstil und die grobe Einteilung einer Spielstärke zu den verschiedenen Partiephasen. Genau das lässt sich aus einer dummen Elo nicht ableiten. Besonders interessant ist immer die grobe Einschätzung der Spielstärke im Mittelspiel. Hier bewegt sich noch viel und die Spielstile werden ersichtlich. Das Endspiel ist heute schon so perfekt, dass hier viele Engines sehr stark sind. Der Grund warum dann Engines die z. B. 100-200 Elo von Stockfish weg sind (Gesamtspielstärke) dann im Endspiel nur 50-75 Elo entfernt liegen. Das treibt die Gesamtspielstärke so vieler Engines enorm nach oben. Aber wer interessiert sich dafür, wenn bekannt ist das die Endspiele nahe an der Perfektion von so vielen Engines gespielt werden.

Auch ist auffällig, dass z. B. innerhalb der TOP_50 die Abstände zu Stockfish ca. bei 400 Elo lagen, also Platz 1-50 (vor der Neural Network Zeit). Das sind heute ca. 250 Elo und immer mehr Engines rücken näher heran. Ist ja der Grund für die steigende Remisquote. Der längere Züge Durchschnitt ist da eher hausgemacht von 20-30% von Engines innerhalb der TOP-50, begründet durch grob gesagt zwei unterschiedlichen Auslösern.

Also, Ratinglisten waren immer nur Momentaufnahmen, weil die Beeinflussungsfaktoren von Bedenkzeit, Ponder, Buchwahl, Endspieldatenbanken etc. dazu beitragen das Ergebnisse unterschiedlich ausfallen. Das schreibe ich schon seit 20 Jahren und habe mir damit auch schon böse E-Mails eingefahren. Aber es ist wie es ist. Daher machen viele Partien auch wenig Sinn, weil eine grobe Einschätzung kannst Du auch mit deutlich wenigeren Partien sehen. Den Strom können wir uns getrost schenken.

LCO hatte ich auf einer 3070-Ti mal durchlaufen lassen. Der Test dauerte 3 Monate, weil nur eine Partie laufen konnte. Es war nach dem Test dann klar, dass Lc0 auf dem Level von Stockfish und Dragon war. Bei Lc0 ist schön, dass die produzierten Stats interessant sind. Der Züge Durchschnitt ist super, die Anzahl der kurzen Gewinne ist super, der Spielstil überhaupt ist interessant. Ob nun Lc0 20 Elo besser oder schlechter als Dragon oder Stockfish ist spielt überhaupt keine Rolle. Vielleicht in den Köpfen einiger weniger.

Das Salz in der Suppe sind nach wie vor die Spielstile. Schönes Schach, keine unnötigen Endspielschlangen mit teils hunderten unnötigen Zügen. Und dann fallen mal so eben 30% der TOP-50 weg. Viele kurze Gewinnpartien produzieren nur wenige Engines der TOP-100.

Viele Grüße
Frank

PS: Finde das immer so krass das Leute Abhandlungen schreiben die in Ihrem Leben noch nie eine einzige Ratingliste produziert haben. Geil an den Ratinglisten ist die Entstehung. Also, wenn immer mehr Partien hinzukommen und Du dann merkst wie wenig sich ab einen bestimmten Zeitpunkt verändert. Das liebe ich z. B. sehr ... wie eine Ratingliste entsteht bis zu einem gewiseen Zeitpunkt und dann folgt die große Langeweile wenn es um pure Ratings geht, nicht wenn es um Spielstile geht. Da kam bei mir noch nie Langeweile auf, weil ultra spannend zu forschen.

By Frank Quisinsky Date 2023-12-22 22:03 Edited 2023-12-22 22:12

Schaue ich also danach was sich direkt unter Stockfish anordnet, und vergleiche die Stats dann, komme ich zu dem Ergebnis das viele Engines vieles gleich machen.
Ob das nun an der Zusammensetzung bekannter Sourcen liegt oder nicht sei dahingestellt und mir auch nicht sonderlich wichtig.

Sollten jedem klar sein, dass heute nicht 100 Einsteins gleichzeitig rumflitzen im Vergleich zu 20 Jahren.
Da waren die Programmierer sicher nicht dummer als heute.
Dazu stehen schöne Kommentare im Stockfish Interview aber auch anderen die ich früher machte.

Was aber auch klar ist, dass sich viele Programmierer wirklich sehr anstrengen Ihren Engines ein eigenes Gesicht zu geben und selbst viel Wert darauflegen.
z. B. bei Velvet wunderbar zu sehen. Viele andere Programmierer haben ganz sicher auch spannende eigenen Ideen, aber das spiegelt sich dann oftmals nicht so wirklich bei den Stats wieder.

Und dennoch gibt es eine große Anzahl an Engines die völlig unterschiedliche Spielstile produzieren. Nur, je näher alles an Stockfish rückt, desto schwieriger wird es gar mit ausgefeilten Stats etwas zu erkennen.
Das heute erreichte Niveau ist dafür viel zu hoch ...

Ich bin mal gespannt auf mein kommendes Turnier.
Die Spielstärke-Spreizung ist deutlich größer innerhalb des Teilnehmerfeldes. Dadurch lässt sich viel mehr bei den Spielstilen ablesen.
Auch habe ich alles draußen was unnötig lange Remis Partien produziert und alles drin, was in der Partiephase "Mittelspiel" auffällig gute Stats produziert.

Starte das Turnier mit einer Bedenkzeit von 66 Minuten pro Partie und zusätzlich 6 Sekunden Aufschlag pro Zug am 27.12. oder 28.12.
Ich freue mich sehr darauf, weil ich mir sicher bin das viele schöne und vor allem auch schnelle und sehenswerte Gewinne produziert werden.
Welche Engine dann welche Elo produziert ... bei dem Niveau ... ist so interessant wie der Sack Reis in China.

Viele Grüße
Frank

By Dietmar Klinger Date 2023-12-23 10:39

Frank Quisinsky schrieb:

Die ganzen Listen sind immer nur Momentaufnahmen.

Ja, das ist dann so und durch viele Umstände führt das eben auch zu unterschiedlichen Bewertungen im Ganzen.
Für Analysen ist es aber fast egal, welche Spitzen-Engine man nimmt, da diese sehr eng beieinander liegen.
LcO allerdings lohnt sich dabei für viele Schachspieler weniger, weil man dadurch keinen spürbaren Mehrwert bekommt, was eine Anschaffung von sauteueren
Grafikkarten nur für Analysen deshalb auch nicht rechtfertigt.
Ansonsten danke ich dir für deine wie immer sehr ausführlichen Informationen, welche ich immer wieder gerne lese.

MfG Dietmar

By Frank Quisinsky Date 2023-12-23 11:25 Edited 2023-12-23 11:30

Hallo Dietmar,

vielen Dank!

Die meisten Schachspieler die Engines einsetzen nehmen die Nummer 1 für die eigenen Analysen.
Das war auch noch nie anders. Wenige probieren dann die eine oder andere Engine aus.

Trifft man dann auf Personen die sich ein wenig mehr mit Computerschach beschäftigt haben kommt es dann zu Deiner Einschätzung.
Das ist gut, weil es gibt viele spannende Entwicklungen und die Computerschachächler sollten immer wieder darauf hinweisen.

Viele Fernschachspieler schauen und prüfen z. B. viele Dinge ... möchten sich ihren Vorteil selbst erarbeiten.
So auch bei der Auswahl der Engines!

Bei Lc0 sind die Stats wirklich durchgehend sehr gut aber dennoch kein Überflieger in irgendeine Richtung im Vergleich zu vorhandenen CPU Engines.
Bei den kurzen Gewinnen ist z. B. Uralochka um Meilen von anderen entfernt vorne auf Platz 1. Nun kam gestern von der Zertrümmerungsmaschine
eine neue Version ... meine Velvet, nicht Shredder.

Wobei ich mir die letzten beiden Lc0 Versionen nicht mehr im Detail angesehen habe. Eine schnelle Grafikkarte war für die Ausübung von Computerschach
meines Erachtens noch nie notwendig. Aber wenn denn eine vorhanden ist kann man sich auch Lc0 ansehen und damit auch Spaß haben.
Ich habe eine und schaue dennoch nicht bevorzugt in Lc0, verpasse zu viele spannende Entwicklungen, wenn mir die Zeit an einer anderen Stelle fehlt.
Vergleichbar mit den vielen Stockfish Abkömmlingen. Die Zeit kann ich einfach besser nutzen.

Dir ein schönes Weihnachtsfest und mir noch ein paar Einfälle das Buch für das kommende Turnier, welches ich nach Weihnachten starte, besser zu tunen.
Habe da noch ein paar Ideen die aber schätzungsweise 2 Tage benötigen.

Viele Grüße
Frank

By Dietmar Klinger Date 2023-12-23 13:53

Hallo Frank,

auch dir ein angenehmes schönes Weihnachtsfest und ich bin weiter auf die
Entwicklung der Schach-Engine gespannt.

MfG Dietmar

By Lothar Jung Date 2023-12-22 17:21 Upvotes 1

https://tcec-chess.com/#x=archive

By Tommy Tulpe Date 2023-12-22 22:24

Dietmar Klinger schrieb:

Hallo Dietmar,
danke für die interessante Rangliste!
Sag mal, ist noch ein Test von Cool Iris 11.80 geplant? Ich würde mich freuen. Oder interessiert dich diese Engine nicht?

Schöne Grüße und erholsame Weihnachtstage

Ulrich

By Dietmar Klinger Date 2023-12-23 10:21

Tommy Tulpe schrieb:

Sag mal, ist noch ein Test von Cool Iris 11.80 geplant?

Hallo Tommy,

Cool Iris 11.80 ist keine eigenständige Engine, sondern ein Stockfish Derivate. (davon gibt es noch mehrere andere)
Ob diese dann in offiziellen Turnieren jemand mitspielen lässt, ist weniger sinnvoll und entzieht sich auch meiner Kenntnis.

MfG Dietmar

By Tommy Tulpe Date 2023-12-23 13:21

Dietmar Klinger schrieb:

Hallo Tommy,

Cool Iris 11.80 ist keine eigenständige Engine, sondern ein Stockfish Derivate. (davon gibt es noch mehrere andere)

MfG Dietmar

Das weiß ich natürlich. Manche Computerschachinteressierte meinen, mit geringfügigen Änderungen von Parametern noch ein wenig mehr an Spielstärke heraus kitzeln zu können. Cool Iris, Sun Light II, Swordfish usw.
Mich würde es trotzdem interessieren, ob sich Spielstärkeänderungen zu Stockfish 16 nachweisen lassen oder nicht. In die eine oder andere Richtung.

Freundliche Grüße von Ulrich

By Dietmar Klinger Date 2023-12-23 13:38

Tommy Tulpe schrieb:

Mich würde es trotzdem interessieren, ob sich Spielstärkeänderungen zu Stockfish 16 nachweisen lassen oder nicht. In die eine oder andere Richtung.

Es gibt keine stärkere Engine als Stockfish 16 original. Man braucht beide nur über viele Partien auf gleicher Hardware gegeneinander spielen oder auch mal eine Analyse auf starker Hardware über Nacht laufen lassen.
Dann hat man ein aussagekräftiges Ergebnis zugunsten des Originals.

MfG Dietmar

By Max Siegfried Date 2023-12-23 13:42 Upvotes 1

Dietmar Klinger schrieb:

Tommy Tulpe schrieb:

Mich würde es trotzdem interessieren, ob sich Spielstärkeänderungen zu Stockfish 16 nachweisen lassen oder nicht. In die eine oder andere Richtung.

Dem Original fehlt aber z.B. eine Festungserkennung.

By Tommy Tulpe Date 2023-12-23 15:57

Dietmar Klinger schrieb:

Exakt deine vorgeschlagene Vorgehensweise habe ich angewandt.
Bei mir ist Swordfish 15.5 dabei ein ganz klein wenig besser als die Konkurrenz. Allerdings: Zu wenig Partien, um das als gesichert anzusehen.
Swordfish 15.5 ist jetzt mein "persönlicher Favorit", mehr nicht.

By Dietmar Klinger Date 2023-12-23 18:37

Tommy Tulpe schrieb:

Zu wenig Partien, um das als gesichert anzusehen.

Um da aussagekräftige Werte zu erhalten, sollte man da schon mindestens 100 Partien (mehr sind immer besser) mit jeweils
verschiedenen Zeitphasen spielen lassen; z.B. 2+1, 3+2, 10+5, 15+3, 20+3. (so handhabe ich es beim Test)
Das geht natürlich am schnellsten, wenn man mehrere Rechner hat.

MfG Dietmar und frohe Weihnachten

By Tommy Tulpe Date 2023-12-23 22:03

Dietmar Klinger schrieb:

Das geht natürlich am schnellsten, wenn man mehrere Rechner hat.

MfG Dietmar und frohe Weihnachten

... und die Kosten für die elektrische Energie zahlen will /kann.

By Peter Martan Date 2023-12-23 13:56 Edited 2023-12-23 14:03

Ich hatte mal, als 11.80 rauskam, ein Match mit 3'+1" und UHO 6mvs 110-119cp single thread abgebrochen, sowie es aus der error bar knapp raus kam:

  Program                             Score     %     Av.Op.  Elo    +   -    Draws

  1 stockfish_23120210             : 151.0/271  55.7   3480   3520   26  26   61.3 %
  2 Cool_Iris_11.80                : 120.0/271  44.3   3520   3480   26  26   61.3 %

Dazu muss man aber vielleicht noch sagen, dass die default- Einstellungen von CI auch schon etwas (wenn auch nur bis Tiefe 16 und nur in einer 20cp- Range) internen MultiPV enthalten, also bei STC noch in bisschen bremsen. Dazu kommt noch das etwas geringere Pruning vom CorChess, aus dem es abgeleitet ist, also alles in allem keine STC- Engine, wenn man mich fragt, dazu baut "Anton101" ja auch noch zusätzlich "Tactical" als weiteren Clone.
Cool Iris ist eher für Analyse gedacht. Und da könnte es jetzt natürlich wieder sein, dass das Verhältnis ab vielleicht 10'+5" etwas knapper wird, aber bei der TC braucht man schon wieder noch mehr Partien für Signifikanz und es dauert mir einfach zu lang, darauf zu warten, Unterschiede, die da dann noch bestehen mögen, messbar zu machen.
Und im Stellungstest kehrt es sich dann sowieso wieder um, weil da in den meisten Suiten, die nicht mit VSTC laufen, der MultiPV- Mode wieder hilft.