Leptir Big-Ultra

By Thomas F Date 2024-02-29 19:32 Upvotes 1

Zitat Eduard Nemeth:

"26. Feb 2024: For my friends, and people who support me. Coming soon, but only private from now on (another versions are fake): Leptir 260224 and Big Leptir 260224.“

Wer lesen kann, ist klar im Vorteil.

By Christian Petersen Date 2024-02-29 20:15 Upvotes 6

Zitat:

private

Schon klar. Seit Jahren öffentlicher Code wird mit einem kleinen Diff gepatcht. Wuppdiwupp ein neues Programm. Magic. Aber private (ein Begriff/Phänomen aus den verdammten Neunzigern, als sich Ranglistenbetreiber ungefragt mit ihrer hochnotpeinlichen Selbstbespiegelung verbreiten durften) only. Zurück fließt: Nichts. Bei Open-Source-Projekten werden diese Art von Beteiligten als "Freerider" bezeichnet. Nicht weiter schlimm, wenn man nicht programmieren kann oder bereits alles übersetzt ist in der Dokumentation/den Manpages. Erbärmliche Wichtigtuerei. Enttäuschend. Hyperstuß. Goldstar.

Gute Nacht!

By Torsten Cuber Date 2024-03-03 18:12 Upvotes 2

Ich finde es unmöglich, wie ihr über Eduard Nemeth herzieht.
Ich habe ihn als äußerst freundlichen und hilfsbereiten Schachfreund kennengelernt.
Wer ihn nicht mag, sollte zumindest Respekt vor seiner Arbeit haben.
Leider haben viele Menschen, auch Schachspieler, während der Corona-Jahre und der damit verbundenen sozialen Isolierung, ihren Anstand im Internet verloren.
Es wird, wenn ich mich in den sozialen Netzwerken umschaue, nur noch gepöbelt, beleidigt und gehetzt gegen alle, die andere Ansichten haben.
Wenigstens hier erwarte ich ein wenig mehr Höflichkeit im Umgang miteinander.
Ist das zuviel verlangt?

By Peter Weise Date 2024-03-03 21:05 Upvotes 1

Torsten Cuber schrieb:

Wer ihn nicht mag, sollte zumindest Respekt vor seiner Arbeit haben.

Arbeit? Ihr Ernst?
In meinen Kreisen heißt das was er tut Diebstahl!

By Martin Steinwandter Date 2024-03-04 09:02 Upvotes 1

Peter Weise schrieb:

Arbeit? Ihr Ernst?
In meinen Kreisen heißt das was er tut Diebstahl!

Lies doch noch mal die GPLv3. Da steht nichts von Diebstahl, wenn du es wie Eduard machst.

By Peter Martan Date 2024-03-04 09:08 Upvotes 4

Korrekt. Es wird immer wieder vergessen, dass GPL kein Copyright, sondern ein Copyleft ist, das erlaubt nicht nur das Verwenden und Weiterbearbeiten, es fordert ausdrücklich dazu auf. Es ist das "Geheimnis" des Erfolges von SF, dass sich so viele Leute an seiner Entwicklung beteiligen, ob einem jetzt die einzelnen "Beiträge" von Amateuren gefallen oder nicht, die der "Profis" im Framework würden unter einer anderen Lizenz auch nicht legal möglich sein.
Von Diebstahl in dem Zusammenhang zu reden, ist einfach Blödsinn.

By Torsten Cuber Date 2024-03-04 14:05 Upvotes 3

Genau so sehe ich es auch, Peter!
Eduard Nemeth so anzugreifen ist unterste Schublade.

By Peter Weise Date 2024-03-04 10:36 Upvotes 1

Martin Steinwandter schrieb:

Peter Weise schrieb:

Arbeit? Ihr Ernst?
In meinen Kreisen heißt das was er tut Diebstahl!

Lies doch noch mal die GPLv3. Da steht nichts von Diebstahl, wenn du es wie Eduard machst.

Wie hier bereits schon thematisiert vom User Christian Petersen ist der Herr Nemeth ein Trittbrettfahrer ohne jegliches Hintergrundwisssen. Solche Personen sind GNU/GPL-Totengräber!

By Jörg Oster Date 2024-03-04 10:44 Upvotes 4

Also jetzt mal bitte nicht übertreiben und die Kirche im Dorf lassen! (Totengräber ... was für ein Quatsch!)

So lange Eduard immer die Sourcen mit dazu liefert oder sonstwie zur Verfügung stellt, ist alles in Ordnung.

By Peter Weise Date 2024-03-04 11:04 Upvotes 3

Nur paßt des Herren Nemeth: "... but only private from now on" nicht so ganz zur ursprünglichen Intension des GNU/GPL-Systems, auch wenn das "erlaubt" ist!

By Martin Steinwandter Date 2024-03-04 11:17 Upvotes 2

Peter Weise schrieb:

Nur paßt des Herren Nemeth: "... but only private from now on" nicht so ganz zur ursprünglichen Intension des GNU/GPL-Systems, auch wenn das "erlaubt" ist!

Wie oft hat Eduard das schon geschrieben. Ich habe aufgehört zu zählen. Wenn er die Engine zur Verfügung stellt, ist immer alles dabei.
Du brauchst sie anscheinend nicht. Andere wiederum sind ganz zufrieden mit dem, was er anbietet.
Also alles in Ordnung.

By Max Siegfried Date 2024-03-04 11:30

Macht doch alle einpaar Tests.
Dann kann man sich die Aufregung sparen.
Fakt ist das ShashChess 34.6 mehr Stellungen in der Testsuite löst als Leptir. Besonders bei kürzerer Bedenkzeit.
Fakt ist das ShashChess 34.6 gerade dabei ist, einen Zweikampf über mehrere Partien, gegen Leptir zu gewinnen.
Aktuell steht es +3 =27 -1, wobei eine Vorgabestellung von beiden gewonnen wurde, somit eigentlich +2 =27 -0.
Fakt ist das Leptir viele Stellungen "gerade so" halten kann.
Wozu dann die Aufregung wegen einer Engine die hinter Stockfish, hinter ShashChess und hinter... hinterherhinkt?

Das beste Spiel liefert Stockfish und da wird Eduard nicht vorbeiziehen können.
Das muss er auch gar nicht.
Eine 100 Elo schwächere Engine die jede Teststellung löst, wäre ein passender Ersatz, dafür würden viele Menschen viel Geld bezahlen.
Dies wäre übrigens viel sinnvoller für Torch als zu versuchen Stockfish zu überholen.
Von daher soll er erstmal zeigen ob Leptir in Teststellungen an ShashChess vorbeiziehen kann und danach ob Leptir genauso spielstark wie ShashChess ist und danach ob er stärker ist.

By Peter Weise Date 2024-03-04 11:42

Max Siegfried schrieb:

Eine 100 Elo schwächere Engine die jede Teststellung löst, wäre ein passender Ersatz, dafür würden viele Menschen viel Geld bezahlen.

Kann ich mir überhaupt nicht vorstellen! Aber wenn ich den (fast) allgemeinen Tenor hier Revue passieren lasse ... vielleicht doch?!
Strange world.

Vielleicht macht Andreas ja noch ein wenig weiter, dann gäbe es solch ein "Ding" (als Engine will ich das jetzt nicht bezeichnen) kostenfrei:
https://github.com/Matthies/RubiChess/wiki/Madness-in-computer-chess

By Kurt Utzinger Date 2024-03-04 11:14 Upvotes 3

Peter Weise schrieb:

Martin Steinwandter schrieb:

Peter Weise schrieb:

Arbeit? Ihr Ernst?
In meinen Kreisen heißt das was er tut Diebstahl!

Lies doch noch mal die GPLv3. Da steht nichts von Diebstahl, wenn du es wie Eduard machst.

Wie hier bereits schon thematisiert vom User Christian Petersen ist der Herr Nemeth ein Trittbrettfahrer ohne jegliches Hintergrundwisssen. Solche Personen sind GNU/GPL-Totengräber!

Diesen Angriff auf Eduard Nemeth finde ich einen dicken Hund.
Mfg Kurt

By Christian Petersen Date 2024-03-03 23:22 Edited 2024-03-03 23:28 Upvotes 2

Guten Abend!

Ich wollte nicht gepöbelt haben/bitte laß die Kirche im Dorf!

Mich beschäftigt nicht nur dies: Seit circa 20 Jahren benutze ich u.a. freie Software (Linux und BSD; oder Kram unter MacOS, der kompiliert werden mußte, oder sich durch Einsatz/Anpassung von Skripten sülbst kompiliert hat). Dies konnte auch beispielsweise den Kernel selbst betreffen. Also: Kernelsource holen, entpacken und Patches/Diffs herunterladen, "anwenden", config bearbeiten, kompilieren. Weder habe ich die Quelldateien noch die Patches geschrieben. Allerdings wäre mir auch nicht im Traum eingefallen, einen Bohei um den so erzeugten Binärcode zu veranstalten, bzw. mich als "Autor"/Entwickler oder sonstwas zu bezeichnen.

Programmierer (auf Kernel- und Stockfishniveau) sind Künstler (und Nerds und Geeks). Es ist die Crème (wie beispielsweise die Fritzen von der Koivisto-Engine) der Programmierer. Wer seit (untertellt) dreivier Jahren einen Compiler und Texteditor bedienen kann, ist es nicht.

Die gegenwärtig dokumentierte Leistung besteht eben nur darin (paketieren) und schafft auch meinetwegen für EUCH einen Mehrwert - nicht aber allgemein fürs Ökosystem Stockfish/Opensource. Es ist nicht mal ein ordentlicher Fork...

Ohne: GIT, sehr gut dokumentierten Stockfishcode, Fishtest kein Leptairx. Nichts. Null. Zilch. Nada. Aber trotzdem "mein" und "veröffentlichen" und "privat". Ein ästhetisches Problem für mich... Ein Ärgernis.

Bissel große Bugwelle, nein?

By Tommy Tulpe Date 2024-03-01 11:05 Upvotes 1

Ich habe Leptir und Leptir ultra heruntergeladen, als dies noch jedermann möglich war. Ob ich zum erlauchten Kreis von Eduard Nemeths "Freunden" gehöre, ist mir nicht bekannt.
Darf ich die Engines an Max Siegfried weiter geben oder gibt es da rechtliche Bedenken? Kennt sich jemand aus?

By Christian Petersen Date 2024-03-01 12:58

Wenn Du hier schon so scheinheilig (ist Dein Erinnerungsvermögen derart eingeschränkt?) fragen mußt, ob Du

Zitat:

zum erlauchten Kreis von Eduard Nemeths "Freunden"

gehörst, dann soll meine Antwort darauf sein: Sehr unwahrscheinlich.

Zitat:

Rechtliche Bedenken?

Liegt dem Programm denn eine Lizenz (ohuh, GPL?) bei? Was steht da drin? Usw... Kindergarten!

By Armin Jungblut Date 2024-03-01 13:19 Upvotes 1

kuck mal hier:

http://talkchess.com/viewtopic.php?t=83266&sid=3d0d4d593f3cc9517ecce98f352c2bc2

By Christian Petersen Date 2024-03-01 13:43

Das ist so eher nicht vertriebsfähig. Es fehlen Netz(e), angepaßte Quelldateien/Makefile. Die Lizenz liegt bei... Aber der Author scheint sich entweder nicht gelesen/verstanden zu haben, oder er will sie nicht erfüllen. Traurig. History repeating..

By Lothar Jung Date 2024-03-01 13:56 Upvotes 1

Shashchess is free, and distributed under the GNU General Public License (GPL). Essentially, this

means that you are free to do almost exactly what you want with the program, including distributing

it among your friends, making it available for download from your web site, selling it (either by

itself or as part of some bigger software package), or using it as the starting point for a software

project of your own.

The only real limitation is that whenever you distribute ShashChess in some way, you must always

include the full source code, or a pointer to where the source code can be found. If you make any

changes to the source code, these changes must also be made available under the GPL.

For full details, read the copy of the GPL found in the file named Copying.txt.

By Max Siegfried Date 2024-03-01 15:32

Max Siegfried schrieb:

Wo gibt es den Leptir Big-Ultra als Download?

https://pixeldrain.com/u/1VoaLkTE

By Thomas F Date 2024-03-01 16:57

Das ist allerdings nicht die Version vom 26. Februar:

„Uploaded on: 2024-01-27 00:44:44“

Wer lesen kann …

By Max Siegfried Date 2024-03-01 21:47

Thomas F schrieb:

Das ist allerdings nicht die Version vom 26. Februar:

„Uploaded on: 2024-01-27 00:44:44“

Wer lesen kann …

Ich gehe davon aus das er am besten weiß, welche neueste Version von Leptir Big-Ultra er bereitstellt.

Post by Eduard » Fri Mar 01, 2024 1:04 pm

I'm reading this nonsense here:
I'm reading this nonsense here:
https://forum.computerschach.de/cgi-bin ... pl?uid=502 :evil:

For all readers of CSS Forum:

I'm not active there, but what does this person want to say there? :roll: Everything is there in the download just like the original Stockfish code!

Image

https://pixeldrain.com/u/1VoaLkTE

Source Code is here, Makefile is there, and the networks are automatically downloaded when compiling, which is exactly what it says in every Stockfish patch, and no different!
https://solistachess.jimdosite.com/

By Max Siegfried Date 2024-03-01 21:53

1.März
Leptir Big-Ultra

File name : Top Chess Engines Testsuite 2024 v2.pgn
Total test items   : 115
Test for    : best moves
Total engines : 1
Timer : movetime: 60
Expand ply    : 1
Elapsed : 46:28
Laps    : 1
Total tests : 115
Total corrects    : 86 (74%)
Ave correct elapse : 00:11
Status    : completed

Correct/Total:
Leptir Big-Ultra: 86/115

Failed tests (hit *):
1. Leptir Big-Ultra:
12, 22, 30, 31, 32, 35, 36, 38, 42, 43, 47, 48, 51, 53, 55, 56, 57, 60, 66, 72, 74, 82, 87, 98, 99, 100, 101, 103, 107

Successful tests:
1. Leptir Big-Ultra:
0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 13, 14, 15, 16, 17, 18, 19, 20, 21, 23, 24, 25, 26, 27, 28, 29, 33, 34, 37, 39, 40, 41, 44, 45, 46, 49, 50, 52, 54, 58, 59, 61, 62, 63, 64, 65, 67, 68, 69, 70, 71, 73, 75, 76, 77, 78, 79, 80, 81, 83, 84, 85, 86, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 102, 104, 105, 106, 108, 109, 110, 111, 112, 113, 114

Leptir Big-Ultra löst 6 Stellungen bzw. 5% mehr als Leptir Ultra.
Damit könnte diese Engine bei 10 Minuten pro Stellung bereits besser sein als ShashChess 34.6.

By Max Siegfried Date 2024-03-02 07:58

Leptir Big-Ultra

File name : Top Chess Engines Testsuite 2024 v2.pgn
Total test items   : 115
Test for    : best moves
Total engines : 1
Timer : movetime: 600
Expand ply    : 1
Elapsed : 3:48:53
Laps    : 1
Total tests : 115
Total corrects    : 97 (84%)
Ave correct elapse : 00:29
Status    : completed

Correct/Total:
Leptir Big-Ultra: 97/115

Failed tests (hit *):
1. Leptir Big-Ultra:
1, 9, 22, 30, 31, 32, 35, 42, 47, 48, 51, 52, 56, 57, 60, 98, 99, 100

Successful tests:
1. Leptir Big-Ultra:
0, 2, 3, 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 23, 24, 25, 26, 27, 28, 29, 33, 34, 36, 37, 38, 39, 40, 41, 43, 44, 45, 46, 49, 50, 53, 54, 55, 58, 59, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114

Leider ein schlechteres Ergebnis bei 10 Minuten pro Stellung:
-Leptir Ultra (86%) 100/115
-Leptir Big-Ultra (84%) 97/115 = -3
-ShashChess 34.6 High Tal MultiPV=4 (89%) 103/115

1 Minute pro Stellung:
-Leptir Ultra (69%) 80/115
-Leptir Big-Ultra (74%) 86/115 = +6
-ShashChess 34.6 High Tal MultiPV=4 (80%) 93/115

ShashChess 34.6 High Tal MultiPV=4 ist eine andere Liga.

By Peter Martan Date 2024-03-02 09:37 Edited 2024-03-02 10:18 Upvotes 1

Gibst du Leptir aber auch mehr MultiPV-Lines mit längerer TC? Kenne die super über drüber ultra big- Versionen nicht, bei der einen, die ich vor längerer Zeit mal ohne ultra und big probiert habe, war default 2 für die primaries, das ist für längere TC zu wenig, auch im Vergleich zu 4 bei ShashChess unfair. Auch muss der ja seine 4 zu HVen übers GUI erhobenen über die gesamte Rechenzeit durchhalten, bei Leptir ist MultiPV nur so weit aktiv, wie's die anderen 2 Parameter (hab's dir im anderen Thread genauer eklärt) zulassen. Wenn da auch noch das default ist bei Leptir, wie's bei meiner Version war, ist das 16 and Tiefe für 30" bei nur 2 primaries recht wenig.

Ich hab' mal noch spaßeshalber einen weiteren CrystalMZ 040823- Run gemacht und den Iccf- Parameter auf 3 gestellt (bei den 8 Threads im Vorversuch war's 2, was MultiPV=4 entspricht, Iccf3=MultiPV=8), Depth wieder 21, für 30" wahrscheinlich ein bisschen hoch gegriffen, die Zahl der primaries, aber zwischen 4 und 8 gibt's bei diesem Crystal nichts, da müsste man mit der Depth die Zwischenstufen feiner einstellen.
Diesmal dafür 30 Threads der 16x3.5GHz CPU, 4G Hash, Syzygy ProbeLimit=6. Die 5 Stellungen mit den Nebenlösungen wie im anderen Thread im zweiten Posting mit dem Codefenster, das wird keinen großen Unterschied machen, Ergebnis war 86/115.

"Deine" Suite ist eine ausgesprochen MultiPV- freundliche, was den reizvollen Nebeneffekt hat, dass du eigentlich von jeder Engine mehrere Settings mit verschieden vielen primaries vergleichen müsstest.

Einen kleinen Tipp hätt' ich dann noch für dich, wenn du schon weiter das Forum mit Ergebnissen "deiner" Suite voll müllst, könntest du wenigstens mal eine EloStatTS- Liste anlegen dafür? Dann müsstest du nicht immer jedes Einzelergebnis des im Zeitmanagement und (wie dir Dieter gezeigt hat anscheinend) sogar auch in den Evals völlig aberranten Banksia- GUIs kopieren und einfügen, und du würdest sehen, was für error bars deine Messungen haben. Mit dieser "Suite" müsstest du bei A-B SMP und bei Lc0 alle Runs wenigstens 5x wiederholen, du würdest staunen, wie das (was bei den wenigen Stellungen und den selbst dazu noch relativ wenigen Lösungen auch kein Wunder ist) von Run zu Run bei ein- und derselben Engine streut, mit MultiPV erst recht und im Banksia GUI wahrscheinlich noch einmal mehr, bei dem ich zusätzlich befürchten würde, wenn die Evals nicht stimmen, dass dann das, was das GUI ja anhand derer adjudiziert, auch die Sortierung nicht. Und stellst du bei Banksia wenigstens auch die Extra Plies aufs Maximum, ja? Der Gesamtzeitverbrauch weicht sonst von dem, was er maximal der TC entsprechend sein sollte, noch gewaltiger ab.
Bei Arena gibt's übrigens auch einen lustigen Bug, was die automatische Auswertung von Suiten angeht, wenn du da Engines MultiPV laufen lässt, nimmt das GUI den letzt- gereihten anstelle des besten als "Lösungszug". Nur um weiter ein bisschen was zum Thema Fehlerquellen beim "Stellungstest" beizutragen

Edit: konnte es mir nicht verkneifen, auf eine Liste mehr oder weniger kommt's bei den vielen, die ich schon habe, auch nicht mehr an, der 2. Run derselben Engine mit wieder Iccf2 und Depth 21, auch sonst alles wie oben geschildert, Extra Halbzüge 2 hat noch als Angabe gefehlt:


    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

  1 CrystalMZ040823-Iccf2D21                 : 3503   21     95    50.8 %   3497    88/115    4.5s   10.5s   0.79
  2 CrystalMZ040823-Iccf3D21                 : 3497   21     95    49.2 %   3503    86/115    4.4s   10.8s   0.78

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position

By Peter Martan Date 2024-03-02 11:49 Upvotes 1

Die beiden ShashChess- Settings im MultiPV4- Mode, die Hardware- Zeit- Einstellungen sind wie oben, Alew bedeutet, dass ShashChess nicht mit NNUE- Eval spielt, sondern im Avatar- Mode mit einer Personality, die ich aus der fertigen namens Alekhine durch wildes (daher das w

) Verstellen der HCE- Eval- Parameter erstelt habe.


    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

  1 CrystalMZ040823-Iccf2D21                 : 3518   16    289    53.4 %   3494    88/115    4.5s   10.5s   0.69
  2 CrystalMZ040823-Iccf3D21                 : 3511   16    286    52.2 %   3496    86/115    4.4s   10.8s   0.66
  3 ShashChess34.6-MuPV4-Alew                : 3493   18    287    48.5 %   3503    78/115    4.6s   12.8s   0.62
  4 ShashChess34.6-MuPV4-Tal+Cap             : 3478   17    280    45.8 %   3507    76/115    5.6s   13.9s   0.61

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position

Es kam mir dabei ohnehin hauptsächlich drauf an zu zeigen, dass bei solchen Stellungen Stockfish und seine Branches eventuell mit HCE (die's beim jetzigen dev. ja nicht mehr gibt) besser abschneiden als mit NNUE. Jemand anders als ich darf's gerne mal mit SF16 probieren, bei dem man ja die NNUE- Nutzung auch noch abdrehen konnte.

By Dieter Brandhorst Date 2024-03-03 12:13 Upvotes 1

Zitat:

"Deine" Suite ist eine ausgesprochen MultiPV- freundliche, was den reizvollen Nebeneffekt hat, dass du eigentlich von jeder Engine mehrere Settings mit verschieden vielen primaries vergleichen müsstest.

Die Suite wurde speziell mit Stockfish 16.1 und Lc0_BT4 zusammengestellt, mit dem Ziel, Positionen einzuschließen, die beiden Engines Schwierigkeiten bereiten. Das Ergebnis ist eine Sammlung von Stellungen, von denen viele in praktischen Spielen gar nicht bis äußerst unwahrscheinlich auftreten - darunter Positionen wie 7, 8, 9 sowie 10, 14, 20, 21, 32, 47, 49, 74 und weitere. Insgesamt beinhaltet die Suite mindestens 30 solcher ungewöhnlichen Stellungen. Es scheint aber, dass sowohl Lc0 als auch Stockfish auf die Anforderungen des praktischen Spiels abgestimmt sind, und diese spezielle Auswahl von Stellungen ist eben ein direktes Ergebnis dieser Ausrichtung. Es ist daher nicht überraschend, dass die Einstellungen für mehrere Hauptvarianten (MultiPV) in dieser Testsuite einen signifikanten Einfluss auf die Lösungsrate haben. Dennoch könnte die Suite einen wertvollen Nutzen bieten, indem sie aufzeigt: Je mehr eine Testsuite auf MultiPV ausgerichtet ist, desto weniger relevant ist sie für die Spielpraxis.

VG Dieter Brandhorst

By Lothar Jung Date 2024-03-03 14:26

Das Vorgehen zur Erstellung einer Testsuite nach dem Kriterium „was löst eine Engine nicht“ ist einfach zu trivial.
Besonders wenn man LC0 und Stockfish jeweils als Kriterium nimmt.
Die Lösungen, also die jeweiligen Stärken werden ausgeschlossen.
Noch schlimmer ist es, eine (knappe) Zeitbegrenzung für das Kriterium anzuwenden.
Zuerst sollte man sich darauf einigen welche Schachthemen/-Muster in die Suite aufgenommen werden sollen.
Z.B. Mattlösungen, Opfer, Königsangriff, Unterverwandlung, Endspielthemen, Initiative, Patt, 7. Reihe, entscheidende positionelle Züge etc.
ERET 111 hatte diesem Anspruch genügt.
Das vermeidliche Ziel, Engines daran zu messen und zu vergleichen geht fehl.
Allenfalls könnte man die Entwicklung einer Engine daran messen oder die jeweiligen Schwächen und/oder Stärken identifizieren.

By Dieter Brandhorst Date 2024-03-03 15:50 Upvotes 2

Zitat:

Das Vorgehen zur Erstellung einer Testsuite nach dem Kriterium „was löst eine Engine nicht“ ist einfach zu trivial.

Es ist nicht nur zu trivial, sondern schlichtweg falsch. Um eine Testsuite zu gestalten, die realistische Szenarien abdeckt, ist es wichtig, einen Auswahlbias, wie hier geschehen, zu verhindern. Dabei gibt es zwei Ansätze:

Zufällige Auswahl: Testfälle werden zufällig aus allen möglichen Szenarien ausgewählt. Das sorgt für eine breite und unvoreingenommene Abdeckung.

Stratifizierte Auswahl (so wie du es vorgeschlagen hast): Die Gesamtheit der Szenarien wird in relevante Gruppen eingeteilt, und aus jeder Gruppe werden spezifische Fälle ausgewählt. Dies garantiert, dass alle wichtigen Aspekte in der Testsuite vertreten sind.

Beide Methoden helfen dabei, eine Testsuite zu erstellen, die ohne Voreingenommenheit die Vielfalt realer Bedingungen widerspiegelt und somit zuverlässige Testergebnisse liefert.

Meine Hypothese ist nun, dass eine Testsuite dann als repräsentativ angesehen werden kann, wenn die Änderung von MultiPV-Einstellungen (von z.B. 1 auf 4 bei ShashChess) keinen signifikanten Einfluss auf die Lösungsquote hat, wie von mir im Fall von ERET beobachtet. Ein deutlicher Unterschied in den Lösungsquoten bei verschiedenen MultiPV-Einstellungen, wie im vorliegenden Fall, deutet hingegen darauf hin, dass die Testsuite möglicherweise nicht alle relevanten Schachstellungen abdeckt und somit nicht repräsentativ ist.

VG Dieter Brandhorst

By Lothar Jung Date 2024-03-03 16:17

Voll einverstanden und von dir nochmals auf den Punkt gebracht.
Das gewählte Vorgehen ist beliebig und zufällig.
Es bildet keinesfalls die einzelnen schachlichen Aspekte, die in den Lehrbüchern strukturiert thematisiert werden, auch nur ansatzweise ab.

By Lothar Jung Date 2024-03-03 16:57 Edited 2024-03-03 17:00 Upvotes 1

Es gibt für LC0 eine „Blunderbase“:

https://web237.server28.eu/lc0/blunderbase/1r1q4%7C2b2r2%7C1pPp1k2%7C4p1p1%7CPRP1Bp1p%7C5P1P%7C5B1K%7C6Q1_w_-_-_0_126.html

https://web237.server28.eu/lc0/blunderbase/

Dort gibt des Partien von LC0 mit einem eindeutigen Fehler.
Die Datenbank ist nach Stellungsarten aufgebaut.
Zeit: LC0 60 sec.; SF 30 sec.

By Peter Martan Date 2024-03-03 19:52 Edited 2024-03-03 20:03 Upvotes 1

Dieter Brandhorst schrieb:

Zitat:

Das Vorgehen zur Erstellung einer Testsuite nach dem Kriterium „was löst eine Engine nicht“ ist einfach zu trivial.

Aber wie auch immer du die Auswahl triffst, wovon man sich verabschieden muss, wenn man Stellungstests machen will, die dem game playing im Ergebnis möglichst nahe kommen, sind die single best move- Stellungen, wie wir sie für die derartigen Suiten gewöhnt sind. Mit denen wollte und konnte man immer schon nur Leistungen der Engines testen, die vom game playing nicht gleichermaßen abgebildet werden, das ist auch nach wie vor eine sinnvolle Absicht, wenn ich nur game playing Ergebnisse gelten lassen will und solche, die diesen Ergebnissen nahe kommen oder entsprechen, wozu dann überhaupt Stellungstests zusätzlich?

Diesen klassischen single best move- Teststellungen ist eins gemeinsam, damit sie nicht von allen Engines sofort gelöst werden: Forcierte Abspiele mit erst in tieferen Verzweigungen zu findenden Pointen. Forcierte Abspiele sind ansonsten ja die leichteren, weil weniger breite Suchbäume notwendig sind, Schlagzüge, Schachgebote gehören dazu. Die als Teststellungen gern verwendeten sind automatisch Ausnahmsstellungen, das sind sie für Engines vor allem deshalb, weil Engines Verwicklungen vermeiden, die sie nicht mit ihren auf Beschneiden des Suchbaumes ausgerichteten Algorithmen selbst leicht durchrechnen können und nur dann bringen sie sie selbst aufs Brett. Je mehr auch solche single best move Stellungen von modernen Hardware- Software- Kombis immer schneller durchgerechnet werden, umso mehr muss man in die eigens zum Engine- (nebenbei auch Menschen-) Täuschen komponierten Studien ausweichen, umso praxisferner wird man in der Auswahl, wenn man nur begrenzte Zahl von Stellungen mit noch stärker begrenzten Lösungszahlen haben will.

Game playing- nahe Stellungen haben nicht nur eindeutige tiefe single best moves als Lösungen, sie haben mehrere ähnlich gute Abspiele oder die forcierten Züge liegen auf der Hand, beim Schlagen, im Schachgebot. Man muss fürs game playing- nahe Stellungstesten Stellungen nehmen, die sich nicht in kurzer Hardware- TC mit singulären Lösungen beurteilen lassen, sondern solche mit multiplen Abspielen.

Das heißt MEA- artige Tools, abgesehen von der interaktiven Analyse, bei der man natürlich überhaupt jede beliebige Stellung nehmen kann, bei MEA muss man sich nur auf solche beschränken, bei denen es überhaupt überschaubare Zahlen an Abspielen gibt und solche, die man mit gründlicher interaktiver Analyse in ihrer Wertigkeit in annähernd gleich gute, bessere und schlechtere unterscheiden kann.

Zitat:

Meine Hypothese ist nun, dass eine Testsuite dann als repräsentativ angesehen werden kann, wenn die Änderung von MultiPV-Einstellungen (von z.B. 1 auf 4 bei ShashChess) keinen signifikanten Einfluss auf die Lösungsquote hat, wie von mir im Fall von ERET beobachtet. Ein deutlicher Unterschied in den Lösungsquoten bei verschiedenen MultiPV-Einstellungen, wie im vorliegenden Fall, deutet hingegen darauf hin, dass die Testsuite möglicherweise nicht alle relevanten Schachstellungen abdeckt und somit nicht repräsentativ ist.

Deine Beobachtung ist nicht ganz unrichtig, sie stimmt aber auch nur bedingt, bei manchen Stellungen mehr, bei anderen weniger. Z.B. beim Eret war es auch schon ganz offensichtlich so, dass MultiPV den meisten Engines half. Prinzipiell sind die Stellungen, bei denen SF- artige Engines vom MultiPV- Modus profitieren an time to solution, solche wie oben geschildert als single best move positions im Stellungstestsinn, die mit den in den tieferen Verzweigungen verborgenen Pointen, die in der primary variant schneller gefunden werden als in den non primaries, weshalb es oft hilft, mehr Varianten zu primaries zu erheben.
Dass es umso praxisfernere Stellungen sein müssen, bei denen MultiPV automatisch mehr hilft, so weit würde ich nicht gehen, z.B. schlägt's oft wieder um bei den Matt- nahen Stellungen und den tbs- nahen, da bremst der MultiPV dann (bestimmte Engines mehr und andere weniger bei bestimmter Hardware- TC) als er hilft.
Vielmehr sind es einfach bestimmte Stellungen, bei denen bestimmte Anzahlen von primaries und bestimmter TC relativ zu single primary und relativ zu anderen Engines optimal abschneiden. Es gibt hier ebenso wenig direkt proportionale Verhältnisse wie zwischen anderen time to solution- Resultaten.

By Dieter Brandhorst Date 2024-03-03 23:28 Upvotes 1

Zitat:

wenn ich nur game playing Ergebnisse gelten lassen will und solche, die diesen Ergebnissen nahe kommen oder entsprechen, wozu dann überhaupt Stellungstests zusätzlich?

Nun ich stelle mir einen oder mehrere spezifische Stellungstests vor, die mir rasch und zuverlässig eine relevante game playing Stärke der getesteten Engines widerspiegeln, ohne das ich erst unzählige Partien mit den Engines spielen muss. Am besten noch spezifiziert nach den TCs: Blitz-, Schnellschach, Turnier- und Fernschach. Das ist es doch, was viele gerne hätten. Andernfalls nähern wir uns dem Problem- oder Kompositionsschach, was m.E. ganz andere Zielsetzungen hat. Dort geht es neben originellen Lösungen auch um Schach als Kunst und der Ästhetik von Lösungen.

Zitat:

Man muss fürs game playing- nahe Stellungstesten Stellungen nehmen, die sich nicht in kurzer Hardware- TC mit singulären Lösungen beurteilen lassen, sondern solche mit multiplen Abspielen.

Dem stimme ich zu, fürs game playing muss ich nur relativ sicher in der vorgegebenen Zeit die Partie gewinnen und nicht unbedingt den einzig besten oder schönsten Zug finden.

Zitat:

Deine Beobachtung ist nicht ganz unrichtig, sie stimmt aber auch nur bedingt,....

Daraus wollte ich auch keinen Anspruch auf absolute Richtigkeit ableiten. Mir kam nur die Idee, dass ein Vergleich der Lösungsquoten mit und ohne MultiPV dazu ausreichen könnte, die immer wieder auftauchenden neuen Testsuites auf game playing Relevanz zu prüfen.
Auch beim ERET habe ich einen gewissen MultiPV-Effekt feststellen können. Aber bei weitem nicht so wie bei der hier diskutierten Testsuite. Noch klarer wird die Annahme, wenn man sich die einzelnen Stellungen ansieht. Beispielsweise die Stellungen 7, 8 und 9 werden mit absoluter Sicherheit niemals in einem realen Spiel vorkommen. Ich habe insgesamt 30 solcher oder ähnlicher ganz unwahrscheinlicher Stellungen in dem Test ausfindig machen können. Im Vergleich zum ERET stellt sich so der Bias dieser Testsuite m.E. sehr klar dar.

VG Dieter

By Peter Martan Date 2024-03-04 12:46 Upvotes 1

Womit wir einfach mal anfangen sollten (in irgendeiner Weise machen wir's ja mehr oder weniger ohnehin immer schon so), wäre die Engines bei ihrem Eval- Wort zu nehmen.
Evals zu Elo umzurechnen, geht ja auch jetzt schon eine Weile auf die verschiedensten Arten mehr oder weniger direkt, einer der direktesten Wege ist der von Ferdinand Mosca:

https://talkchess.com/viewtopic.php?p=766000#p766000

Mit solchen Methoden sind wir dann natürlich auch überhaupt nicht mehr auf irgendwelche bestimmten "Teststellungen" angewiesen, tatsächlich macht Ed Schröder deratiges ja auch schon lange mit ganzen .pgn- Datenbanken, das heißt dann bei ihm Temere statt MEA, aber das Prinzip ist dasselbe. Läuft halt mehr und mehr auf reine similarity tests hinaus, aber das sind Stellungstests im weitesten Sinn ja sowieso auch immer (schon gewesen).

By Max Siegfried Date 2024-03-03 08:46

Leptir Big-Ultra Random Op. MultiPV 4

File name : Top Chess Engines Testsuite 2024 v2.pgn
Total test items   : 115
Test for    : best moves
Total engines : 1
Timer : movetime: 60
Expand ply    : 1
Elapsed : 41:01
Laps    : 1
Total tests : 115
Total corrects    : 88 (76%)
Ave correct elapse : 8661 ms
Status    : completed

Correct/Total:
Leptir Big-Ultra: 88/115

Failed tests (hit *):
1. Leptir Big-Ultra:
16, 22, 30, 31, 32, 35, 42, 43, 47, 51, 52, 53, 54, 56, 57, 60, 63, 66, 74, 87, 90, 93, 98, 99, 100, 103, 104

Successful tests:
1. Leptir Big-Ultra:
0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 23, 24, 25, 26, 27, 28, 29, 33, 34, 36, 37, 38, 39, 40, 41, 44, 45, 46, 48, 49, 50, 55, 58, 59, 61, 62, 64, 65, 67, 68, 69, 70, 71, 72, 73, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 88, 89, 91, 92, 94, 95, 96, 97, 101, 102, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114

1 Minute pro Stellung:
-Leptir Ultra (69%) 80/115
-Leptir Big-Ultra (74%) 86/115
-Leptir Big-Ultra Random Op. MultiPV 4 (76%) 88/115
-ShashChess 34.6 High Tal MultiPV=4 (80%) 93/115

By Peter Martan Date 2024-03-03 09:31 Edited 2024-03-03 09:59 Upvotes 1

Und jetzt probier' vielleicht noch, die Depth zu den 4 MultiPVs von default 16 auf 21 zu erhöhen für eine Minute TC, ich hab's sie hier schon bei 30" auf das gesetzt und Score auf beliebig hoch, damit auch die zunächst ganz unwahrscheinlichen Züge in den primaries dabei sind, hier waren's 1000 bei den 4, mir scheint (wenn ich's mir richtig gemerkt hab') 200 bei den 6:


    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

  1 ShashChess34.6-MuPV4HTal                 : 3560    9   1066    59.6 %   3493    91/115    4.1s    9.5s   0.70
  2 ShashChess34.6-MuPV4HTalNNUEoff          : 3556   10   1091    58.8 %   3494    90/115    4.1s    9.7s   0.68
  3 CrystalMZ040823-Iccf2D21                 : 3545    9   1055    57.1 %   3495    88/115    4.5s   10.5s   0.61
  4 CrystalMZ040823-Iccf3D21                 : 3538   10   1048    56.1 %   3496    86/115    4.4s   10.8s   0.59
  5 Leptir230124-MuPV4D21                    : 3531    9   1021    54.9 %   3497    83/115    4.8s   11.8s   0.64
  6 Leptir230124-MuPV6D21                    : 3527   10   1024    54.3 %   3497    82/115    4.8s   12.0s   0.58
  7 ShashChess34.6-MuPV4-Alew                : 3521   10   1016    53.2 %   3498    78/115    4.6s   12.8s   0.56
  8 ShashChess34.6-MuPV4-Tal+Cap             : 3506   10    990    50.8 %   3501    76/115    5.6s   13.9s   0.54
  9 Stockfish16.1-MuPV4                      : 3499   10    974    49.6 %   3501    72/115    5.8s   14.9s   0.53
 10  Lc0v0.31.0-dag+git.a4877961-6077500MuPV4 : 3407   13    965    34.9 %   3515    46/115   10.1s   22.1s   0.22
 11  Stockfish16.1                            : 3405   12    917    35.1 %   3512    44/115    7.0s   21.2s   0.29
 12  Lc0v0.31.0-dag+git.a4877961-6077500      : 3372   13    935    30.2 %   3518    33/115    7.8s   23.6s   0.19

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position

Schade halt, aber "Suite"- immanent, dass selbst bei doch schon einer gewissen Zahl an runs, vor allem solchen, die sich ganz oben zusammendrängen, (was ja mehr Matches bringt als runs mit weniger Lösungen) die error bar immer noch so hoch ist bei so knapp beisammen liegenden Branches und Settings. Um solche derselben Engine und neue Netze von Lc0 gegeneinander zu unterscheiden, ist sie somit unbrauchbar. Und selbst zum Vergleich SF gegen Lc0 ebenso nur schwach geeignet, weil hier zwar mehr Unterschied besteht, aber sogar der kommt nicht aus der error bar und er wird erst recht ganz stark von der Hardware- TC abhängen, hier war ja Lc0 etwas benachteiligt auf seiner ärmlichen kleinen 3070ti gegen die 30 Threads der CPU. Lustig hingegen der MultiPV- Effekt, der ja sonst bei Lc0 viel kleiner ist als bei SF, dass bei solchen Ausnahmsstellungen sogar Lc0 deutlich damit zulegt spricht für eben diese Aberranz von dem, was beim game playing aufs Brett kommt.
Aber das alles spielt ja deshalb keine Rolle, weil die Ergebnisse als solche sowieso mit keinerlei anderen vergleichbar sind, egal ob in Elo, Lösungszahlen oder Zentimetern Listenlänge gemessen

By Max Siegfried Date 2024-03-03 11:07 Upvotes 1

Könnte man nicht genauso gut den normalen Stockfish mit MultiPV 4 verwenden?
Hat das schon jemand getestet?

By Peter Martan Date 2024-03-03 11:32 Upvotes 1

Da hab' ich extra beides laufen lassen und in der Liste, und du schaust nicht einmal hin

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=168858#pid168858

Für die Nudlaugen unter uns: Nr.9 und Nr.11.

By Max Siegfried Date 2024-03-03 12:22

Peter Martan schrieb:

Da hab' ich extra beides laufen lassen und in der Liste, und du schaust nicht einmal hin

<a class='ura' href='https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=168858#pid168858'>https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=168858#pid168858</a>

Für die Nudlaugen unter uns: Nr.9 und Nr.11.

Das sind gerade einmal 19 Stellungen die ShashChess mehr gelöst hat als Stockfish mit MultiPV 4.
Sagen wir es wären 20 Stellungen.
Stockfish dürfte im Match gegen ShashChess gewinnen und auch die feinere Bewertung während der Partien haben, auch wenn der Unterschied wahrscheinlich nur um +-0.05 schwankt. Aber das summiert sich irgendwann.
Das 20 derart schwierige Stellungen auf dem Brett vorkommen, selbst in mehreren chaotischen Partien zwischen zwei starken Menschen, kann ich mir nicht so recht vorstellen.
Außerdem wird Stockfish bzw. beide noch weiter an Spielstärke (Elo) zulegen, was die Anzahl der 20 Stellungen noch weiter senken wird.
Irgendwie sinkt bei mir der Grund ShashChess zu verwenden immer mehr oder irre ich mich?

By Max Siegfried Date 2024-03-03 11:10

Wie sieht es mit dem Kosten-Nutzen aus?
ShashChess hat zwar in deinen Tests 47 Stellungen mehr gelöst als Stockfish 16.1, aber wie oft kommt auch nur eine dieser Stellungen oder eine identisch schwierige Stellung in einer Partie vor?

By Max Siegfried Date 2024-03-03 11:00

Leptir Big-Ultra MultiPV 4

File name : Top Chess Engines Testsuite 2024 v2.pgn
Total test items   : 115
Test for    : best moves
Total engines : 1
Timer : movetime: 60
Expand ply    : 1
Elapsed : 1:46:22
Laps    : 1
Total tests : 115
Total corrects    : 79 (68%)
Ave correct elapse : 00:52
Status    : completed

Correct/Total:
Leptir Big-Ultra: 79/115

Failed tests (hit *):
1. Leptir Big-Ultra:
1, 2, 8, 9, 12, 13, 18, 22, 29, 30, 31, 32, 35, 36, 42, 48, 51, 52, 53, 55, 56, 60, 62, 75, 76, 82, 83, 87, 89, 97, 98, 99, 100, 106, 107, 108

Successful tests:
1. Leptir Big-Ultra:
0, 3, 4, 5, 6, 7, 10, 11, 14, 15, 16, 17, 19, 20, 21, 23, 24, 25, 26, 27, 28, 33, 34, 37, 38, 39, 40, 41, 43, 44, 45, 46, 47, 49, 50, 54, 57, 58, 59, 61, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 77, 78, 79, 80, 81, 84, 85, 86, 88, 90, 91, 92, 93, 94, 95, 96, 101, 102, 103, 104, 105, 109, 110, 111, 112, 113, 114

1 Minute pro Stellung:
-Leptir Big-Ultra MultiPV 4 (68%) 79/115
-Leptir Ultra (69%) 80/115
-Leptir Big-Ultra (74%) 86/115
-Leptir Big-Ultra Random Op. MultiPV 4 (76%) 88/115
-ShashChess 34.6 High Tal MultiPV=4 (80%) 93/115

By Max Siegfried Date 2024-03-03 12:06

Leptir Big-Ultra Random Op. MultiPV 4 Plies 21

File name : Top Chess Engines Testsuite 2024 v2.pgn
Total test items   : 115
Test for    : best moves
Total engines : 1
Timer : movetime: 60
Expand ply    : 1
Elapsed : 42:57
Laps    : 1
Total tests : 115
Total corrects    : 87 (75%)
Ave correct elapse : 9325 ms
Status    : completed

Correct/Total:
Leptir Big-Ultra: 87/115

Failed tests (hit *):
1. Leptir Big-Ultra:
6, 16, 22, 30, 31, 32, 35, 42, 47, 51, 52, 54, 56, 57, 60, 63, 68, 72, 74, 83, 87, 90, 93, 98, 99, 100, 104, 105

Successful tests:
1. Leptir Big-Ultra:
0, 1, 2, 3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 23, 24, 25, 26, 27, 28, 29, 33, 34, 36, 37, 38, 39, 40, 41, 43, 44, 45, 46, 48, 49, 50, 53, 55, 58, 59, 61, 62, 64, 65, 66, 67, 69, 70, 71, 73, 75, 76, 77, 78, 79, 80, 81, 82, 84, 85, 86, 88, 89, 91, 92, 94, 95, 96, 97, 101, 102, 103, 106, 107, 108, 109, 110, 111, 112, 113, 114

1 Minute pro Stellung:
-Leptir Big-Ultra MultiPV 4 (68%) 79/115
-Leptir Ultra (69%) 80/115
-Leptir Big-Ultra (74%) 86/115
-Leptir Big-Ultra Random Op. MultiPV 4 Plies 21 (75%) 87/115
-Leptir Big-Ultra Random Op. MultiPV 4 (76%) 88/115
-ShashChess 34.6 High Tal MultiPV=4 (80%) 93/115

By Max Siegfried Date 2024-03-03 13:01

Leptir Big-Ultra Random Op. MultiPV 4 Plies 21 Score 10000

File name : Top Chess Engines Testsuite 2024 v2.pgn
Total test items   : 115
Test for    : best moves
Total engines : 1
Timer : movetime: 60
Expand ply    : 1
Elapsed : 45:32
Laps    : 1
Total tests : 115
Total corrects    : 83 (72%)
Ave correct elapse : 8785 ms
Status    : completed

Correct/Total:
Leptir Big-Ultra: 83/115

Failed tests (hit *):
1. Leptir Big-Ultra:
6, 16, 22, 30, 31, 32, 35, 38, 42, 43, 47, 51, 52, 53, 54, 56, 57, 60, 63, 66, 72, 74, 76, 83, 87, 90, 98, 99, 100, 103, 104, 105

Successful tests:
1. Leptir Big-Ultra:
0, 1, 2, 3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 23, 24, 25, 26, 27, 28, 29, 33, 34, 36, 37, 39, 40, 41, 44, 45, 46, 48, 49, 50, 55, 58, 59, 61, 62, 64, 65, 67, 68, 69, 70, 71, 73, 75, 77, 78, 79, 80, 81, 82, 84, 85, 86, 88, 89, 91, 92, 93, 94, 95, 96, 97, 101, 102, 106, 107, 108, 109, 110, 111, 112, 113, 114

1 Minute pro Stellung:
-Leptir Big-Ultra MultiPV 4 (68%) 79/115
-Leptir Ultra (69%) 80/115
-Leptir Big-Ultra Random Op. MultiPV 4 Plies 21 Score 10000 (72%) 83/115
-Leptir Big-Ultra (74%) 86/115
-Leptir Big-Ultra Random Op. MultiPV 4 Plies 21 (75%) 87/115
-Leptir Big-Ultra Random Op. MultiPV 4 (76%) 88/115
-ShashChess 34.6 High Tal MultiPV=4 (80%) 93/115

By Max Siegfried Date 2024-03-03 15:10

ShashChess 34.6 High Tal MultiPV=5

File name : Top Chess Engines Testsuite 2024 v2.pgn
Total test items   : 115
Test for    : best moves
Total engines : 1
Timer : movetime: 60
Expand ply    : 1
Elapsed : 1:43:16
Laps    : 1
Total tests : 115
Total corrects    : 90 (78%)
Ave correct elapse : 00:51
Status    : completed

Correct/Total:
ShashChess 34.6: 90/115

Failed tests (hit *):
1. ShashChess 34.6:
2, 13, 21, 22, 30, 32, 35, 39, 42, 43, 51, 56, 57, 63, 66, 68, 75, 83, 93, 98, 100, 102, 103, 106, 108

Successful tests:
1. ShashChess 34.6:
0, 1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 15, 16, 17, 18, 19, 20, 23, 24, 25, 26, 27, 28, 29, 31, 33, 34, 36, 37, 38, 40, 41, 44, 45, 46, 47, 48, 49, 50, 52, 53, 54, 55, 58, 59, 60, 61, 62, 64, 65, 67, 69, 70, 71, 72, 73, 74, 76, 77, 78, 79, 80, 81, 82, 84, 85, 86, 87, 88, 89, 90, 91, 92, 94, 95, 96, 97, 99, 101, 104, 105, 107, 109, 110, 111, 112, 113, 114

1 Minute pro Stellung:
-Leptir Big-Ultra MultiPV 4 (68%) 79/115
-Leptir Ultra (69%) 80/115
-Leptir Big-Ultra Random Op. MultiPV 4 Plies 21 Score 10000 (72%) 83/115
-Leptir Big-Ultra (74%) 86/115
-Leptir Big-Ultra Random Op. MultiPV 4 Plies 21 (75%) 87/115
-Leptir Big-Ultra Random Op. MultiPV 4 (76%) 88/115
-ShashChess 34.6 High Tal MultiPV=5 (78%) 90/115
-ShashChess 34.6 High Tal MultiPV=4 (80%) 93/115

By Max Siegfried Date 2024-03-03 18:18

ShashChess 34.6 High Tal MultiPV=3

File name : Top Chess Engines Testsuite 2024 v2.pgn
Total test items   : 115
Test for    : best moves
Total engines : 1
Timer : movetime: 60
Expand ply    : 1
Elapsed : 1:31:59
Laps    : 1
Total tests : 115
Total corrects    : 93 (80%)
Ave correct elapse : 00:44
Status    : completed

Correct/Total:
ShashChess 34.6: 93/115

Failed tests (hit *):
1. ShashChess 34.6:
2, 13, 20, 30, 31, 32, 35, 36, 39, 46, 47, 51, 56, 63, 72, 74, 83, 85, 93, 98, 106, 108

Successful tests:
1. ShashChess 34.6:
0, 1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 15, 16, 17, 18, 19, 21, 22, 23, 24, 25, 26, 27, 28, 29, 33, 34, 37, 38, 40, 41, 42, 43, 44, 45, 48, 49, 50, 52, 53, 54, 55, 57, 58, 59, 60, 61, 62, 64, 65, 66, 67, 68, 69, 70, 71, 73, 75, 76, 77, 78, 79, 80, 81, 82, 84, 86, 87, 88, 89, 90, 91, 92, 94, 95, 96, 97, 99, 100, 101, 102, 103, 104, 105, 107, 109, 110, 111, 112, 113, 114

1 Minute pro Stellung:
-Leptir Big-Ultra MultiPV 4 (68%) 79/115
-Leptir Ultra (69%) 80/115
-Leptir Big-Ultra Random Op. MultiPV 4 Plies 21 Score 10000 (72%) 83/115
-Leptir Big-Ultra (74%) 86/115
-Leptir Big-Ultra Random Op. MultiPV 4 Plies 21 (75%) 87/115
-Leptir Big-Ultra Random Op. MultiPV 4 (76%) 88/115
-ShashChess 34.6 High Tal MultiPV=5 (78%) 90/115
-ShashChess 34.6 High Tal MultiPV=4 (80%) 93/115
-ShashChess 34.6 High Tal MultiPV=3 (80%) 93/115

By Max Siegfried Date 2024-03-03 18:24

Schafft hier irgendjemand mit irgendeiner Engine mindestens 81% bzw. mindestens 94/115 bei 1 Minute Bedenkzeit pro Stellung?

Das ShashChess 34.6 High Tal MultiPV=4 (89%) 103/115 bei 10 Minuten pro Stellung erreicht, wissen wir bereits.

By Max Siegfried Date 2024-03-03 20:08

Da MultiPV 3 und 4 gleich gut sind:
-ShashChess 34.6 High Tal MultiPV=4 (80%) 93/115
-ShashChess 34.6 High Tal MultiPV=3 (80%) 93/115

sollte es möglich sein an weiteren Einstellungen zu schrauben und so ein noch besseres Ergebnis zu erzielen.

Welche Einstellungen soll ich testen?

By Peter Weise Date 2024-03-03 20:53 Upvotes 2

Frag einfach bei Eberhard N. nach. Der macht den ganzen Tag nichts anderes als an irgendwelchen Parametern herum zu schrauben