Gute Testsuite

By Peter Martan Date 2022-09-11 00:04 Edited 2022-09-11 01:00

Hallo Wilhelm!
Ich hab's mir nochmals runtergeladen, scheint mir aber eh ziemlich das zu sein, worüber wir schon das letzte Mal Postings gewechselt haben hier.
Du kannst nicht die alten STS- Stellungen mit taktischen single best moves mischen.
Die STS- Stellungen sind erstens zum großen Teil uneindeutig in der Lösung, drum hatten sie ja auch immer ein paar solche mit verschieden vielen Punkten bewertet, und das hat aber nur mit dem eigenen Auswertungsprogramm gemeinsam funktioniert, und außerdem sind die Lösungen, die drin sind, zum überwiegenden Teil gar nicht die besten Züge.

Gleich mal wieder die erste Stellung:

1: Undermine.003 Line 0.0, Selected 3000

Analysis by Stockfish 310722:

1. +- (11.08): 1.Rg3 Kf8 2.Rg6 Kf7 3.Nxe7 Kxe7 4.c5 bxc5 5.Rg8 Nd7 6.Kxa5 c4 7.Rc8 Rg7 8.Rxc4 Rg8 9.Rc7 Ra8+ 10.Kb4 Rd8 11.Ng3 Rb6 12.a4 Rbb8 13.Nf5+ Ke6 14.Ng7+ Ke7 15.a5 e4 16.a6 Ra8 17.a7 e3 18.Nf5+ Ke8 19.Nxe3 Nb6
2. +- (10.99): 1.Rd5 Kf8 2.Rdd2 Kf7 3.Rd1 Kf8 4.Rg6 Kf7 5.Nxe7 Kxe7 6.c5 bxc5 7.Rg8 Nd7 8.Kxa5 f5 9.Ng5 Reh6 10.Nxh7 Rxh7 11.b6 Nxb6 12.Kxb6 f4 13.Kxc5 Rf7 14.Rg5 f3 15.Rxe5+ Kf6 16.Re3 Kg7 17.Rg1+ Kf8 18.Rf1 Rf5+ 19.Kd4 Rf4+ 20.Re4 Rf5 21.a4 Kg7 22.Kc4 Rf8 23.Kc5 Rc8+ 24.Kb6 Rb8+ 25.Kc7 Rf8 26.a5
3. +- (10.79): 1.Rd3 Kf8 2.Rd1 Kf7 3.Rgg1 Kf8 4.Rd5 Kf7 5.Rd2 Kf8 6.Rgd1 Rh8 7.Rg2 Rh7 8.Nxe7 Kxe7 9.c5 bxc5 10.Rg8 Nd7 11.Kxa5 f5 12.Ng5 Reh6 13.Nxh7 Rxh7 14.b6 Nxb6 15.Kxb6 f4 16.Kxc5 Rf7 17.Rg5 f3 18.Rxe5+ Kf6 19.Re3 Kg6 20.Rg1+ Kh6 21.Re6+ Kh7 22.Re5 Kh6 23.Rf1 f2 24.Re6+ Kh7 25.Re4 Kh6 26.a4 Rf5+ 27.Kb4 Rf3 28.Rc4
4. +- (10.79): 1.Rgg1 Kf8 2.Rd5 Kf7 3.Rd2 Kf8 4.Rgd1 Rh8 5.Rg2 Rh7 6.Nxe7 Kxe7 7.c5 bxc5 8.Rg8 Nd7 9.Kxa5 f5 10.Ng5 Reh6 11.Nxh7 Rxh7 12.b6 Nxb6 13.Kxb6 f4 14.Kxc5 Rf7 15.Rg5 f3 16.Rxe5+ Kf6 17.Re3 Kg6 18.Rg1+ Kh6 19.Re6+ Kh7 20.Re5 Kh6 21.Rf1 f2 22.Re6+ Kh7 23.Re4 Kh6 24.a4 Rf5+ 25.Kb4
5. +- (10.56): 1.Rdd2 Kf8 2.Rd1 Kf7 3.Rgg1 Kf8 4.Rg6 Kf7 5.Nxe7 Kxe7 6.c5 bxc5 7.Rg8 Nd7 8.Kxa5 c4 9.Rc8 Rg7 10.Rxc4 Rg8 11.Rc7 Ra8+ 12.Kb4 Rd8 13.Ng3 Rb6 14.a4 Rbb8 15.Nf5+ Ke6 16.Ng7+ Ke7 17.a5 e4 18.a6 e3 19.Nf5+ Ke8 20.Nxe3 Nb6 21.Rxd8+ Rxd8 22.Rc6 Nd7 23.Rd6 Ra8 24.Ka5 Nb8 25.Nd5 Kf7 26.Kb6
6. +- (9.89): 1.Rf2 Kg6 2.Rg1+ Kf7 3.Rd2 Kf8 4.Rd5 Kf7 5.Rdd1 Kf8 6.Rg2 Kf7 7.c5 bxc5 8.Kxa5 c4 9.a4 Ba3 10.Rd8 Nc6+ 11.bxc6 Rxc6 12.Kb5 Rc7 13.Nfd6+ Ke6 14.Re8+ Rhe7 15.Rxe7+ Rxe7 16.Nxc4 Kf5 17.Ng3+ Kg4 18.Nf1+ Kxh4 19.Nxa3 Rb7+ 20.Kc5 Ra7 21.Kb4 Kh3 22.Rh2+ Kg4 23.Ne3+ Kg5 24.Nac4 f5 25.a5 f4 26.Nd5 e4 27.Nd6 f3 28.Nxe4+ Kf5 29.Rh4
7. +- (9.86): 1.c5 bxc5 2.Kxa5 c4 3.a4 Ba3 4.Rd8 Nc6+ 5.bxc6 Rxc6 6.Kb5 Rc7 7.Nfd6+ Ke6 8.Re8+ Rhe7 9.Rxe7+ Rxe7 10.Nxc4 Kf5 11.Ng3+ Kg4 12.Nf1+ Kxh4 13.Nxa3 Rb7+ 14.Kc5 Rc7+ 15.Kb4 Kh3 16.Rh2+ Kg4 17.Ne3+ Kf4 18.Nac4 Rh7 19.a5 Kg3 20.Nf1+ Kg4 21.a6 h4 22.Kb5 e4 23.Nd6 f5 24.Ra2 Ra7
8. +- (9.58): 1.Kb3 Nc6 2.bxc6 Rxc6 3.a4 Ke6 4.Rf1 Kf7 5.Ne3 Rh8 6.Nd5 Bd8 7.Rg5 Rg8 8.Rxg8 Kxg8 9.Nexf6+ Kh8 10.Kc3 Re6 11.Nxh5 Kg8 12.Ng3 Bxh4 13.Nf5 Bd8 14.Kd3 e4+ 15.Kd4 Kf7 16.Nd6+ Kg7 17.Nxe4 Rc6 18.Ne3 Kg8 19.Kd5 Rc7 20.Nd6 Be7 21.Ke6 Bf8 22.Rg1+ Kh7 23.Rh1+ Kg7
Weiß steht klar auf Gewinn

Der "best move", der als solcher die einzige Zug ist, der als richtige Lösung in deiner Suite bewertet wird,

das 1.c5 nämlich (?),

(das Fragezeichen heißt hier nicht, dass es ein Zug ist, der nicht auch gewinnt bei der sowieso kaum mehr nicht zu gewinnenden Stellung, das Fragezeichen heißt nur, warum gerade der?

)
, und im MultiPV- Output von SF in Tiefe 32 erst an 7. Stelle rangiert unter den vielen, die alle eindeutig gewonnen sind, hat in der ursprünglichen STS, aus der du ihn entnommen hast, folgenden Kommentar dabei:

c5=10, Rd3=7, Rdd2=7, Rg3=7 Rd5=9

So hätten sich das Swaminathan und Corbit damals als Punkte- Vergabe für die möglichen Lösungen gedacht, aber die hatten Rybka als beste Analysemaschine, und sie hatten es sich so vorgestellt, dass die Engines ohne viel zu rechnen aus der "statischen Eval" heraus entscheiden sollten.
So kann man Stellungen wie diese heutzutage nicht mehr verwenden, nicht bei kurzen und nicht bei langen TCs, falsche Lösungen können keine richtigen Ergebnisse erbringen, und die STS- Stellungen passen einfach überhaupt nicht zu dem Konzept, das man mit taktischen single best move- Stellungen an Eindeutigkeit und Schwierigkeit verfolgt.

Ich hab mir gerade erst die STS gründlich vorgenommen, weil da schon viele gute Stellungen für einen rein positionellen Test drin sind, aber von den 1500 ursprünglichen sind mit gerade mal 594 übrig geblieben, die irgendwie als best move- Stellungen durchgehen, wenn's dich interessiert, kann ich sie dir schicken, aber man muss auf jeden Fall ganz anders mit ihnen umgehen als mit taktischen single best moves, sowas mit einer gemeinsamen Hardware- TC durchlaufen zu lassen, das hat keinen Sinn.
Du bist aber übrigens nicht der Einzige, der das durcheinander mixt, in der "Stockfish Test Suite" sind auch gar nicht so wenige davon drin, leider auch nicht einmal diejenigen, die wenigstens überhaupt eine halbwegs eindeutigen best move haben.

Edit: und das geht aber so weiter, die Nr. 2 in deiner Suite ist eigentlich noch schlimmer, das a4 gehört nicht einmal unter die besten 12, bei der Nr.3 ist das ...d4 an 9. Stelle im MultiPV...
Ich fürchte fast, du hast dir von den vielen vielen STS- Stellungen eher die ausgesucht, die am wenigsten als best moves durchgehen, was ich jetzt beim schnellen Durchblättern gesehen habe.

Sorry, aber das macht mich deshalb so unrund, weil ich gerade erst soviel Zeit damit zugebracht habe, die STS von Anfang bis Ende durchzukämmen. Das Prinzip der Stellungen mit mehreren möglichen Lösungen wurde halt damals schon nicht verstanden, man hat sie immer wieder ohne das entsprechende Auswertungs- Tool von Philippe Gailhac verwendet, ohne das waren sie damals schon nicht mit anderen Suiten vergleichbar zu verwenden, und wie gesagt, als best moves geht mit den heutigen Engines nachkontrolliert höchstens ein Drittel der 1500 durch, und schwer im Sinn von nur mit einem gewissen Hardware- Zeit- Aufwand lösbar sind sie allesamt überhaupt nicht.
Das war genau das, was Dann und Swami nicht wollten.
Ich lasse die Stellungen, die ich aus dem STS aussortiert habe, mit 1-3 Sekunden/Stellung und single thread laufen, weil sonst ein viel zu großer Teil davon von den heutigen Engines gelöst werden (vorausgesetzt, die verlangte Lösung ist auch wirklich richtig, auch bei denen, die mir übrig geblieben sind, haben die ursprünglich angegeben meistens nicht gestimmt)

Das kann man dann zum Schluss eventuell von EloStatTS in eine gemeinsame Liste an Rating und Ranking auswerten lassen, aber die TC muss eine völlig andere sein als mit den Stellungen, die man in den vielen guten tactical single best moves suites findet, die's wie in meiner Antwort an Kurt aufgezählt, gibt.
Und ohne Frank Schuberts Auswertungsprogramm hat eine positionelle Suite mit sehr vielen Stellungen, die so leicht sind, schon deshalb keinen Sinn bei noch so kurzen TCs, weil du sonst keine Chance hast, zählende Unterschiede anders als anhand der Zeit- Vergleiche von Engine zu Engine pro einzelner Stellung auszuwerten, wenn von allen Teilnehmern fast alle Stellungen gelöst werden, hast du zwar viele "Matches" im EloStatTS, aber die Diskrimination allein durch die wenigen ungelösten kannst du vergessen, wenn du nur diese eine Zahl vergleichst.

By Wilhelm Hudetz Date 2022-09-11 06:59

Hallo Peter!
Danke, ich verstehe jetzt das mein Ansatz der Selektion falsch ist. Und Sorry, wollte Dich nicht unrund machen

Das die STS Stellungen ein eigenes Auswertungsprogramm haben wusste ich nicht. Wo ich sie heruntergeladen habe war weit und breit nichts davon zu sehen, soll aber keine Ausrede sein. Das Ganze ist viel schwieriger als sich das der kleine Wilhelm vorgestellt hat

Gibt es eine Möglichkeit eine Datenbank mit einer Engine nach solchen "Best Moves" zu durchsuchen? Naja, vermutlich zu Zeitaufwändig sonst hätte es ja schon wer gemacht.
Deine eigene Auswahl nehme ich gerne um das mal Vergleichen zu können, um daraus zu lernen.

Grüße
Wilhelm

By Frank Quisinsky Date 2022-09-11 09:30 Edited 2022-09-11 09:37

Hallo Wilhelm,

seinerzeit hatte ich mal die Blunder Idee bei Arena.
Weiß nicht was daraus geworden ist aber Arena sollte die Stellungen filtern können.
Die Idee ist ja schon 100 Jahre alt.

Es gibt ja auch die Tools von Stefan.
Gefunde Stellungen werden in eine extra Datenbank abgelegt.

Material, welches aus längeren Eng-Eng Partien kommt ist sehr interessant, z. B.aus meiner 40 in 20 Ratingliste.

In den letzten Jahren legte ich mir eine Schachbuchsammlung an und legte dabei auch den Schwerpunkt auf Problemschachbücher zu achten!
Ein Thema bei dem ich mich kaum auskannte!

Es gibt eine ganze Reihe an sehr guten Problemschachbüchern mit sehr interessanten Stellungen.
Was es da alles gibt ist in den Bücher meist sehr gut strukturiert. Die Bücher sind wie soll ich sagen ...
Deswegen sehr hochwertig weil die Autoren mit sehr viel Liebe zum Detail schildern, schreiben und feststellen.

Hier liegt aber auch ein Problem ...
Die wirklich guten Bücher sind meist sehr teuer und eher selten.
Sind zwar jeden Cent wert aber dennoch meist selten.

Habe eine Datenbank mit mittlerweile ca. 6.000 Stellungen bei denen sich mindestens 500 auch für Engines wie Stockfish sehr gut eignen.
Aber die kann und werde ich nicht zum Download anbieten, weil das kein Material von mir ist und ich in die Bücher viel zu viel
Geld gesteckt habe um das jetzt frei anzubieten bzw. die Arbeit alles in Datenbanken zu sortieren und zu filern.
Das wäre ganz sicher auch nicht im Sinne der vielen Autoren.

So erfreue ich mich selbst daran und denke mir oft ...
Was mögen die Problemschachexperten über unsere Schachprogramme denken!
Die Meinung wird teils eine andere sein!

Es ist eher eins sehr schöne Variante sich Schachbücher, auch als Engine-Begeisteter zuzulegen.
Menschliches Wissen also mehr mit dem Hobby in der ganzen Komplexität zu mixen als zu denken ... was soll dabei herauskommen?!
Sehe was dabei herauskommt und wo auch Stockfish und Komodo noch Schwächen haben.

Wobei Stockfish und Komodo vieles sehr gleich spielen.
Unterschiede zwischen den Engines sind meist sehr gering, dass zeigen mir gerade diese Stellungen.

Viele Grüße
Frank

By Frank Quisinsky Date 2022-09-11 09:53

Das Leben ist viel zu kurz um sich zu lange mit den gleichen Dingen zu beschäftigen!

By Peter Martan Date 2022-09-11 10:10 Edited 2022-09-11 10:37

Wilhelm Hudetz schrieb:

Ja. es war zeitaufwändig

Hier ist das Auswertungsprogramm vom STS:

https://sites.google.com/site/strategictestsuite/sts-stat

Aber wie gesagt, die Bewertung der Züge in der ursprünglichen Suite ist nicht mehr brauchbar. Ich habe einen Link zu einer Auswahl von 594 davon im CCC gepostet, damit Dann Corbit Bescheid weiß, ob Swaminathan dort noch mitliest, weiß ich nicht, aber die ursprünglichen Autoren müssen schon informiert sein und so lange Dann nicht etwas dazu geschrieben hat, bitte ich alle, die sich das dann dort runterladen, das nicht als "neue Testsuite" und schon gar nicht in meinem Namen zu verwenden, ohne eine "Anleitung", die ich auch im CCC dazu geschrieben habe, auch zu lesen und möglichst zu beachten. Natürlich kann dann jeder damit weiter verfahren, wie sie oder er das will, um mal ausnahmsweise sogar irgendwie gender- correct zu formulieren.

http://talkchess.com/forum3/viewtopic.php?p=933608#p933608

Der direkte Download- Link zu den 594 Stellungen:

https://www.dropbox.com/s/khn8tkonb68kcel/594.epd?dl=0

Vielleicht beginnt's echten Nutzen zu bekommen, wenn's wenigstens 650 sind, die hab' ich in Arbeit, indem ich zu diesem ersten STS- Grundstock frühe Eröffnungsstellungen mit single best move hinzufüge, solche sind natürlich erst recht nicht leicht, was die Auswahl angeht, passend zu den anderen einzuordnen, aber sie würden der Idee einer positionellen Testsuite als Gegenstück und Ergänzung zu den tactical single best move- suites meiner Meinung nach besonders gut entsprechen.

Danke für dein Interesse, Wilhelm.
Zum Thema des Threads noch: lieber Kurt, das ist leider auch überhaupt nicht das, was du suchst, fürchte ich

Ich fand's nur trotzdem irgendwie in deinen Thread passend, um zu zeigen, was ich mir persönlich alles an sehr verschiedenen Dingen unter einer "guten Test Suite" vorstellen könnte.

By Peter Martan Date 2022-09-11 12:29

Zitat:

Vielleicht beginnt's echten Nutzen zu bekommen, wenn's wenigstens 650 sind,

Jedenfalls hab' ich jetzt gerade noch einmal die ganzen 594 im Shredder GUI mit LC0 und SF laufen lassen, diesmal beide single thread, was die CPU angeht (einer der 16x3.5GHz- Kerne), GPU wieder die 3070ti und das weights_run3_784822.lc0.
Diesmal nur 1 Sekunde pro Stellung, Shredder- GUI wegen der übersichtlichen Lösungs- Tabelle, 256Mb Hash für SF, 200Mb NN-cache für LC0, 6Steiner Syzygys, 2 Extra- Halbzüge.
LC0:

Bisher gelöst: 549 von 594  ;  50s

         1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20
 -------------------------------------------------------------------------------------
   0|   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
  20|   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
  40|   0   0   0   -   0   0   0   0   0   0   0   0   -   0   0   -   0   0   0   0
  60|   0   0   0   0   0   0   0   0   0   0   0   -   0   0   0   0   0   0   0   0
  80|   0   0   -   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   -
 100 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 120 |   -   0   -   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 140 |   0   0   0   0   0   0   0   0   -   0   0   -   0   0   0   0   0   0   0   0
 160 |   0   0   0   -   0   0   -   0   -   0   0   0   0   0   0   0   0   0   0   0
 180 |   0   0   0   0   0   0   0   0   0   -   0   0   0   0   0   0   -   0   0   0
 200 |   0   0   0   0   0   0   0   0   0   0   0   -   0   0   0   0   -   0   0   0
 220 |   -   0   0   -   0   0   0   0   0   -   0   0   0   0   -   -   0   0   0   0
 240 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   -   0   0   0   -
 260 |   0   0   0   -   0   0   0   0   0   0   0   0   -   0   0   -   0   0   0   0
 280 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   -   0   0   0   0   0
 300 |   0   0   0   0   0   0   0   0   0   -   0   0   0   0   0   0   0   0   0   0
 320 |   0   0   0   0   0   0   0   0   0   0   0   0   -   -   0   0   0   0   0   0
 340 |   0   0   0   0   0   0   0   0   0   0   0   0   0   -   0   0   0   0   0   0
 360 |   -   0   0   0   0   0   -   -   0   0   0   0   0   0   -   -   0   0   0   0
 380 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   -
 400 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 420 |   0   0   0   0   0   0   0   0   0   0   0   0   0   -   0   0   0   0   0   0
 440 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 460 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 480 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 500 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 520 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 540 |   0   0   0   0   0   0   0   0   0   0   0   0   -   0   -   0   0   0   0   -
 560 |   0   0   0   0   0   0   0   -   0   -   0   0   0   0   0   0   0   0   0   0
 580 |   0   0   0   0   -   0   0   0   0   0   0   0   0   0

   1 sec -> 549/594
  K/s: 9.262  
  TotTime: 4:17m    SolTime: 50s
  Ply: 0   Positions:158   Avg Nodes:       0   Branching = 0.00
  Ply: 1   Positions:152   Avg Nodes:       3   Branching = 0.00
  Ply: 2   Positions:132   Avg Nodes:       9   Branching = 3.00
  Ply: 3   Positions:114   Avg Nodes:      29   Branching = 3.22
  Ply: 4   Positions: 83   Avg Nodes:      90   Branching = 3.10
  Ply: 5   Positions: 69   Avg Nodes:     256   Branching = 2.84
  Ply: 6   Positions: 71   Avg Nodes:     611   Branching = 2.39
  Ply: 7   Positions: 55   Avg Nodes:    1182   Branching = 1.93
  Ply: 8   Positions: 41   Avg Nodes:    1874   Branching = 1.59
  Ply: 9   Positions: 29   Avg Nodes:    3017   Branching = 1.61
  Ply:10   Positions: 17   Avg Nodes:    3211   Branching = 1.06
  Ply:11   Positions:  9   Avg Nodes:    3669   Branching = 1.14
  Ply:12   Positions:  2   Avg Nodes:    3675   Branching = 1.00

Und SF 310722:

Bisher gelöst: 555 von 594  ;  1:07m

         1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20
 -------------------------------------------------------------------------------------
   0|   0   0   0   0   0   0   0   0   0   0   0   0   -   0   0   0   0   0   0   0
  20|   0   0   0   0   0   0   0   0   0   0   0   0   0   0   1   0   0   0   0   0
  40|   0   0   0   -   0   0   0   0   0   0   0   0   -   0   0   -   0   0   0   0
  60|   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
  80|   0   0   -   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   -
 100 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   -   0
 120 |   -   0   0   0   0   0   -   0   0   0   0   0   0   0   0   0   0   0   0   0
 140 |   0   0   0   0   0   0   0   0   -   0   0   -   0   0   0   0   0   0   0   0
 160 |   0   0   0   0   0   0   0   0   0   0   0   0   -   0   0   0   0   0   0   0
 180 |   -   0   0   -   0   0   0   0   0   -   0   0   0   0   0   0   -   0   0   0
 200 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   -   0   0   0
 220 |   0   0   0   -   0   0   0   0   0   0   0   0   0   0   0   0   0   -   0   0
 240 |   0   0   0   0   0   0   0   0   0   0   -   0   0   0   0   -   0   0   0   0
 260 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   -   0   0   0   -
 280 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   -   0   0   0   0   0
 300 |   0   0   0   0   0   0   0   0   0   -   0   0   0   0   0   -   0   0   0   0
 320 |   0   0   0   0   0   0   0   0   0   0   0   0   0   -   0   0   0   0   0   0
 340 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 360 |   -   0   0   0   0   0   -   0   0   0   0   0   0   0   0   0   0   0   0   0
 380 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   -
 400 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 420 |   0   0   0   0   0   0   -   0   0   0   0   0   0   0   0   0   0   0   0   0
 440 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 460 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 480 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 500 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 520 |   0   -   0   0   -   0   0   0   0   0   -   -   0   0   0   0   0   0   0   0
 540 |   0   0   0   0   0   0   -   0   0   0   0   0   0   0   -   0   0   0   0   0
 560 |   0   0   0   0   0   0   0   -   0   -   0   0   0   0   0   0   0   0   0   0
 580 |   0   0   0   0   0   0   0   0   0   0   0   0   0   0

   1 sec -> 554/594
  K/s: 1.717.001  
  TotTime: 10:31m    SolTime: 1:07m
  Ply: 0   Positions:312   Avg Nodes:       0   Branching = 0.00
  Ply: 1   Positions:369   Avg Nodes:      58   Branching = 0.00
  Ply: 2   Positions:341   Avg Nodes:     129   Branching = 2.22
  Ply: 3   Positions:329   Avg Nodes:     206   Branching = 1.60
  Ply: 4   Positions:307   Avg Nodes:     276   Branching = 1.34
  Ply: 5   Positions:290   Avg Nodes:     415   Branching = 1.50
  Ply: 6   Positions:240   Avg Nodes:     871   Branching = 2.10
  Ply: 7   Positions:177   Avg Nodes:    2109   Branching = 2.42
  Ply: 8   Positions:147   Avg Nodes:    4755   Branching = 2.25
  Ply: 9   Positions:138   Avg Nodes:    9053   Branching = 1.90
  Ply:10   Positions:101   Avg Nodes:   16234   Branching = 1.79
  Ply:11   Positions: 83   Avg Nodes:   32254   Branching = 1.99
  Ply:12   Positions: 74   Avg Nodes:   52529   Branching = 1.63
  Ply:13   Positions: 69   Avg Nodes:   93196   Branching = 1.77
  Ply:14   Positions: 60   Avg Nodes:  135072   Branching = 1.45
  Ply:15   Positions: 60   Avg Nodes:  194377   Branching = 1.44
  Ply:16   Positions: 44   Avg Nodes:  260743   Branching = 1.34
  Ply:17   Positions: 40   Avg Nodes:  435682   Branching = 1.67
  Ply:18   Positions: 38   Avg Nodes:  665593   Branching = 1.53
  Ply:19   Positions: 33   Avg Nodes:  910388   Branching = 1.37
  Ply:20   Positions: 26   Avg Nodes: 1102445   Branching = 1.21
  Ply:21   Positions: 22   Avg Nodes: 1328306   Branching = 1.20
  Ply:22   Positions: 13   Avg Nodes: 1467265   Branching = 1.10
  Ply:23   Positions:  5   Avg Nodes: 1543882   Branching = 1.05
  Ply:24   Positions:  2   Avg Nodes: 1581501   Branching = 1.02
  Ply:25   Positions:  1   Avg Nodes: 1712272   Branching = 1.08
  Ply:26   Positions:  1   Avg Nodes: 1839272   Branching = 1.07

By Peter Martan Date 2022-09-14 09:58 Edited 2022-09-14 10:39

Next step:

http://talkchess.com/forum3/viewtopic.php?p=933829#p933829

Direkter Download- Link:

https://www.dropbox.com/s/k3pvjhcdhkwgpes/1001.epd?dl=0

Edit:
Weil's so schnell geht und soviel Spaß macht, hier 4 Vergleichs- Runs vom Lc0 v0.30.0-dag+git.c91bf77 Compile mit 4 verschiedenen Netzen auf der 3070ti- GPU mit 300msec/Stellung.

784822: 789/1001
784038 (zu vorletzt auf TCEC): 787/1001
785011 (weil's hier

http://zz4032.rf.gd/lc0/charts.html?i=2

zu vorletzt am besten gereiht war): 785/1001

Und weil auf der site vom Link mittlerweile wieder ein anderes bei den Run3- gereihten im Selfplay führt, (784990) das auch noch schnell runtergeladen und ausprobiert (und das alles in der Editierzeit

)
792/1001.

Was auch immer das wem bedeuten möge oder nicht, in diesem einen Test hat das Netz 784990 die Nase knapp vorn. Würde man hier eine error bar mit ElostatTS anschauen, wären die 3 Netze natürlich ziemlich sicher wieder innerhalb derselben vermutlich, mit Fritz kann man ja nicht unter 1"/Stellung laufen lassen, würde man aber die TC noch weiter unter die 300msec verringern und oder schwächere Hardware nehmen, bekäme man noch mehr Diskrimination.

By Peter Martan Date 2022-09-19 10:58 Edited 2022-09-19 11:45

Eigentlich kann man bei ultrakurzen TCs mit den Zahlen an gelösten und ungelösten allein ohne Ansicht der Zeiten (die unter einer Sekunde ohnehin keine große Rolle spielten) schon auch recht leicht ein Elo- Rating erstellen.
Man vergleicht die Lösungen, die 2 teilnehmenden Engines gemeinsam schaffen mit denen, die nur die eine (1-0) und denen, die nur die andere (0-1) löst.

Hier ein Beispiel, 300msec/Stellung- Match zwischen SF single thread (3.5GHz- CPU) und LC0 3070ti+ 2 CPU- threads, aus der Sicht von SF:

Wins   = 23
Draws  = 965
Losses = 13
Av.Op. Elo = 3500

Result     : 505.5/1001 (+23,=965,-13)
Perf.      : 50.5 %
Margins    :
 68 %      : (+  0.3,-  0.3 %) -> [ 50.2, 50.8 %]
 95 %      : (+  0.6,-  0.6 %) -> [ 49.9, 51.1 %]
 99.7 %    : (+  0.9,-  0.9 %) -> [ 49.6, 51.4 %]

Elo        : 3503
Margins    :
 68 %      : (+  2,-  2) -> [3501,3506]
 95 %      : (+  4,-  4) -> [3500,3508]
 99.7 %    : (+  6,-  6) -> [3498,3510]

Wie vermutet, knapp innerhalb der error bar. Hingegen wird's bei einer ganzen Sekunde mit ElosStatTS 0 Elo Unterschied bei einer error bar von 0 Elo, so gesehen ist die Diskrimination relativ zur Irrtumswahrscheinlichkeit, wie auch zu erwarten war, mit kürzerer TC größer.
Würde ich's so genau wissen wollen, müsste ich einfach nur die TC so kurz machen, dass...

Etwas mühsam ist das händische Auszählen der Matchpaare mit ungleichem Ausgang selbst in der Banksia- Liste, in der man nebeneinander die grün und rot dargestellten Ergebnisse ja recht leicht seitenweise auf einen Blick sieht, halt schon, das wäre mal ein Feature, das für alle GUIs interessant wäre, ich hätte ja so etwas längst in einen Fritz eingebaut anstelle von Chessbase und die TC bei den Suiten unter 1" machbar, Fritz 19 wird halt jetzt wahrscheinlich noch eine Weile dauern, aber bis dahin?

Hoffungsgebiet für einen neuen Shredder (der ja vielleicht doch noch dieses Jahr kommen könnte?) erst recht, die Tabellendarstellung einzelner runs ist in diesem GUI sowieso am schönsten von allen.

Und um ihn nicht ständig mit Mails zu belästigen (mal davon ausgehend, dass auch nur ein kleiner Teil der Aufforderungen dazu hierorts tatsächlich befolgt wurde und wird

), poste ich das erstmal im CCC, dort liest er ja sicher hin und wieder mit.

http://talkchess.com/forum3/viewtopic.php?p=934153#p934153

Der Link im Vorposting zu den 1001 Stellungen funktioniert übrigens gerade wieder nicht mehr, weil die Suite neu in Bearbeitung ist. Auch auf Kurts Anregungen hin, danke dafür an ihn.

By Peter Martan Date 2022-09-19 13:49 Edited 2022-09-19 14:34

Zitat:

Irrtum sagte der Igel und stieg von der Bürste, weil
was bei den längeren TCs die vielen "Remis" durch von beiden gemeinsam gelöste Stellungen sind, werden bei den kürzeren TCs die vielen Remis durch von beiden Engines gemeinsam nicht gelöste

Hier zwei LC0- Netze, wobei ich mir nicht sicher bin, dass Banksia das mit den "Parallelität"- Instanzen so versteht, wie ich mir das vorstelle. Angenommen hätte ich, dass 2 Engines im direkten Vergleich mit Paralleltität=1 nacheinander ablaufen würden, hingegen machen sie's genau so gleichzeitig wie mit Parallelität=2.
Man kann also nicht verhindern, dass 2 LC0- Installationen mit 2 verschiedenen Netzen gleichzeitig über den Parkour geschickt werden, wenn man sie in einer gemeinsamen Liste der Suite haben will mit den hübschen roten und grünen Farben. Wie sie sich in dem Fall die gemeinsam genutzte GPU in der Hardware- Zeit- Leistung teilen, weiß man natürlich auch nicht, so gesehen ist dieser Versuch an und für sich noch fragwürdiger als andere, 200msec ist für eine Engine, die doch auch eine gewisse Initialisierungszeit hat pro Stellung, schon von vornherein sehr wenig, wenn da jetzt dann auch noch 2 Instanzen auf derselben GPU laufen..., aber es diente ja nur einem ersten Ausprobieren auf diese Art.

Übrigens die "Concurrencies" bei der ECA (Extreme Chess Analysis) duchschaue ich in der Auswirkung erst recht nicht, auf die CPU- Auslastung mit einer A-B-Engine und verschieden vielen Threads wirkt sich im Task Manager jedenfalls überhaupt nicht sichtbar aus, ob man da Concurrencies 1 oder 30 eingibt. Die CPU-% werden da gleichermaßen sehr unterschiedlich von ein paar wenigen bis 100 angezeigt, meistens pendelt es sich dann bei den paar einzelnen % ein, egal, was man bei den Concurrencies einstellt, und auch wenn die Engine 30 Threads zugewiesen bekommen hat und Concurrencies auf 30 steht.

Die Netze waren das 784822 und das 784990, und die TC war 200 mscec. Aus der Sicht des neueren Netzes:

Wins   = 6
Draws  = 987
Losses = 8
Av.Op. Elo = 3500

Result     : 499.5/1001 (+6,=987,-8)
Perf.      : 49.9 %
Margins    :
 68 %      : (+  0.2,-  0.2 %) -> [ 49.7, 50.1 %]
 95 %      : (+  0.4,-  0.4 %) -> [ 49.5, 50.3 %]
 99.7 %    : (+  0.5,-  0.6 %) -> [ 49.3, 50.4 %]

Elo        : 3499
Margins    :
 68 %      : (+  1,-  1) -> [3498,3501]
 95 %      : (+  2,-  3) -> [3497,3502]
 99.7 %    : (+  4,-  4) -> [3495,3503]

By Max Siegfried Date 2022-09-19 16:12

Peter Martan schrieb:

Zitat:

Was sagt der Entwickler dazu?

By Peter Martan Date 2022-09-19 18:21 Edited 2022-09-19 18:29

Musst du im Thread, dessen Link ich eines über dem, auf das du geantwortet hast, gepostet hatte, nachschauen.

Zitat:

Und um ihn nicht ständig mit Mails zu belästigen (mal davon ausgehend, dass auch nur ein kleiner Teil der Aufforderungen dazu hierorts tatsächlich befolgt wurde und wird

), poste ich das erstmal im CCC, dort liest er ja sicher hin und wieder mit.

http://talkchess.com/forum3/viewtopic.php?p=934153#p934153

Wenn Pham dort was dazu schreibt, lass ich es dich aber eh wieder eigens wissen

By Peter Martan Date 2022-09-25 11:50 Edited 2022-09-25 11:56

Zitat:

Die Netze waren das 784822 und das 784990, und die TC war 200 mscec. Aus der Sicht des neueren Netzes:

<code>Wins = 6
Draws = 987
Losses = 8
Av.Op. Elo = 3500

Result : 499.5/1001 (+6,=987,-8)
Perf. : 49.9 %
Margins :
68 % : (+ 0.2,- 0.2 %) -> [ 49.7, 50.1 %]
95 % : (+ 0.4,- 0.4 %) -> [ 49.5, 50.3 %]
99.7 % : (+ 0.5,- 0.6 %) -> [ 49.3, 50.4 %]

Elo : 3499
Margins :
68 % : (+ 1,- 1) -> [3498,3501]
95 % : (+ 2,- 3) -> [3497,3502]
99.7 % : (+ 4,- 4) -> [3495,3503]</code>

Und hier jetzt noch einmal ein sehr ähnlicher erweiterter Selfplay- Stellungstest, diesmal zwischen dem 784990 und dem 784968, das auf TCECspielt.
Diesmal die 250 Stellungen von hier

https://www.dropbox.com/s/lpg29zoyvh03dza/256.epd?dl=0

und 5"/Stellung, beide Engines gleichzeitig im Banksia GUI gelaufen, die 1-0, 0-1, Remis- Matches wieder händisch ausgezählt, bei 250 geht's ja deutlich schneller als bei 1001, leider von Pham noch keine Antwort auf meine Anfrage nach einer automatischen Auswertung dieser Art im CCC.

File name          : 256.epd
Total test items   : 256
Test for           : best moves
Total engines      : 2
Timer              : movetime: 5
Expand ply         : 1000
Elapsed            : 11:54
Laps               : 1
Total tests        : 512
Total corrects     : 170 (33%)
Ave correct elapse : 8328 ms
Status             : completed

Correct/Total:
Lc0 v0.30.0-dag+git.c91bf77   : 84/256
Lc0 v0.30.0-dag+git.c91bf77 on: 86/256

on steht für old net, hier das 784968 (TCEC- NN).

Was wieder einmal auffällt: Banksia interpretiert die Zeit pro Stellung (dort als Zugzeit bezeichnet) ganz anders als andere GUIs, man könnte auch einfach sagen: falsch. Obwohl das Maximum an Extra plies mit 1000 gewählt war, sieht man am Gesamtergebnis von nicht einmal ganz 12 Minuten, dass die 5"/Stellung einfach nicht dazu stimmen. Das wäre wieder mal was für ein Mail an den Entwickler

EloStat:

Wins   = 9
Draws  = 240
Losses = 7
Av.Op. Elo = 3500

Result     : 129.0/256 (+9,=240,-7)
Perf.      : 50.4 %
Margins    :
 68 %      : (+  0.8,-  0.8 %) -> [ 49.6, 51.2 %]
 95 %      : (+  1.6,-  1.5 %) -> [ 48.9, 52.0 %]
 99.7 %    : (+  2.4,-  2.3 %) -> [ 48.1, 52.8 %]

Elo        : 3503
Margins    :
 68 %      : (+  5,-  5) -> [3497,3508]
 95 %      : (+ 11,- 10) -> [3492,3514]
 99.7 %    : (+ 17,- 16) -> [3487,3519]

Und nur, weil wir gerade bei Banksia sind, weiß jemand, warum die Analysis on the fly nicht (zumindest oft nicht) mit Partien funktioniert, die man importiert? Nämlich nicht so, wie man das bei einer infinite analysis aus anderen GUIs gewöhnt ist mit manueller Zugeingabe am Brett? Ist das eine Feature oder ein Bug?

http://talkchess.com/forum3/viewtopic.php?p=934559#p934559

Siehe auch meine Antwort dazu direkt drunter.

By Peter Martan Date 2022-09-25 08:12 Edited 2022-09-25 09:04

Zitat:

Der Link im Vorposting zu den 1001 Stellungen funktioniert übrigens gerade wieder nicht mehr, weil die Suite neu in Bearbeitung ist. Auch auf Kurts Anregungen hin, danke dafür an ihn.

Der neue Link:

https://www.dropbox.com/s/02wbidzin3y7vvk/1001.epd?dl=0

Und noch ein neuer:

https://www.dropbox.com/s/lpg29zoyvh03dza/256.epd?dl=0

zu einem Mittelding aus positioneller und taktischer Suite. Von den 1001 leichten, mit ultra kurzer TC zu evaluieren (sozusagen aus der "statischen Eval" der Engine, ohne überhaupt so richtig zum Rechnen zu kommen) die leichtesten eingespart und mit denen aus der taktischen 128er Suite kombiniert, die nicht ganz so schwer sind.
Auf die Art hat man einen weiteren zusätzlichen nützlichen Kompromiss für eine breit gefächerte Liste an Engines, die mit ziemlich weit gestreuten Hardware- TCs verwendbar ist.
Ich würde sagen, diese 256 funktionieren von single thread single second bis hinauf zu SMP und 15"/Stellung. Innerhalb dieser Range ist ElosStatTS bei diesen Stellungen gut genug in der Lage, das, was mehr Stellungen gelöst werden mit längerer Hardware- TC gegen das aufzurechnen, was es mit kürzerer solcher dafür bessere MST1+2 und RI- Werte misst und bewertet.


    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

  1 HypnoSFmpv210922-Set1-ImbInv             : 3541    5   2350    56.6 %   3495   206/256    1.8s    2.4s   0.75
  2 HypnoSFmpv210922-Set1                    : 3534    5   2304    55.4 %   3496   193/256    1.6s    2.4s   0.71
  3 BlueMarlin15.3-MV4                       : 3533    5   2275    55.2 %   3496   192/256    1.7s    2.5s   0.73
  4 ShashChess24-MV4                         : 3527    5   2243    54.3 %   3497   189/256    1.7s    2.6s   0.73
  5 CorChess3300522-MV4                      : 3526    5   2254    54.1 %   3497   189/256    1.8s    2.6s   0.69
  6 Stockfish110922-MV4                      : 3517    5   2198    52.8 %   3498   178/256    1.7s    2.7s   0.69
  7 EMAN8.30-MV4                             : 3514    5   2168    52.3 %   3498   178/256    1.8s    2.8s   0.66
  8 Stockfish110922                          : 3500    6   2149    50.0 %   3500   160/256    1.7s    2.9s   0.63
  9 Dragon3.1byKomodoChess-MV4               : 3489    6   2122    48.1 %   3502   152/256    1.8s    3.1s   0.56
 10  Ceres0.97RC3-784990                      : 3445    7   2086    40.9 %   3509   112/256    1.9s    3.6s   0.35
 11  TheHuntsman1bmi2-MV4                     : 3444    7   2129    41.1 %   3507   109/256    1.6s    3.6s   0.35
 12  Lc0v0.30.0-dag+git.c91bf77-784968        : 3410    7   2000    35.9 %   3511    86/256    1.9s    3.9s   0.29

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position

Diese Resultate sind mit 5"/Stellung, 30 threads der 16x3.5GHz CPU und (oder) der 3070ti GPU erstellt. MV4 heißt MultiPV=4, hier ist die TC gerade so eingestellt, dass dieses MultiPV- Setting ein paar Engines noch hilft, ein paar andere schon zu sehr bremst, sodass man auch mehr solche Settings voneinander besser unterscheiden kann. Dazu sollte man sie dann allerdings nicht mit zu vielen anderen Engines anderer Teststärke gemeinsam in einer Liste vergleichen. Alles genau so wie beim game- playing zu beachten, bei dem's ja auch mehr und mehr auf die Teststellungen, das Teilnehmerfeld und die Hardware- TC ankommt, was die Vergleichbarkeit der Resultate angeht.

So hat man einen bunten Strauß an Möglichkeiten, je nach Engines und Zeitaufwand schneller ein Ergebnis zu bekommen für diejenigen Engines, Settings oder Netze, die sehr ähnlich abschneiden, oder ein breiteres mit mehr Engines und längerer TC.

Enjoy!

By Peter Martan Date 2022-09-11 14:26 Edited 2022-09-11 14:40

Nur noch der Vollständigkeit halber, und weil der Link zur STS- site zur Zeit nicht funktioniert,
(dieser

https://sites.google.com/site/strategictestsuite/sts-stat

ist offline momentan) damit sich niemand ärgert oder wundert, der ihm folgen wollte.
Und im CCC hab' ich noch nachgeholt, Ferdinand Mosca zu erwähnen, der auch ein STS- Revise vor ein paar Jahren mit einem eigenen Tool zum Auswerten dazu gemacht hatte:

http://talkchess.com/forum3/viewtopic.php?p=933626#p933626

By Peter Martan Date 2022-09-12 13:54 Edited 2022-09-12 14:04

Zitat:

<a class='ura' href='https://sites.google.com/site/strategictestsuite/sts-stat'>https://sites.google.com/site/strategictestsuite/sts-stat</a>

ist offline momentan

Funktioniert wieder, Swami hat eine Migration der Site vorgenommen.