Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Zügedurchschnitt, 21000er Turnier
- - By Frank Quisinsky Date 2022-08-30 07:40 Edited 2022-08-30 08:02
Hallo zusammen,

Turnier: 40 in 8, ohne Ponder, 512Mb Hash, 4.1Ghz (16 AMD Cores, 16 Intel Cores), 5-pieces endgame-bases!
Jeder gegen jeden 100 Partien, mein bestes Buch!

Turniertabelle:
https://www.amateurschach.de/frank/fcp_40in8_secret.html

Ohne Contempt produzieren diese 20 der TOP-30 engines einen Zügedurchschnitt (Partien bis Matt, ohne Aufgabefaktor) von 84,84 Zügen
anstatt ca. 91.50 Züge im Vergleich zu den derzeitigen TOP-41 wenn alle mit den Grundeinstellungen spielen. Engines mit einem viel zu hohen
Zügedurchschnitt sind also nicht im Feld (Stockfish, Berserk, Koivisto, Rebel u.s.w.).


Ausgangssituation:
84,84 Züge im Durchschnitt der 21 Engines im Feld ohne Aufgabefaktor ist super!
60,24% wäre dabei die produzierte Remisquote (die ist zu hoch mit einem normalen Buch).


Engine mit den höchsten Zügedurchschnitt im Feld ist Uralochka mit 91 Zügen (gesamt) und bei den Remisen sind es 93 Züge.
Ein aktueller Stockfish, der ja kein Contempt mehr hat, hat einen um 22 Züge höheren Zügedurchschnitt bei den Remispartien als der letzte
im Feld "Uralochka". Nur mal zum Vergleich, eignet sich also nicht für mein Vorhaben.

Drin ist aber Stockfish 11 (letzte Version ohne Neural-Network). Stockfish 11 produziert fast ca. die gleiche Anzahl an schnellen Gewinnen im Vergleich zu einem aktuellen Stockfish.
Das + an Elo bei einem aktuellen Stockfish zu Stockfish 11 ohne Neural Network kommt nach ein paar statistischen Auswertungen genauer gesagt zu 88% aus Partien ca. ab 65 Zügen bis Matt (also aus Übergängen zu Endspielen und Endspielen).
Diese Stats habe ich mit einigen Programmen gemacht. Bei weitem sieht das anders aus bei anderen Engines. Stockfish war hinsichtlich der Eröffnungsphase schon vor Neural-Network fast unerreichbar für andere. Komodo 14.1 lag in dieser Partiehpase ca. 80 Elo hinter Stockfish 11.
Nicht das Thema ...

Das Feld steht!

Nun könnte ein Test-Set auf dieses Teilnehmerfeld gejagd werden.
Mit dem Ziel die Remisquote zu senken.
Neben der Remisquote kann anhand vom Zügedurchschnitt der Stellungen beurteilt werden, ob die herausgefundenen Test-Set Positionen gut sind.
Wäre so mehr oder weniger das Torverhältnis (Zügedurchschnitt) neben der Punktezahl (Remisquote) wie beim Fussball ... natürlich überspitzt ausgedrückt.

Jede Test-Set Stellung könnte man später ein Ranking geben!!
Arbeite noch am dem Test-Set aber der Test startet in Kürze.

Wichtig also nicht die Ergebnisse der Engines, sondern die Ergebnisse der Test-Set Postionen.
Die Engines sind nur Mittel zum Zweck um gute Test-Set Postionen ausfindig zu machen.
Damit mir die Stats zu den Test-Set Postionen nicht zu sehr verwischen ist der Zügedurchschnitt sehr wichtig!!

Weiter unten bei den Stats dann der Zügedurchschnitt der verwendeten Engines.
Das schaut nun alles sehr gut aus!!

Code:

Games   = 21000   ( no result = 0,  FEN tags = 0 )
Players = 21   ( clusters = 1 )
Date Range: 2022.07.22 - 2022.08.30

Games with:  WhiteElo = 0   BlackElo = 0   BothElos = 0

White Wins = 5611 ( 26.72 % )
Draws      = 12650 ( 60.24 % )
Black Wins = 2739 ( 13.04 % )
White Pct = 56.84 %
Black Pct = 43.16 %

ECO:  Total = 21000  A: 3455  B: 5239  C: 3859  D: 4031  E: 4416
PlyCount:  Total = 21000  Range: 39-594  Average = 169.69  StdDev = 71.17

finished: be sure to rename/copy outSummary

************************************************************************************************
*** Rank 1: "Stockfish 11"  All games: 2000 (585 wins / 1280 draws / 135 losses)
*** Overall score: 61.25%     Overall draw-rate: 64.00%
*** Average game length: All: 88 moves (wins: 79 moves / draws: 92 moves / losses: 90 moves)
************************************************************************************************
*** Rank 2: "SlowChess Blitz 2.9 NN"  All games: 2000 (647 wins / 1269 draws / 84 losses)
*** Overall score: 64.08%     Overall draw-rate: 63.45%
*** Average game length: All: 89 moves (wins: 84 moves / draws: 91 moves / losses: 93 moves)
************************************************************************************************
*** Rank 3: "rofChade 3.0 NN"  All games: 2000 (563 wins / 1305 draws / 132 losses)
*** Overall score: 60.78%     Overall draw-rate: 65.25%
*** Average game length: All: 89 moves (wins: 87 moves / draws: 90 moves / losses: 83 moves)
************************************************************************************************
*** Rank 4: "Uralochka 3.37c NN"  All games: 2000 (304 wins / 1291 draws / 405 losses)
*** Overall score: 47.48%     Overall draw-rate: 64.55%
*** Average game length: All: 91 moves (wins: 86 moves / draws: 93 moves / losses: 90 moves)
************************************************************************************************
*** Rank 5: "Fire 8.3"  All games: 2000 (345 wins / 1190 draws / 465 losses)
*** Overall score: 47.00%     Overall draw-rate: 59.50%
*** Average game length: All: 87 moves (wins: 85 moves / draws: 87 moves / losses: 87 moves)
************************************************************************************************
*** Rank 6: "Xiphos 0.6"  All games: 2000 (143 wins / 1040 draws / 817 losses)
*** Overall score: 33.15%     Overall draw-rate: 52.00%
*** Average game length: All: 85 moves (wins: 84 moves / draws: 87 moves / losses: 84 moves)
************************************************************************************************
*** Rank 7: "Minic 3.27 NN"  All games: 2000 (432 wins / 1336 draws / 232 losses)
*** Overall score: 55.00%     Overall draw-rate: 66.80%
*** Average game length: All: 88 moves (wins: 97 moves / draws: 88 moves / losses: 73 moves)
************************************************************************************************
*** Rank 8: "Booot 6.5"  All games: 2000 (167 wins / 1052 draws / 781 losses)
*** Overall score: 34.65%     Overall draw-rate: 52.60%
*** Average game length: All: 87 moves (wins: 80 moves / draws: 87 moves / losses: 89 moves)
************************************************************************************************
*** Rank 9: "Nemorino 6.11 NN dev"  All games: 2000 (263 wins / 1232 draws / 505 losses)
*** Overall score: 43.95%     Overall draw-rate: 61.60%
*** Average game length: All: 81 moves (wins: 93 moves / draws: 80 moves / losses: 77 moves)
************************************************************************************************
*** Rank 10: "Revenge 3.0 NN exp"  All games: 2000 (776 wins / 1163 draws / 61 losses)
*** Overall score: 67.88%     Overall draw-rate: 58.15%
*** Average game length: All: 84 moves (wins: 82 moves / draws: 85 moves / losses: 92 moves)
************************************************************************************************
*** Rank 11: "Seer 2.5.0 NN"  All games: 2000 (492 wins / 1287 draws / 221 losses)
*** Overall score: 56.78%     Overall draw-rate: 64.35%
*** Average game length: All: 84 moves (wins: 93 moves / draws: 82 moves / losses: 77 moves)
************************************************************************************************
*** Rank 12: "Velvet 4.1.0 NN"  All games: 2000 (212 wins / 1133 draws / 655 losses)
*** Overall score: 38.93%     Overall draw-rate: 56.65%
*** Average game length: All: 82 moves (wins: 74 moves / draws: 80 moves / losses: 89 moves)
************************************************************************************************
*** Rank 13: "Arasan 23.4 NN"  All games: 2000 (399 wins / 1319 draws / 282 losses)
*** Overall score: 52.93%     Overall draw-rate: 65.95%
*** Average game length: All: 84 moves (wins: 89 moves / draws: 83 moves / losses: 82 moves)
************************************************************************************************
*** Rank 14: "RubiChess 20220813 NN"  All games: 2000 (607 wins / 1255 draws / 138 losses)
*** Overall score: 61.73%     Overall draw-rate: 62.75%
*** Average game length: All: 84 moves (wins: 83 moves / draws: 83 moves / losses: 93 moves)
************************************************************************************************
*** Rank 15: "Rodent 1.0 NNSf"  All games: 2000 (214 wins / 1305 draws / 481 losses)
*** Overall score: 43.33%     Overall draw-rate: 65.25%
*** Average game length: All: 86 moves (wins: 88 moves / draws: 86 moves / losses: 84 moves)
************************************************************************************************
*** Rank 16: "Dragon 3.1 NN (Komodo)"  All games: 2000 (1094 wins / 903 draws / 3 losses)
*** Overall score: 77.28%     Overall draw-rate: 45.15%
*** Average game length: All: 80 moves (wins: 79 moves / draws: 82 moves / losses: 69 moves)
************************************************************************************************
*** Rank 17: "Tucano 10.00 NN"  All games: 2000 (209 wins / 1241 draws / 550 losses)
*** Overall score: 41.48%     Overall draw-rate: 62.05%
*** Average game length: All: 81 moves (wins: 89 moves / draws: 79 moves / losses: 84 moves)
************************************************************************************************
*** Rank 18: "Marvin 6.0.0 NN"  All games: 2000 (137 wins / 992 draws / 871 losses)
*** Overall score: 31.65%     Overall draw-rate: 49.60%
*** Average game length: All: 83 moves (wins: 83 moves / draws: 81 moves / losses: 85 moves)
************************************************************************************************
*** Rank 19: "Wasp 6.00 NN"  All games: 2000 (292 wins / 1236 draws / 472 losses)
*** Overall score: 45.50%     Overall draw-rate: 61.80%
*** Average game length: All: 81 moves (wins: 85 moves / draws: 79 moves / losses: 85 moves)
************************************************************************************************
*** Rank 20: "Wasp 5.50 NN"  All games: 2000 (164 wins / 1121 draws / 715 losses)
*** Overall score: 36.23%     Overall draw-rate: 56.05%
*** Average game length: All: 81 moves (wins: 84 moves / draws: 78 moves / losses: 85 moves)
************************************************************************************************
*** Rank 21: "Igel 3.1.0 NN"  All games: 2000 (305 wins / 1350 draws / 345 losses)
*** Overall score: 49.00%     Overall draw-rate: 67.50%
*** Average game length: All: 79 moves (wins: 87 moves / draws: 78 moves / losses: 78 moves)
************************************************************************************************
Parent - - By Frank Quisinsky Date 2022-08-30 08:20
Vergessen ...

Test-Set natürlich mit aggressiven aber ausgeglichenen Positionen, habe nun reichtlich Partiematerial aus dem FEOBOS Projekt.
Später dann ein Vergleich zu dem absolvierten Turnier.

Das Turnier dient selbst nur als Basis für Vergleiche zu Vorgabestellungen.

Buch contra Vorgabestellungen (Test-Set) ...

ist das Thema!
Bei Senkung der Remisquote und Zügedurchschnitt und natürlich ...

Maximaler Spielspass beim Zusehen durch geile Varianten.

Das steckt dahinter!
Möchte alles minimalisieren was unnötig ist und die Quote der spannenden Partien deutlich erhöhen!

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2022-08-31 21:25 Edited 2022-08-31 21:46
Hallo,

also, es wäre prima wenn auch andere an dem Test-Set mitarbeiten könnten.

Später soll das mal wie folgt ausschauen:

01. B33 ... die Variante ... Gewonnen weiss: x Partien, Gewonnen schwarz: x Partien, Remis: x Partien = Remisquote = Zügedurchschnitt
02. B01 ... die Variante ...

und so könnte aus den Eröffnungsvorgaben dann eine Art Rating erzeugt werden!

21.000 Partien, bei 21 Engines (100 Partien, Jeder gegen jeden) bedeutet:

420 Partien pro Variante, 210x weiß und 210x schwarz
210 Match-Konstellation bei 21 Engines Jeder gegen jeden pro Variante.

---

Schaue vorab nochmals in Rebel.
Vielleicht hat sich wirklich bei der v15.1a NN etwas getan und die Engine ist für diese Gruppe interessant genug.

Wer verfolgen möchte:
https://www.amateurschach.de/fling/fcp_40in8_secret.html

Das ist das "Basis Turnier", welches mit einem Buch erspielt wird.
So kann später das "Test-Set Turnier" mit den ersten 50-Vorgaben mit dem "Basis Turnier" verglichen werden.

Vermutlich sind 2-3 "Test-Set Turniere" notwendig um 50 wirklich geile Varianten zu finden.

Viele Grüße
Frank

---

Wer mitarbeiten möchte:
Ich würde dann eine ChessBase Datenbank zur Verfügung stellen und erklären wie diese aufgebaut ist.
Enthalten sind meine gesammelte Daten für den Fundus aggressiver Linien.

- FEOBOS mit Zugumstellungen und Contempt 3 als Basis (Varianten enden 3 Züge nach ECO-Code Bildung)
- Kurze Remispartien unter 20 Zügen
- Neueste GM-Theorie mit Partien die schnell gewonnen wurden (bis 32 Halbzüge tief)
- Meine Computerschachdaten mit Partien die schnell gewonnen wurden (bis 32 Halbzüge tief)

Datenbank is sortiert nach Zügen.

Beim durchschschauen der Daten fällt also direkt auf ...
Diese Zugfolgen sind anfällig für schnelle Remise oder gut für einen schnellen weißen oder schwarzen Gewinn und gar für Chancen auf beiden Seiten.
Interessant sind dann die ausgeglichenen Varianten, die möglichst viele schnelle Gewinne produzieren bei wenigen zu schnellen Remisen.

Die Kunst wird es sein folgendes zu tun:
Eine gefundene Variante zum richtigen Zeitpunkt an der richtigen schnellen abzuschneiden bzw. die Linie an der richtigen Stelle zu kappen.
Parent - - By Frank Quisinsky Date 2022-09-02 12:51 Edited 2022-09-02 13:08
Kurz zu Rebel 15.1a ...

Bei Zügedurchschnitt auf dem letzten Platz mit 94!
Gibt ein "Minus"

Rebel läßt wenig aus um unnötig lange Remise zu produzieren.
Zu sehen anhand der wenigen schnellen Remisen das ein Contempt drin ist aber nicht einstellbar ist.
Gibt ein "Minus"

Dennoch besser als ich dachte.

Bei den kurzen Verlustpartien auf Platz 18.
Bei einer Engine, die bei 3300 Elo liegt sind 37x Verluste unter 60 Zügen bis Matt einfach viel zu viel.
Und schon wieder ein "Minus"

Bei den schnellen Gewinnen auf Platz 11 mit 29.
Von den 29 sind aber 19 Gewinne von Zugnummer 55-60 produziert wurden (sind eigentlich keine schnellen Gewinne mehr, Tool von Stefan).

Würde ich das für alle rausrechnen immerhin Platz 13.
Das ist ausgewogen und unter Angreifern ein mittelprächtig - normales Ergebnis.

Zusammengefasst:
Fruit / Toga halt, die typischen Stats.
Es wäre vielleicht mal gut ein wenig Feintuning zu machen.
Macht z. B. überhaupt gar keinen Sinn Remis mit ungleichen Läufern und einem Bauern immer wieder herauzuzögern bis Remis nach 50-Züge nicht mehr zu vermeiden ist.
Viele andere klare Endspiele werden getrieben und getrieben ohne irgend einen Sinn. Viel zu viele Partien über 120 Züge.

Ein Plus für mich ist folgender Umstand:
Von den 2.000 Partien erspielte Rebel 15.1a NN tatsächlich 3 siegreiche Partien, die ich für meine Buchoptimierung benötigen konnte.
3 ist besser als keine!

Damit hatte ich nun gar nicht gerechnet!

Ein Plus: Keine Abstürze.
Im Feld der 21 Engines blieb lediglich Fire 8.3 bei 2 Partien mal hängen.
Alle anderen spiele technisch sauber.

Ich denke eine Engine mit vielen Schwächen und keinerlei herausragenden Punkten bis auf die erreichte Elo.
Die kommt nach meinen Auswertungen ganz klar vom Übergang zum Endspiel ... Fruit / Toga halt.
Genau das machen aber sehr viele Engines sehr gut und insofern sehe ich keinerlei Besonderheiten bei Rebel.

Hart aber für mich eine eher langweilig spielende Engine.
Aber dafür gibt es Fans wenn ich mir so ansehe was im Rebel Thread geschrieben wurde.
Die Wege des Herrn ...

Und es gab einen neuen Rekord.
Eine Partie stürzt nach 562 gespielten Zügen ab.
Was für ein Krampf ... blos keinen Elo verschenken!???

Zumindest hält Berserk nun diesen Rekord auf meinen Rechnern mit 538 Zügen nicht mehr.

Muss die Engine wieder aus dem Feld nehmen.
Macht keinen Sinn damit einen Test-Set zu optimieren.
Stats sind zu schwach!
Parent - - By Frank Quisinsky Date 2022-09-02 14:52
Rebel 15.1a NN schnell wieder draußen ...
Mal in Stockfish schauen!

Die letzte Version dev die ich mit 40/8 getestet hatte lag beim Zügedurchschnitt der Remispartien fast 40 Züge über Wasp.
Hoffe das ging bei den letzten Versionen etwas runter.

Vermutlich wird Stockfish 290822 NN dev nicht deutlich mehr kurze Gewinnpartien produzieren als Stockfish 11 (letzte Version ohne NN).
Das schaue ich mir jetzt nochmal genauer an.

Fest steht, wird einiges dabei sein was ich für den Test-Set gebrauchen kann.
Der Zügedurchschnitt ist ärgerlich da Contempt nicht mehr einstellbar ist.

Wer verfolgen möchte:
https://www.amateurschach.de/fling/fcp_40in8_secret.html

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2022-09-05 06:06 Edited 2022-09-05 06:37
Stockfish 290822 NN dev ist wieder aggressiver geworden im Vergleich zu der dev. Version vom Juni.
Unglaubliche 139 Partien schnell gewonnen und ca. 30 Elo stärker als Dragon by Komodo 3.1 NN ohne Contempt.
139 Partien im Kreise der Angreifer wohlgemerkt (OK, Minic und Seer sind keine Angreifer).

Hier mal ein kleiner Vergleich:
Stockfish 11 (letzte Version ohne NN, Contempt = 0)
Stockfish 290822 NN dev (Contempt nicht mehr einstellbar)
Dragon by Komodo 3.1 NN (Contempt = 0)

Code:

*** Rank 2: "Stockfish 11"  All games: 2000 (533 wins / 1294 draws / 173 losses)
*** Overall score: 59.00%     Overall draw-rate: 64.70%
*** Average game length: All: 89 moves (wins: 79 moves / draws: 93 moves / losses: 90 moves)
*** Avg. eng play white: All: 89 moves (wins: 78 moves / draws: 94 moves / losses: 93 moves)
*** Avg. eng play black: All: 90 moves (wins: 82 moves / draws: 93 moves / losses: 89 moves)

72x Matt unter 60 Zügen!

*** Rank 4: "Stockfish 290822 NN dev"  All games: 2000 (1127 wins / 871 draws / 2 losses)
*** Overall score: 78.13%     Overall draw-rate: 43.55%
*** Average game length: All: 90 moves (wins: 79 moves / draws: 105 moves / losses: 80 moves)
*** Avg. eng play white: All: 85 moves (wins: 76 moves / draws: 109 moves / losses: 0 moves)
*** Avg. eng play black: All: 95 moves (wins: 84 moves / draws: 103 moves / losses: 80 moves)

139x Matt unter 60 Zügen!

*** Rank 7: "Dragon 3.1 NN (Komodo)"  All games: 2000 (1018 wins / 971 draws / 11 losses)
*** Overall score: 75.18%     Overall draw-rate: 48.55%
*** Average game length: All: 82 moves (wins: 79 moves / draws: 84 moves / losses: 87 moves)
*** Avg. eng play white: All: 81 moves (wins: 78 moves / draws: 87 moves / losses: 86 moves)
*** Avg. eng play black: All: 82 moves (wins: 82 moves / draws: 82 moves / losses: 88 moves)

105x Matt unter 60 Zügen!



Und dennoch ist der Zügedurchschnitt das K.O. Kriterium.
105 Züge dauert eine durchschnittliche Remis Partie.
Das ist 10 Züge höher als der letzte Platz im Teilnehmerfeld ... ein Zügetreiber wie Berserk, Koivisto, Rebel für nichts und wieder nichts.

Schaue ich mir nun diese Remispartien an läßt auch Stockfish nichts aus um unnötig klare Remispartien zu treiben.
Damit war Stockfish 2x erfolgreich. Konnte bei den längeren Partien also nur 2 finden wo sich die Remisverhinderung in einen Sieg umgemünzt hat.
Vielleicht habe ich bei der Durchsicht auch etwas übersehen?!

Das sind keine 2 Elo die das gebracht hat bzw. dafür dauert eine Remispartie 20 Züge länger als der Durchschnitt der 21 Teilnehmer im Feld.

Um 2 Elo zu erkennen, wozu kein Mensch auf Erden in der Lage ist werden Remispartien im Durchschnitt um 20 Züge nach hinten getrieben.
Das ist für mich absolut unverständlich, unnötig und aus menschlicher Sicht einfach schlecht!

Contempt ist seit geraumer Zeit nicht mehr einstellbar, allerdings bei Dragon by Komodo 3.1 NN.
So ist der Zügedurchschnitt bei Dragon by Komodo 3.1 NN um sage und schreibe 21 Züge bei den Remisen niedriger!

Absolutes NoGo und KO Krititerium für Eng-Eng!
Wahrscheinlich hat das Stockfish keine Tester, nur Personen die automatisiert testen ohne mal genauer hinzusehen.
Leider ... als professionell betrachte ich das nicht!

Stockfish 290822 wird ersetzt durch Devre, allerdings läuft zur Zeit noch eine neue Uralochka Version.

Viele Grüße
Frank

PS: Habe allerdings einige neue Test-Set Postionen durch en Stockfish 290822 NN dev Test erhalten.
Arbeite auf Hochtouren an den versprochenen Test-Set.
Ein 500er Test-Set mit aggressiven Balance-Postionen sollte möglich sein.
Muss aber alles noch mehrfach prüfen, sehr viel Arbeit.
Von den z. B. 136 kurzen Gewinnpartien konnte ich 18 neue Positionen auf einen Schlag ausfindig machen !!!

Also, bei Stockfish ist nach wie vor alles TOP bis auf Zügedurchschnitt bei den Remisen.
Das ist eine Katastrophe!!
Parent - - By Frank Quisinsky Date 2022-09-06 06:23 Edited 2022-09-06 06:26
Hallo zusammen,

nachdem Uralochka 3.38c NN durch ist (ca. +38 Elo) habe ich nun Stockfish 28092022 NN dev raus genommen.
Weit über 100 Züge beim Durchschnitt der Remisen waren einfach zu dick.

Schaue jetzt mal in Devre 4.0 NN und Weiss 2.1 dev.
Hatte gestern Ipman gefragt ob er Weiss kompilieren könnte.
Möchte den Angstgegner von Wasp unbedingt im Feld haben.
Die letzte Version 2.0 war von der Spielstärke zu schwach für das Feld.
Mit ca. +70 sollte Weiss 2.1 dev auf ca. 3200 Elo kommen!

Mal schauen ...

Wer verfolgen möchte:
https://www.amateurschach.de/fling/fcp_40in8_secret.html

Danach werde ich bei John mal nachfragen, er hat sicherlich auch wieder Fortschritte zu vermelden.

Viele Grüße
Frank

PS: Das Feld für einen Vergleich zu einem Test-Set mit Vorgabestellungen ist also noch nicht so ganz
100%ig, ferner ist der Test-Set noch nicht fertig.
Parent - - By Frank Quisinsky Date 2022-09-07 09:01
Weiss liegt nun leider auch bei rund 95 Züge im Durchschnitt bei den Remisen.
Das sah bei der Version 2.0 mal anders aus.
Dennoch sehr ausgewogen was ich so sehe nach den ersten Partien.
Wenn in dieses Programm NN mal rein kommt schießt es nach oben un bleibt dann sicherlich so ausgewogen wie es ist.

Bei Devre ist es wie mit anderen recht neuen Programmen die nach oben stürmen.
BlackMarlin oder auch Matissa ... es werden zu viele Partien schnell verloren und bei allen scheint durch das NN file die Stärke beim Übergang zum Endspiel zu liegen.
So sehr unterscheiden sich die Programme nicht. Man müsste die drei mal miteinander vergleichen und schauen ob die Fehler die zu schnellen Verlusten führen bei allen drei gleich sind.

Im NN Zeitalter auf Spielstiele zu achten ist schon fast ungmöglich geworden.
Es wird schwieriger auch mit Statistiken Unterschiede festzustellen bzw. ist das sehr zeitaufwendig ins Detail zu gehen.

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2022-09-09 09:01
Hallo,

es sind zu viele Test-Set Stellungen die geprüft werden müssen.
Habe ca. 400 Eröffnungspositionen die zu schnellen Gewinnen tendieren.

Später in einem neuen Thread mehr dazu.
Werde dann die Stellungen auch anbieten, denke am Sonntag.

21 Engines sind also zu viel um 400 Test-Set Stellungen zu prüfen bzw. eine Rating zu diesen Test-Set Stellungen zu produzieren.

Ich muss also die Engines von 21 auf 16 kürzen.
Das ist nicht schwierig ...

1. Nehme Weiss 2.1 dev wieder raus.
Der Zügedurchschnitt bei den Remispartien ist deutlich zu hoch (liegt bei 99 Zügen).

2. Nehme Uralochk 3.38c NN raus.
Der Zügedurchschnitt bei den Remispartien ist zu hoch (liegt bei 94 Zügen).

Schade um beide Engines, denn eigentlich stimmt der Grad an Aggressivität.
Bei Uralochka jedeoch im Vergleich zur v3.37c NN etwas nachgelassen.

3. Nehme Igel 3.1.0 NN raus.
Igel liegt auf Platz 21 (schnelle Gewinnpartien) mit 61 schnellen Verlusten (Tool von Stefan).
Im Verhältnis zur Spielstärke werden zu viele Partien schnell verloren.
Allerdings überrascht die Engine auch durch verblüffende Gewinne, daher eigentlich schade!

Ferner nehme ich zwei Nicht-Angreifer aus dem Feld:

4. Minic 3.27 NN
Bei nur 10 schnellen Gewinnen unter 60 Zügen liegt der Zügedurchschnitt bei den Gewinnpartien bei sage und schreibe 98 Zügen.

5. Nemorino 6.11 NN dev
Eine dev Version mit gleichen NN File "16".
Eigentlich spielt Nemorino sehr schönes ausgeglichenes Schach aber Nemorino ist kein Angreifer!
Bei nur 9 schnellen Gewinnen unter 60 Zügen liegt der Zügedurchschnitt bei den Gewinnpartien bei 93 Zügen.

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2022-09-09 09:33 Edited 2022-09-09 10:16
Ergibt folgendes Vergleichsturnier für den späteren Test-Set (es werden nun keine weiteren neuen Engines mehr aufgenommen).
Das Teilnehmerfeld steht mit 16 Programmen:

Mit Vergleichsturnier meine ich:
Dieses nachfolgende Turnier (siehe Link) mit Buch gegen gleiches Turnier mit Test-Set

https://www.amateurschach.de/fling/fcp_40in8_secret.html

Diese 16 Engines produzieren einen sehr guten 84,96er Zügedurchschnitt bei einer Remisquote von 58,35%
Produziert mit meinem besten FEOBOS Buch.
Diese Stats gilt es mittels Test-Set zu toppen bzw. zu vergleichen.

Code:

Games   = 12000   ( no result = 0,  FEN tags = 0 )
Players = 16   ( clusters = 1 )
Date Range: 2022.07.22 - 2022.09.09

Games with:  WhiteElo = 0   BlackElo = 0   BothElos = 0

White Wins = 3351 ( 27.93 % )
Draws      = 7002 ( 58.35 % )
Black Wins = 1647 ( 13.73 % )
White Pct = 57.1 %
Black Pct = 42.9 %

ECO:  Total = 12000  A: 1998  B: 2923  C: 2250  D: 2331  E: 2498
PlyCount:  Total = 12000  Range: 39-582  Average = 169.92  StdDev = 68.95



Den höchsten Zügedurchschnitt bei den Remisen haben nunmehr:
Stockfish 11 mit 92 Zügen
rofChade 3.0 NN mit 91 Zügen
SlowChess Blitz 2.9 NN mit 90 Zügen

Den höchsten Zügedurchschnitt bei den Gewinnpartien haben nunmehr:
rofChade 3.0 NN mit 88 Zügen
Fire 8.3 mit 86 Zügen
Viele weitere liegen bei 85 Zügen

Velvet 4.1.0 hier mit unglaublichen 73 Zügen auf Platz 1

Die wenigsten schnellen Gewinne unter 60 Zügen haben:
Seer 2.5.0 NN mit nur 3 (Seer ist kein Angreifer).
Marvin 6.0.0 NN mit 6 (aber man muss die Elo beachten).
Devre 4.0 NN mit 9

Die meisten schnellen Verluste unter 60 Zügen haben:
Devre 4.0 NN mit 61
Marvin 6.0.0 NN mit 59 (muss die Elo beachten, ist im Verhältnis zu setzen).
Xiphos 0.6 mit 57 (muss die Elo beachten, ist im Verhältnis zu setzen).

Und Wasp?
Wasp 6.00 NN hält mit 79 Zügen den niedrigsten Zügedurchschnitt im Teilnehmerfeld.
Bei den kurzen Verlusten liegt Wasp 6.00 NN auf Platz 10 (ist zurückgefallen im Kreise von "fast nur" Angreifern).
Bei den schnellen Gewinnen liegt Wasp 6.00 NN auf Platz 9 (das ist ca. normal im Kreise der Engines).

Interessant ist das bei den schnellen Gewinnen (Tool von Stefan).
Booot 6.5 im Verhältnis zur Elo auf Platz 2 liegt.

Mit dem Teilnehmerfeld für die bevorstehenden Test-Set Auswertungen bin ich jetzt sehr zufrieden.
Die 16 Engines im Feld produzieren eine durchschnittliche Elo von 3288 (wenn Shredder 13 bei 3125 Elo liegt bzw. wäre dann Stockfish 11 bei 3362).

Melde mich dann am Wochenende mit Version 1.0 von Test-Set.
Denke am Sonntag!

Devre war ein Volltreffer!
Die Engine passt super ins Feld.
Zwar kein ein Angreifer und die schnellen Verluste sind ein wenig zu hoch.
Aber für eine so junge Engine erstaunlich gut!!
Zügedurschchnitt stimmt wie bei Seer und der Spielstil gefällt mir auch sehr gut.
War hin- und hergerissen ob ich Rodent 1.0 NNSf oder Devre 4.0 NN nehme aber die Engine von einem offenbar noch sehr jungen Programmierer
belasse ich im Feld. Seer ist übrigens nicht nur eine Granate im Endspiel sondern auch im sehr späten Mittelspiel. Sicherlich ein Grund für den sehr geringen Zügedurchschnitt.
Seer ist eine wirklich sehr besondere Engine!!

14 Angreifer im Feld!!
2 Verteidiger (Seer und Devre) die richtig gute Stärken im Endspiel haben und dennoch einen geringen Zügedurchschnitt produzieren ... passt!
Devre produziert übrigines sehr gute Stats im späten Mittelspiel / Übergang Endspiel (in Abhängigkeit zur erreichten Elo).

Zügedurchschnitt ist aus mehreren Gründen wichtig, wird später ersichtlich ... wenn die Stats zum Test-Set stehen!!
Wie z. B. Zeit bei der Ermittlung vom Test-Set (bzw. Rankings aller eingesetzten Test-Set Stellungen) Zeit einsparen und natürlich auch Energie.

Viele Grüße
Frank

---

Diese 16 Engines optimieren nun in Teamwork den Test-Set ... könnte man sagen!
Parent - - By Stefan Pohl Date 2022-09-09 11:36 Edited 2022-09-09 11:43
Bin gespannt. Ich hab zwar nachwievor Zweifel, daß so ein Testset wirklich die Remisquoten sehr deutlich senken wird, aber ich freue mich darauf, ein fertiges 500er Set zu testen. Mit denselben Testbedingungen, die ich für meine UHO 2022 Eröffnungen hatte. Da habe ich ja auch 4 Standard Eröffnungssets mitgetestet. Auch meine HERT500 Stellungen und auch Feobos. Feobos war auch hier schon am Besten, aber dennoch fürs zukünftige HighEnd Computerschach natürlich unbrauchbar, weil viel zu hohe Remisquote. Etwas bessr als andere Sets reicht eben hier leider nicht mehr aus.

Code:

Stockfish 14.1 avx2 vs. KomodoDragon 2.6 avx2, 5min+3sec, singlethread, no bases, no ponder,
AMD Ryzen 3900 12-core (24 threads) notebook. Cutechess-cli. 1000 games each testrun.

Stockfish 14.1 point of view:

Balsa_v2724 openings:        1000 (+45,=951,-4),   Score: 52.0%, Elo: +14, Draws: 95.1%
Feobos c3 openings:          1000 (+121,=865,-14), Score: 55.4%, Elo: +38, Draws: 86.5%
Hert 500 openings:           1000 (+84,=904,-12),  Score: 53.6%, Elo: +25, Draws: 90.4%
Stockfish 8moves_V3:         1000 (+90,=897,-13),  Score: 53.9%, Elo: +27, Draws: 89.7%

Average result of the 4 classical openings:        Score: 53.7%, Elo: +26, Draws: 90.4%

UHO_2022_6mvs_+110_+119:     1000 (+364,=540,-96), Score: 63.4%, Elo: +96, Draws: 54.0%
UHO_2022_8mvs_+110_+119:     1000 (+340,=575,-85), Score: 62.8%, Elo: +91, Draws: 57.5%
UHO_2022_8mvs_big_+100_+129: 1000 (+327,=599,-74), Score: 62.6%, Elo: +91, Draws: 59.9%

UHO_2022_6mvs_+120_+129:     1000 (+384,=498,-118),Score: 63.3%, Elo: +96, Draws: 49.8%
UHO_2022_8mvs_+120_+129:     1000 (+387,=481,-132),Score: 62.8%, Elo: +91, Draws: 48.1%
UHO_2022_8mvs_big_+110_+139: 1000 (+388,=492,-120),Score: 63.4%, Elo: +96, Draws: 49.2%


Ich arbeite weiter an den (unbalanced) Chess324 Eröffnungssets. Daher kann ich leider keine Rechnerleistung zur Verfügung stellen.

Es ist für mich ziemlich klar, daß die UHO-Stats außer Reichweite sind (für ein ausbalanciertes Set), ich denke unter diesen Testbedingungen wäre eine Remisquote von maximal 70% schon ein großer Erfolg (und eine Elo-Spreizung von wenigstens 50-55 Elo). Aber schon diese Werte zu erreichen wäre sehr ambitioniert...Das Problem ist, schlechtere Werte sind dann schon wieder zu schlecht. Daher meine Zweifel am Erfolg. Aber ich lasse mich gerne positiv überraschen.
Parent - - By Frank Quisinsky Date 2022-09-09 12:00
Hallo Stefan,

ich habe noch 400 zu prüfen und habe 105 bislang fest!
Insgesamt hatte ich 550 und 45 sind draußen, 105 sind übrig (von den ersten 150).

Das werden keine 500 ...
Vielleicht mit Glück 425!

Wenn ich die Stellungen habe, jage ich 4 Engines mit 32 Threads und 4.4Ghz über die Stellungen.
Dann wird nochmals aussortiert was unter Umständen nicht ausgeglichen genug ist.

Insofern kann ich jetzt schon sagen es werden ca. 400!

Du brauchst 500!
Das macht aber nichts!

Die fehlenden Stellungen könnte man mit FEOBOS auffüllen.
FEOBOS ist ja auch mittels Ratingsystem optimiert. So könnte man die besten 100 dazuholen.
Das schwächt den aggressiven Test-Set etwas ab aber das wäre auch richtig so!
So haben die Nicht-Angreifer später mehr Chancen gegen Angreifer zu bestehen.

So der Plan!

---

Verfolge die Diskussionen rund um Chess324 Positionen.
Sei mir nicht böse aber ich war schon in der Zeit als Arena zu FRC / Chess960 als erste GUI kompatibel wurde kein wirklicher Fan davon.
Zwar erfüllte ich die Wünsche von Alfred (DGT) und bekniete Martin für den Support zu sorgen aber seinerzeit testeten wir schon die 960 Stellungen mit Eng-Eng komplett ab.
Dies um zu sehen welche der 960 Stellungen ausgeglichen sind. Für Reinhold Scharnagl seinerzeit ein NoGo weil alles rein musste zwecks Kompletierung.
Ein Grund warum ich das nicht mochte, denn schlechte Vorgaben werden zufällig gewählt und mithin beim Menschenschach kein ausgewogener Wettkampf.

Die 324 Stellungen sind eine Idee um das zu umgehen aber für mich ist das kein Schach mehr.
Eine eigenständige Variante die man sich ab und an mal anschaut, mehr nicht.

---

Das ist echt Arbeit und geht auf die Nerven.
Meine die Stellungen nun von Hand zu prüfen und an den besten Stellen zu kürzen.
Nach max. 40 bin ich KO und muss Pausen einlegen.
Ich hoffe ich schaffe das bis Sonntag Abend.
Ansonsten dauert es ein paar Tage länger.

Sind noch 400!!

---

Doch, doch bringt einiges.
Ich habe mit 50 der 550 Stellungen ja schon ausgiebig getestet.
Vieles ist drin was Engines herausgefunden haben und nicht in GM-Datenbanken zu finden aber wie gesagt ausgeglichen ist.
Beruht auf den fortwährenden Optimierungen nach dem FEOBOS Projekt.

Bin auch gespannt wie sich der Test-Set schlagen wird.
Später wird jede Position ein eigenes Rating haben.
Für mich selbst sind nur die TOP-100 interessant.
Mehr als 200 Partien pro Eng-Eng werde ich sicherlich niemals spielen lassen.

Viele Grüße
Frank
Parent - - By Stefan Pohl Date 2022-09-09 12:11
Ich kann auch nur 400 testen, dann sind es eben nur 800 Partien. Für einen Test ist das schon OK.
Praxistauglich sind halt für mich immer mindestens 500, damit ein 1000er Test möglich ist.
Insofern wären 500 schon besser. Sollte aber schon das 400er Set nicht gut genug sein, dann kann man an dieser Stelle abbrechen.
Hab ich immer schon empfohlen: Erst mal eine frühe Beta erstellen und sehen, obs funktioniert. Wenn nicht, kann man sich weitere Arbeit sparen.
Ich habe ja die Vergleichsmatches mit den entsprechenden Statitstiken. Ein Test mit 400 Stellungen/800 Partien ist schnell gemacht. Dauert weniger als 12 Stunden bei mir. Dann sehen wir klar, ob der eingeschlagene Weg was bringt oder eben nicht. Bzw. genug bringt.

So geschehen gerade bei meinen Chess324 Eröffnugen. Wollte dort auch NBC/NBSC Varianten anbieten (also Schwarz darf entweder gar nicht oder nur lang rochieren). Das klappte gar nicht, seltamerweise. Die Remisquoten waren zwar gut, aber die Elo-Spreizung nicht, es gab also zu viele 1:1 Paare. Also hab ich das schnell verworfen.
Parent - By Frank Quisinsky Date 2022-09-09 12:21
Hi Stefan,

schon klar ...
Will ja ein Ranking zu jeder Stellung und das ermitteln dann die 16 Engines.

Ich möchte ja selbst wissen, welche die besten 200 Stellungen sind ... die ich dann selbst zum Testen einsetzen werde.

Also:
4 Engines prüfen, bei 1-Minute pro Stellung und 32Threads, dauert das ca. eine Woche.
Bei 400 Stellungen wären das 48.000 Partien bei 16 Engines Jeder gegen jeden.
Die dauern 2 Monate und dann läßt sich kinderleich alles zu 100% bewerten.

Denke das der Test-Set dann mit knallharten Fakten zu jeder Stellung ca. Mitte November - Ende November fertig ist.

Und dann ist Schluss mit lustig.
Habe das nicht nur Dir versprochen. Auch Larry fragte vor einigen Monaten und 3 von meinen Schachfreunden.
Versprochen ist versprochen ...



Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2022-09-09 12:41
Schaue mir das später an was Du bei Chess324 gemacht hast.

Vergessen bzw. Korrektur:
Prüfen der Test-Set Stellungen mittels 48.000 Partien dauert nur einen Monat.
Lasse das mit 40 in 4 spielen, nicht mit 40 in 8.
Das reicht für den Zweck im Grunde auch aus.

Also bin ich ca. Mitte - Ende Oktober fertig.

40 in 8 macht da keinen Sinn!
Parent - - By Stefan Pohl Date 2022-09-09 12:19
Frank Quisinsky schrieb:


Verfolge die Diskussionen rund um Chess324 Positionen.
Sei mir nicht böse aber ich war schon in der Zeit als Arena zu FRC / Chess960 als erste GUI kompatibel wurde kein wirklicher Fan davon.
Zwar erfüllte ich die Wünsche von Alfred (DGT) und bekniete Martin für den Support zu sorgen aber seinerzeit testeten wir schon die 960 Stellungen mit Eng-Eng komplett ab.
Dies um zu sehen welche der 960 Stellungen ausgeglichen sind. Für Reinhold Scharnagl seinerzeit ein NoGo weil alles rein musste zwecks Kompletierung.
Ein Grund warum ich das nicht mochte, denn schlechte Vorgaben werden zufällig gewählt und mithin beim Menschenschach kein ausgewogener Wettkampf.

Die 324 Stellungen sind eine Idee um das zu umgehen aber für mich ist das kein Schach mehr.
Eine eigenständige Variante die man sich ab und an mal anschaut, mehr nicht.



Das hast du falsch verstanden. Die Idee beim Chess324 ist primär, daß man keine anderen Schachregeln braucht, wie beim Chess960, da Könige und Türme auf den normalen Positionen stehen. Somit kann man diese Eröffnungen auch mit Engines & GUIs spielen, die Chess960 nicht kennen.

Ich persönlich finde auch normale Eröffnungen wie meine UHOs besser, aber ich bin ja nun mal der Macher der AntiDraw-Eröffnungen und evaluierte, unbalanced Chess324 Sets wären da für meine AntiDraw-Eröffnungen, die ja mittlerweile diverse Konzepte umfassen, eine schöne Ergänzung.
Bisher hab ich ja schon 6 Konzepte (mittlerweile natürlich alle unbalanced, weil balanced in meinen Tests einfach nicht mehr gut genug war) realisiert, die alle exzellente Statistiken liefern:
Drawkiller V5, No Black Short Castling V2 (NBSC), No Black Castling V2 (NBC), White One More Pawn V1 (WOMP), White One More Move V1 (WOMM) and Unbalanced Human Openings V3 (UHO)

Ein 7.Konzept macht so ein Downloadpaket sicher nicht schlechter. Wers nicht mag, muß es ja nicht nutzen... Das ist der Grund, warum ich da mit Chess324 jetzt durchziehe. Chess960 kam für mich nicht in Frage, eben weil ich in meinen Eröffnungs-Sets immer sicherstellen wollte, daß normale Schachregeln ausreichen und somit alle Engines und GUIs damit zurechtkommen.
Parent - By Frank Quisinsky Date 2022-09-09 12:29
OK, verstehe ...

Wenn ich mit dem Test-Set fertig bin gehe ich in den nächsten Jahren die Buchoptimierung an.
Mein persönliches Buch mit meinen Analysen und natürlich auch vielen interessanten Varianten aus Schachbüchern.
Daran arbeite ich immer mal wenn mir langweilig ist bzw. sehr viel Zeit dafür habe.

Der Test-Set selbst beruht ausschließlich auf Computerschachpartien bzw. aus meinen Ratinglisten 40 in 6, 40 in 8, 40 in 12 und 40 in 20.
Die Idee auch GM Partien oder Fernschachpartien zu nehmen habe ich verworfen.

Im kommenden Jahr werde ich dann die besten 200 Stellungen für die Wasp-Testerei der "dev" Versionen nutzen.

Habe eigentlich gar nicht mehr so viel Lust auf Computerschach.
Wobei der Test-Set eine wirkliche Herausforderung ist und mein persönliches Buch "Zeit bis Lebensende" hat.
Lust auf Computerschach kommt und geht ... so wie das immer schon war.

Viele Grüße
Frank
Up Topic Hauptforen / CSS-Forum / Zügedurchschnitt, 21000er Turnier

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill