Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Test-Set mit ausgeglichenen Startpositionen ...
- - By Frank Quisinsky Date 2024-01-06 13:57
Hallo,

mich erreichen dazu immer mehr Fragen.
Sicherlich weil ich in meinem Download zum laufenden Turnier ein Test-Set befindet.

Peter Martan schrieb, das er sich das angesehen hat und dann nach den ersten der 3.698 Positionen feststellte, dass er eine Remisquote von 88% bei SF-Dragon erzeugte.
Klar, man kann die alle durchgehen und dann 250 rausselektieren mit 0% Remisquote bei SF-Dragon bei gleicher Bedenkzeitvorgabe.

Aber so einfach ist das nicht!!

1. Wenn bei 3+1 dann z. B. 0% Remisquote, dann bei 6+2 plötzlich 30% und bei 12+4 dann plötzlich 60% ...
2. Bei anderen Match-Konstellationen werden logischer Weise auch nie 0% erreicht, nur weil bei SF-Dragon der Fall.

Also, wenn ich herausselektierte Positionen mit steigenden Bedenkzeiten erneut teste (nichts anderes mache ich auf einem PC hier seit längerer Zeit, allerdings mit einer 8 bis max. 10-Züge Datenbank) wird immer mehr an möglichen Positionen ausselektiert und das Ergebnis ist leider ernüchternd.
Denn was verbleibt z. B. an Eröffnungen die zu 1:0, 0:1 dauerhaft führen und ausbalaciert sind ... meist die gleichen Eröffnungssysteme wie Colle, Trompowsky, Varianten aus C30 Königsgambit etc..

Das heißt nichts anderes, dass TOP-Engines zwar zunächst ausgeglichen bewerten aber 5-10 Züge später so langsam in Vorteil kommen und die Systeme zu weit mehr als 85% (aus A00-E99) gleich sind.
Meist auch unterschiedliche Engines bei exakt den verbliebenen Positionen.

Ein UHU Test-Set zu kreieren ist einfacher.
FEOBOS hat z. B. ein eigenes Bewertungssystem für jede Position.
So haben die 41.614 ein Ranking und die FEOBOS Datenbank ist nach einem Ranking sortiert.
Nehme ich die die schlechtesten Ranking Positionen und mixe die mit ausselektieren Positionen (also bevor sich die 41.614 Stellungen gebildet haben ... es waren weit mehr 200.000 3 Züge nach ECO-Code Ende) hätte ich ein UHU und wäre in 30-Minuten fertig. Dann mit den Ideen die Stefan früher hatte und sehr gut waren und sicherlich hat einfließen lassen ... Dame auf dem Brett, unterschiedliche Rochaden wäre gut etc..

So schnell läßt sich leider kein Test-Set mit ausbalancierten Positionen erstellen!

Die angebotenen 3.698 Positionen sind gut, weil genau die in meinen Turnieren zu schnellen Gewinnen geführt haben. Schnelle Gewinne gibt es meist nicht, wenn die Eröffnungen zu remislich sind. Also, von den 41.614 Stellungen wurde schon gut heruntergefitert auf 3.698 Stellungen durch den praktischen Einsatz mit Eng-Eng Matches. Allerdings kürzte ich dann auf 6-Züge. Eignet sich also gut für Experimente aber es kommt dann leider auch oft zu einer Art Ernüchterung wenn die Bedenkezeit verdoppelt, verdreifacht etc. wird oder ein Stockfish-Dragon Test-Set dann für andere Engine Match-Konstellationen herhalten muss.

---

Wenn denn wirklich ein Test-Set kreiert werden könnte ... viele Eröffnungen, viele 1:0, 0:1 Ergebnisse bei möglich auch steigenden Bedenkzeiten hätte ich ja mehr oder weniger den Stein der Weisen gefunden. Denn es wäre für alle Schachspieler interessant, welche Eröffnungen in der Turnierpraxis zu Gewinnen führen wenn den Engines auf diesem Niveau genau die in Serie produzieren. Leider ist es so, diesen Stein der Weisen zu produzieren = fast unmöglich. Weil, ändern sich die Engines durch andere Netze etc. würde auch wieder ein lange herausgearbeiteter Test-Set nicht mehr so funktionieren wie gewünscht. Das ist alles eher eine Hercules-Aufgabe etwas wirklich gutes zu produzieren und "fast" unmöglich. Und was bekanntlich fast unmöglich ist, ist reizvoll. Spielt aber keine Rolle, denn zumindest kann auch bei der gewünschten Zeitkontrolle ein netter ausbalancierter Test-Set kreiert werden. Nur "Ultimativ" wird dieser niemals werden ... es sein denn man zieht nur eine begrenzte Auswahl an Eröffnungssystemen ein. Dann scheint es so zu sein, das ein ausbalancierter Test-Set zu dem gewünschten Ergebnis führt.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2024-01-06 14:08
Achso, das Hauptproblem ist:
Alles was auf der Strecke bleibt!!

Denn wenn ich mit mehr Bedenkzeit immer mehr herausfilterte verliere ich leider auch die Postionen die plötzlich durch mehr Bedenkzeit wieder interessant werden könnten!
z. B. Holländisch Systeme

Was beim Blitz hier z. B. schnell und verstärkt in Remis endet, endet oftmals bei längeren Bedenkzeiten nicht in Remis.

War schon oft Nahe davor zu sagen:
Ich gebe es auf aber dann packt es mich wieder und ich mache immer weiter!
Auch wenn 85% der ermittelten Resultate dann eher was für den Mülleimer ist.
Parent - - By Peter Martan Date 2024-01-06 14:33 Edited 2024-01-06 14:40
Frank, was du vor allem machen solltest, wäre mit Farbwechsel spielen zu lassen, wenn du mit nicht unnötig großer Partiezahl einen statistisch möglichst signifikanten Zusammenhang zwischen dem Eröffnungsset und den Ergebnissen herstellen willst, das hab' ich damals zwischen SF und Dragon z.B. mit deinem Set ja auch gemacht.

Nur dann kannst du eine paarweise Auswertung der Ergebnisse machen, z.B. mit dem Gamepairs Rescoring Tool, da siehst du dann, wieviele der schönen ganzen Punkte in Wirklichkeit mit dem gleichseitigen Gegenpunkt gemeinsam auch ein de facto- Remispaar bilden, die Remisquote, die du unansichtig der 1:1- Paare (können natürlich auch 0-1:0-1- Paare sein) bestimmst, zeigt nur die eine Seite der Medaille.
Parent - - By Frank Quisinsky Date 2024-01-06 14:53 Edited 2024-01-06 15:02
Hallo Peter,

Farbwechsel:
Ich weiß, ist ein Aufhänger von Dir und vielleicht ist da etwas dran (streite ich nicht ab).

Grundsätzlich setze ich Farbwechsel aus drei Gründen nicht ein:

- geht nicht mit der Shredder GUI bei Turnieren mit vielen Engines oder habe ich da etwas verpasst? Vielleicht geht es wenn ich mit EPD anstatt Buch teste. Habe mir das lange nicht mehr angesehen.
- grundsätzlich denke ich, dass es egal ist wenn ausgeglichen gestartet wird (Engine Reihenfolge wird grob nicht beeinflusst). Egal, weil ich zunächst die doppelte Menge abteste bzw. an Partien mit unterschiedlichen Vorgaben produzieren kann.
- interessanter beim Zusehen wenn mehr unterschiedliche Stellungen aufs Brett kommen. Trotz Interesse an Spielstilen steht mindestens der Fun-Faktor genauso wichtig im Vordergrund.

Im Detail und auch logisch wäre es wirklich mit Farbwechsel spielen zu lassen.
Nur hätte ich das immer gemacht, hätte ich niemals so viele Positionen anbieten können.

So denke ich ...
Ja, wäre ein Ziel mit Farbwechsel spielen zu lassen wenn man denn einen Test-Set hätte um damit später genauer zu testen.
Dann wäre es also sicherlich besser den Farbwechsel einzusetzen.

Gruß
Frank

PS: Und wie immer gibt es viele weitere Haken ...
Daher muss ich streng genommen in die Partien schauen ... nur habe ich die Zeit leider nicht!!

z. B. Kurzpartie und Engine verliert aufgrund eines Fehlers.
Das ist so scheiße, sorry!
Wenn z. B. eine Engine wie Berserk Zeitprobleme bei 40 Züge in 20 Minuten vor einer Zeitkontrolle hat und dann plötzlich aufgrund von einem Zeitproblem verliert, dann wandert die Position in mein Test-Datenbank. Es ist unmöglich alle Partien zu prüfen. Einzig was verbleibt ist, ich muss solche Engines finden und aus einem Test herausnehmen. Und genau hierzu liefert mir der Zügedurchschnitt erstklassige Informationen.

Oder anders ... ich filtere bei den Engines immer mehr aus.
So das ich letztendlich noch 20 einsetzen werde die mir helfen bei dem Ziel einen schönen Test-Set zu kreieren.
Ich bin gespannt welche der Positionen im laufenden Turnier zu 1.0, 0:1 auf einem höheren Niveau erzeugen. Die schaue ich mir dann natürlich im Detail an und wahrscheinlich sind es auch die, die sich dann für einen Test-Set sehr gut eignen (bei längeren Bedenkzeiten und mithin meist auch bei kürzen Bedenkzeiten).
Parent - - By Reinhold Stibi Date 2024-01-06 15:00
Tests ohne Farbwechsel ist sehr schlecht; nimm doch die Fritz GUI da ist
das ohne weiteres möglich.
Das ist kein Aufhänger von Peter sondern Grundsatz; das solltest du doch 
eigentlich wissen.
Gruß
Reinhold
Parent - - By Frank Quisinsky Date 2024-01-06 15:09 Edited 2024-01-06 15:13
Hallo Reinhard,

bei der Fritz GUI kann ich andere Dinge nicht darstellen wie z. B. bei der Shredder GUI.
Viele Rechner im Netzwerk einbinden ist jetzt nur ein Aufhänger.

Hatte ich letztens mal geschrieben warum die Shredder GUI.
Hast Du Dir mal den RAM Verbrauch bei der Fritz GUI angesehen.
Und die dann 16x starten bei 16-Cores um viele Partien zu produzieren etc., etc..

GUI ist also für das was ich mache wirklich nicht geeignet.
Sicherlich eine schöen GUI für den ganz normalen Einsatz.

Und bei Farbwechsel schrieb ich ja warum und weshalb.
In mehr als 85% der Fälle ist es nicht die Eröffnung die ein Engine-Resultat beeinflusst wenn die Stellungen ausgeglichen sind.
Eher sind es Fehler im Spiel und meist dann heute im Übergang zum Endspiel.
Der Übergang zum Endspiel hat wenig mit der Eröffnung zu tun bzw. nur maximal dann, wenn z. B. Bauernstrukturen langfristig im Weg sind.
z. B. Benoni oder andere Systeme, die Engines auf höchsten Niveau einfach nicht mögen weil zurückhängende Bauern langfristig nicht gut sind.

Grundsätzlich streite ich aber nicht ab das Testen mit einem Test-Set und Farbwechsel eine Müh genauer ist, mehr nicht.

Muss ich leider drauf verzichten wenn ich mir möglich viel ansehe und möglich viele Engines dafür einsetze. Die Engines sollen im Teamwork finden, nicht ich!
Hätte ich ein finales Resultat würde ich mit an Sicherheit grenzender Wahrscheinlichkeit mit Farbwechsel spielen lasse.
Auch würde ich mit an Sicherheit grenzender Wahrscheinlichkeit andere GUIs einsetzen, mich begeistert z. B. Cutechess hier.
Aber das wäre dann eher etwas wenn der Weg zum Ziel erreicht ist.

Außerdem, ist auch gegen normales Schach.
Wird in der Bundesliga mit Farbwechsel gespielt?

Will ja immer alles so normal wie möglich aussehen lassen um für Beobachter davon weg zu kommen.
Schau mal ... alles wieder typische Computerschächler Regeln die nichts mit der Realität zu haben.

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2024-01-06 15:32
Testen ist wirklich schwierig und wenn man das länger macht und x-Mal alles mögliche ausprobiert hat wird es gar schwieriger.

Flitzt ja niemand 3x gegen die selbe Wand freiwillig.
Wenn schon, dann sucht man sich eher 3 verschiedene Wände aus dann fällt das einem selbst auch nicht so sehr auf.

Parent - - By Peter Martan Date 2024-01-06 15:24 Edited 2024-01-06 15:39
Frank Quisinsky schrieb:

- geht nicht mit der Shredder GUI bei Turnieren mit vielen Engines oder habe ich da etwas verpasst? Vielleicht geht es wenn ich mit EPD anstatt Buch teste. Habe mir das lange nicht mehr angesehen.

Natürlich geht das mit dem Shredder GUI aus einer Datenbank heraus, .pgn- Format muss sie haben, nicht .epd, aber ich hab's gerade erst bei ChessBrain wieder mit Shredder so probiert, weil der im Cutechess nicht laufen wollte.
Zitat:

- grundsätzlich denke ich, dass es egal ist wenn ausgeglichen gestartet wird

"Ausgeglichen" hängt aber eben von den Engines ab.
Zitat:

Ich bin gespannt welche der Positionen im laufenden Turnier zu 1.0, 0:1 auf einem höheren Niveau erzeugen. Die schaue ich mir dann natürlich im Detail an und wahrscheinlich sind es auch die, die sich dann für einen Test-Set sehr gut eignen (bei längeren Bedenkzeiten und mithin meist auch bei kürzen Bedenkzeiten).

Was du aber wohl immer mit 1:0 0:1 meinst?
Für mich wären das Partiepaare (die aber nur mit Farbwechsel vorkommen können), bei denen dieselbe Eröffnung zwischen 2 Engines einmal von weißer und einmal von schwarzer gewonnen würde. Solche Stellungen sind heutzutage ein ganz seltener Ausnahmsfall, der bedeutet, dass die eine Engine die Eröffnung sehr viel besser behandelt, als die andere. Single best move- Stellungen, deren einzig richtiger Zug auch ein single game changer ist, können so etwas produzieren, wenn dieser single best move, eventuell die erst paar solchen forcierten besten Züge von der einen Engine gefunden werden und von der anderen nicht, sie eignen sich aber Eng-Eng-Matches insbesondere dann nicht, wenn man von "ausgeglichenen" Stellungen aus spielen lassen will. Solche Ausnahmsstellungen können sich auch in einem sehr dynamischen Gleichgewicht befinden, aber forcierte Abspiele, die entweder forciert gewinnen oder forciert verlieren, sind gut für Stellungstests, die man nicht ausspielen lassen muss, weil mit dem ersten Zug oder wenigen ersten schon klar sein sollte, wie's ausgeht.
Ich nehme also an, du meinst Stellungen, die beim Farbwechsel mit 1-0 (oder 0-1) und mit Remis in der Gegenpartie ausgehen.
Parent - - By Frank Quisinsky Date 2024-01-06 15:44 Edited 2024-01-06 15:49
Also, ich wüsste nicht wie bei der Shredder GUI innerhalb von Turnieren.
Überlege mal, bei 44 Engines im Turnier gibt es 946 Match-Konstellation bei "Jeder gegen Jeden".

Stefan machte ja bei seiner Denke ein paar Fehler:

*.sto File:
Chunksize=999

Würde ich jetzt mit 46 Engines spielen wäre ich drüber.
Dann müsste ich den Wert "Chunksize" händisch ändern.
Und so gibt es so vieles, was bei der Shredder GUI nicht dokumentiert ist oder wo die Standard Einstellung nicht so gut gewählt wurde.
Hätte man Chunksice auch getrost auf 99999 Standard setzen können.

Auf der andere Seite: Wer läßt unter einer GUI mehr als 46 Engines pausenlos gegen sich selbst spielen.
Typen wie Quisinsky z. B. ... so extrem gehen wenige vor.

Farbwechsel geht natürlich auch mit der Shredder GUI bei einem Eng-Eng Match.
Nur bei einem Turnier müsste sich die GUI dann bei 44 Engines 946 Match Konstellation merken um dann den Farbwechsel zu produzieren.
Glaube eher das Stefan bei der Programmierung darauf keinen Bock hatte.

Ausgeglichen ist auch nicht unbedingt ein Problem.
Fragte ja Ed nach einem Tool dafür und er hat es programmiert.

Schaue hier:

Code:

Tournament : pgn\fcp-tourney-2024.pgn
Output     : pgn\fcp-tourney-2024.txt
Games      : 13.120
Type       : black
White POV  : y

Engine                      Games    [1]    [2]    [3]    [4]    [5]    [6]    [7]    [8]   Result
Stockfish 16 NN               320  -0.30  -0.26  -0.23  -0.20  -0.18  -0.16  -0.14  -0.11    57.5%
Dragon 3.3 NN (Komodo)        320  -0.36  -0.32  -0.31  -0.27  -0.24  -0.22  -0.19  -0.17    57.3%
CSTal 2.00 NN                 320  -0.52  -0.49  -0.48  -0.45  -0.40  -0.37  -0.35  -0.33    55.3%
Berserk 12 NN                 320  -0.32  -0.30  -0.27  -0.26  -0.23  -0.21  -0.19  -0.17    55.2%
RubiChess 20230918 NN         320  -0.27  -0.27  -0.27  -0.24  -0.24  -0.23  -0.22  -0.20    54.8%
Caissa 1.14.1 NN              320  -0.51  -0.49  -0.45  -0.43  -0.42  -0.39  -0.36  -0.34    53.6%
Revenge 3.0 NN                320  -0.34  -0.32  -0.31  -0.31  -0.30  -0.28  -0.29  -0.27    53.4%
Igel 3.5.0 NN                 320  -0.60  -0.59  -0.58  -0.56  -0.51  -0.48  -0.45  -0.45    52.2%
Uralochka 3.40a NN            320  -0.26  -0.27  -0.25  -0.25  -0.26  -0.24  -0.23  -0.22    51.4%
Clover 6.1 NN                 320  -0.38  -0.37  -0.37  -0.36  -0.35  -0.33  -0.31  -0.31    51.3%
Obsidian 8.0 NN               320  -0.36  -0.36  -0.34  -0.32  -0.30  -0.28  -0.26  -0.23    51.1%
rofChade 3.1 NN               320  -0.50  -0.46  -0.44  -0.43  -0.41  -0.40  -0.39  -0.36    50.8%
Seer 2.7.0 NN                 320  -0.43  -0.42  -0.41  -0.39  -0.37  -0.35  -0.33  -0.32    50.5%
Rebel EAS NN                  320  -0.68  -0.65  -0.61  -0.58  -0.57  -0.51  -0.50  -0.47    50.3%
Koivisto 9.2 NN dev (hotfix)  319  -0.48  -0.46  -0.44  -0.41  -0.39  -0.38  -0.37  -0.34    49.7%
Viridithas 11.0.0 NN          320  -0.31  -0.30  -0.29  -0.28  -0.27  -0.26  -0.26  -0.24    49.2%
Alexandria 5.1.0 NN           320  -0.65  -0.61  -0.56  -0.54  -0.50  -0.46  -0.45  -0.44    49.1%
Arasan 24.0 NN                320  -0.74  -0.71  -0.69  -0.68  -0.62  -0.59  -0.56  -0.54    48.4%
SlowChess Blitz 2.9 NN        319  -0.32  -0.31  -0.30  -0.30  -0.29  -0.28  -0.27  -0.25    47.3%
Fire 9.2 NN                   320  -0.18  -0.16  -0.16  -0.15  -0.15  -0.15  -0.15  -0.15    44.5%
Minic 3.39 NN                 320  -0.82  -0.82  -0.80  -0.80  -0.79  -0.77  -0.80  -0.78    43.3%
Carp 3.0.1 NN                 320  -0.25  -0.25  -0.24  -0.24  -0.23  -0.23  -0.22  -0.22    42.7%
Fritz 19 NN (Gingko)          320  -0.33  -0.32  -0.31  -0.30  -0.29  -0.29  -0.30  -0.29    42.0%
Booot 7.2 NN                  320  -0.40  -0.39  -0.39  -0.40  -0.40  -0.39  -0.40  -0.40    40.2%
Altair 6.0.0 NN               320  -0.30  -0.30  -0.29  -0.29  -0.28  -0.27  -0.27  -0.26    37.8%
Black Marlin 8.0 NN           320  -0.42  -0.40  -0.39  -0.37  -0.36  -0.36  -0.35  -0.35    37.2%
Superultra 1.0 NN             320  -0.41  -0.39  -0.40  -0.40  -0.40  -0.40  -0.40  -0.40    36.7%
Stormphrax 3.0.0 NN           320  -0.26  -0.26  -0.25  -0.23  -0.24  -0.24  -0.24  -0.25    35.2%
Velvet 5.3.0 NN               320  -0.30  -0.30  -0.31  -0.31  -0.33  -0.32  -0.33  -0.35    33.1%
Wasp 6.61 NN dev              320  -0.26  -0.26  -0.27  -0.28  -0.29  -0.32  -0.33  -0.35    33.0%
Akimbo 0.7.0 NN               320  -0.68  -0.67  -0.66  -0.64  -0.63  -0.64  -0.66  -0.67    31.1%
Devre 4.0 NN                  320  -0.44  -0.44  -0.43  -0.44  -0.46  -0.45  -0.46  -0.47    30.0%
Texel 1.10 NN                 320  -0.32  -0.32  -0.32  -0.31  -0.32  -0.33  -0.33  -0.34    29.8%
BlackCore 6.0 NN              320  -0.33  -0.33  -0.30  -0.30  -0.31  -0.32  -0.33  -0.33    29.7%
Nemorino 6.11 NN dev          320  -0.44  -0.43  -0.43  -0.43  -0.42  -0.43  -0.44  -0.44    29.4%
Halogen 11.4 NN               320  -0.44  -0.43  -0.42  -0.42  -0.42  -0.43  -0.43  -0.45    29.1%
Pawn 2.0 NN                   320  -0.26  -0.26  -0.26  -0.26  -0.27  -0.27  -0.28  -0.30    28.0%
Smallbrain 7.0 NN             320  -0.30  -0.30  -0.30  -0.31  -0.31  -0.32  -0.34  -0.36    27.2%
Marvin 6.2.0 NN               320  -0.39  -0.40  -0.40  -0.40  -0.41  -0.42  -0.45  -0.46    26.9%
Chess.cpp 4.0 NN              320  -0.28  -0.27  -0.29  -0.31  -0.30  -0.31  -0.33  -0.34    26.6%
Willow 3.1 NN                 320  -0.39  -0.39  -0.38  -0.39  -0.41  -0.42  -0.43  -0.47    25.2%
                                1   0.00   0.00   0.00   0.00   0.00   0.00   0.00   0.00     0.0%


Code:

Tournament : pgn\fcp-tourney-2024.pgn
Output     : pgn\fcp-tourney-2024.txt
Games      : 13.120
Type       : white
White POV  : y

Engine                      Games   [1]   [2]   [3]   [4]   [5]   [6]   [7]   [8]   Result
Stockfish 16 NN               320  0.33  0.36  0.38  0.39  0.42  0.44  0.46  0.48    79.4%
Dragon 3.3 NN (Komodo)        320  0.38  0.39  0.40  0.42  0.42  0.45  0.46  0.49    78.4%
Berserk 12 NN                 320  0.38  0.40  0.41  0.42  0.44  0.47  0.49  0.51    75.6%
RubiChess 20230918 NN         320  0.33  0.34  0.36  0.37  0.38  0.39  0.41  0.43    69.5%
Caissa 1.14.1 NN              320  0.52  0.54  0.56  0.57  0.59  0.61  0.64  0.67    69.2%
CSTal 2.00 NN                 320  0.55  0.58  0.60  0.63  0.63  0.67  0.71  0.74    67.5%
rofChade 3.1 NN               320  0.55  0.57  0.56  0.58  0.60  0.60  0.61  0.62    67.3%
Igel 3.5.0 NN                 320  0.64  0.66  0.68  0.69  0.71  0.73  0.75  0.79    67.0%
Clover 6.1 NN                 320  0.45  0.47  0.49  0.51  0.54  0.56  0.60  0.62    66.9%
Rebel EAS NN                  320  0.74  0.76  0.77  0.77  0.76  0.80  0.79  0.83    65.8%
Uralochka 3.40a NN            320  0.29  0.30  0.33  0.36  0.37  0.39  0.41  0.45    65.8%
Obsidian 8.0 NN               320  0.38  0.40  0.42  0.44  0.44  0.47  0.49  0.51    65.3%
Revenge 3.0 NN                320  0.34  0.36  0.38  0.39  0.41  0.43  0.44  0.47    64.5%
Koivisto 9.2 NN dev (hotfix)  319  0.54  0.56  0.59  0.60  0.64  0.65  0.66  0.68    64.7%
Viridithas 11.0.0 NN          320  0.35  0.36  0.37  0.38  0.40  0.40  0.41  0.43    63.8%
Alexandria 5.1.0 NN           320  0.70  0.72  0.72  0.74  0.76  0.77  0.81  0.82    63.3%
Seer 2.7.0 NN                 320  0.47  0.48  0.49  0.49  0.52  0.52  0.53  0.54    62.3%
SlowChess Blitz 2.9 NN        319  0.34  0.35  0.35  0.37  0.37  0.37  0.38  0.40    61.6%
Arasan 24.0 NN                320  0.80  0.83  0.86  0.90  0.90  0.93  0.96  0.97    59.5%
Minic 3.39 NN                 320  0.88  0.92  0.91  0.92  0.95  0.94  0.97  0.95    59.1%
Fire 9.2 NN                   320  0.20  0.23  0.24  0.25  0.25  0.26  0.26  0.27    58.6%
Fritz 19 NN (Gingko)          320  0.34  0.36  0.36  0.36  0.37  0.38  0.38  0.40    57.2%
Booot 7.2 NN                  320  0.41  0.43  0.45  0.48  0.50  0.52  0.53  0.55    56.7%
Carp 3.0.1 NN                 320  0.30  0.32  0.33  0.33  0.34  0.34  0.34  0.35    54.8%
Superultra 1.0 NN             320  0.45  0.46  0.47  0.47  0.48  0.47  0.47  0.49    54.2%
Wasp 6.61 NN dev              320  0.41  0.42  0.41  0.42  0.42  0.42  0.42  0.42    53.4%
Velvet 5.3.0 NN               320  0.32  0.34  0.35  0.37  0.39  0.41  0.41  0.43    53.3%
Black Marlin 8.0 NN           320  0.46  0.48  0.49  0.50  0.51  0.51  0.52  0.53    52.0%
Stormphrax 3.0.0 NN           320  0.30  0.32  0.32  0.32  0.32  0.32  0.32  0.31    51.9%
Altair 6.0.0 NN               320  0.33  0.34  0.36  0.37  0.37  0.37  0.37  0.37    51.7%
Akimbo 0.7.0 NN               320  0.72  0.76  0.79  0.84  0.81  0.83  0.83  0.83    49.7%
Texel 1.10 NN                 320  0.32  0.33  0.35  0.35  0.35  0.34  0.35  0.34    48.1%
BlackCore 6.0 NN              320  0.37  0.38  0.40  0.39  0.40  0.40  0.42  0.41    46.7%
Marvin 6.2.0 NN               320  0.39  0.41  0.42  0.42  0.43  0.41  0.40  0.39    46.6%
Smallbrain 7.0 NN             320  0.32  0.33  0.34  0.34  0.35  0.34  0.33  0.33    45.9%
Devre 4.0 NN                  320  0.46  0.47  0.48  0.47  0.48  0.49  0.47  0.49    45.2%
Halogen 11.4 NN               320  0.44  0.45  0.44  0.45  0.45  0.45  0.43  0.42    45.0%
Pawn 2.0 NN                   320  0.27  0.29  0.31  0.31  0.31  0.31  0.30  0.29    45.0%
Nemorino 6.11 NN dev          320  0.45  0.46  0.49  0.48  0.49  0.49  0.49  0.50    44.1%
Willow 3.1 NN                 320  0.42  0.44  0.45  0.46  0.46  0.45  0.46  0.46    41.7%
Chess.cpp 4.0 NN              320  0.32  0.34  0.33  0.34  0.30  0.31  0.29  0.30    41.7%
                                1  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.00     0.0%


Du siehst also wie Engines durchschnittlich die ersten 8 Züge nach dem Buch bewerten.
Wenn z. B. Alexandria als weißer mit 0,70 oder höher bewertet heißt das nicht, das die Position nicht ausgeglichen wäre.
Klar, wenn für fast alle andere die Position ausgeglichen ist.
Wir lassen uns von den evals viel zu sehr beeindrucken.

Dieses Tool ist geil ...
Ich setze es jetzt bei jeder Test-Set Position ein und schaue mir an ob Engines mir in heller Aufregung und im Teamwork präsentieren ob wirklich etwas nicht ausgeglichen ist.

Eine wahnsinnige Zeitersparnis and good to have.

Gruß
Frank
Parent - By Frank Quisinsky Date 2024-01-06 15:54
Was Arasan vorgaukelt ist echt krass!
Erinnert ein wenig an iCE.

Aber ein Programmierer wie Jon Dart (absoluter Eröffnungsprofi) macht das nicht ohne Sinn.
Wahrscheinlich will er ein wenig filtern um zu sagen ... grundsätzlich eher schlecht fürs Computerschach.

Arasan ist echt eine sehr besondere Engine, aus vielen weiteren Gründen!

Insofern muss man im Detail schauen wenn Arasan hohe Bewertungen ausgibt, auch wenn der Groh der Großmeister etwas als völlig ausgeglichen sehen muss es für Engines langfristig nicht so sein!!
Denn es ist zu beobachten das tatsächlich Arasan nie eine Partie (bei langen Bedenkzeiten) gewinnt, wenn die Bewertung schon so krass negativ startet, ob für alle anderen ausgeglichen oder nicht!!

bei Rebel siehst Du vergleichbares!
Auch Ed beschäftigt sich sehr lange mit Eröffnungen!!
Parent - - By Peter Martan Date 2024-01-06 15:54 Edited 2024-01-06 15:56
Frank Quisinsky schrieb:

Also, ich wüsste nicht wie bei der Shredder GUI innerhalb von Turnieren.

Frank, genau so wie beim Einzel- Match. Ganz unten in der Maske gibst du statt der Bücher unter "Eröffnungen" mit Auswahl des Verzeichnisses, in dem sich deine Eröffnungsdatenbank im .pgn- Format befindet, deren Pfad ein und es läuft.
Was ich bei der Gelegenheit allerdings auch jetzt erst bemerke: die Option Farbwechsel wird in dieser Maske des Turniers nicht mehr angeboten, jetzt müsste man dann ausprobieren, ob's bei mehreren Engines nicht trotzdem automatisch mit Farbwechsel gespielt wird, wenn aus einer Eröffnungsdatenbank. Wenn nicht, wäre das tatsächlich ein Manko im Shredder- GUI, als möglicher workaround fiele mir dann nur ein, die verschiedenen Gegnerschaften als lauter einzelne Matches mit Farbwechsel zu starten, mühsam.
Parent - - By Frank Quisinsky Date 2024-01-06 15:59
Hi Peter,

genau, dass meinte ich damit ... lange nicht mehr gestestet.
Muss es ausprobieren anhand von einem Turnier ob es geht.

Mache ich demnächst ... hier sind derzeit alle Rechner beschäftigt.

Gibt weitere Mankos in der Shredder-GUI.
Die ist noch lange nicht so perfekt wie früher immer dargestellt wurde, als ich bei Arena aktiv war war und Ingo Bauer seine Vorträge über die Shredder GUI gehalten hat.

Aber, die Shredder GUI ist zumindest gut und für vieles im Test-Bereich sehr gut einsetzbar und für einiges besser als jede andere GUI.

Viele Grüße
Frank
Parent - - By Peter Martan Date 2024-01-06 19:56 Edited 2024-01-06 20:01
Frank Quisinsky schrieb:

Muss es ausprobieren anhand von einem Turnier ob es geht.

Hab's schon probiert, Farbwechsel findet bei einem Turnier automatisch statt, wenn du eine Eröffnungsdatenbank wählst. Es wird nicht pro Partiepaar die Seite mit derselben Stellung gewechselt, sondern pro Durchgang.
Parent - - By Frank Quisinsky Date 2024-01-06 21:14
Ach so, habe Farbwechsel falsch beschrieben mit dem was ich meinte!
Gewählte Position aus einem Buch dann bei der zweiten Partie mit Farbwechsel wiederholen.
Sorry, meinte das ... habe mich unglücklich ausgedrückt.

Aber der Hinweis mit dem Durchgang ist gut.
Nur ist das ja nicht genau das was wir wollen.
Wobei auch gut, sollen alle Match-Konstellation im Durchgang 1 die gleiche Position spielen, mit weiß und mit schwarz.

Insofern macht es Shredder dann doch nur halb richtig.

Aber wie gesagt, beim Eng-Eng Match funktioniert das natürlich.

Versuche mich gerade daran zu erinnern wie es bei Arena war.
Da gab es mal etwas in der Rubrik "Wünsche und Fehler". Dort habe ich alles gesammelt was von Forumsmitgliedern kam.
War Martin nicht so Recht wenn alle dauerhaft immer auch die Fehler gesehen haben.
Glaube der Hinweis kam zum Ende der Zeit, bevor wir das Forum geschlossen haben.

Kann mich auch nicht mehr an alles erinnern und müsste dann wieder in den vielen gesammelten Daten nachsehen.
So ganz nach Trappatoni ... Flasche leer.
Parent - - By Peter Martan Date 2024-01-06 21:20 Edited 2024-01-06 21:30
Frank Quisinsky schrieb:

Ach so, habe Farbwechsel falsch beschrieben mit dem was ich meinte!
Gewählte Position aus einem Buch dann bei der zweiten Partie mit Farbwechsel wiederholen.
Sorry, meinte das ... habe mich unglücklich ausgedrückt.

Aber der Hinweis mit dem Durchgang ist gut.
Nur ist das ja nicht genau das was wir wollen.
Wobei auch gut, sollen alle Match-Konstellation im Durchgang 1 die gleiche Position spielen, mit weiß und mit schwarz.

Insofern macht es Shredder dann doch nur halb richtig.

Aber wie gesagt, beim Eng-Eng Match funktioniert das natürlich.

Und warum beim Turnier nicht?
Bei den TCEC- Turrnieren ist es auch immer wieder mal so, dass nur rundenweise farbgewechselt wird. Soviel ich weiß, funktioniert das sogar auch fürs Gamepairs Rescoring Tool, es muss nur jede Eröffnung genau 2x in derselben selben head to head- Paarung vorkommen, unabhängig von der Reihenfolge, in der wiederholt wird. Stefan Pohl oder jemand anders möge mich korrigieren, wenn ich mich irre. Wenn ich mal wieder nichts Besseres zu tun habe, werd ich's ausprobieren, der Readme des Tools entnehme ich es eher so wie geschildert.
Zitat:
2) Each opening is played exactly 2 times in each head-to-head (each engine plays it with white and black)
Parent - - By Frank Quisinsky Date 2024-01-06 21:33 Edited 2024-01-06 21:38
Hi Peter,

weiß ich nicht!
Schrieb ja anhand von einem Beispiel bei 44 Engines ... Shredder müsste sich über 900 mögliche Engine Paarungen merken um dann beim Farbwechsel die identische Buchvorgabe zu laden.
Das ist sicherlich nicht ohne zu programmieren!

In Shredder ist wie gesagt einiges nicht korrekt aber meist tiefer verborgene Probleme.

z. B. dieses rieisige UCI-Menue von Lc0 oder z. B. das von Deuterium (Programm von Ferdinand).
Speichere mal etwas bei den UCI Optionen und schaue Dir an ob das im *.eng File auftaucht wenn denn der Eintrag ziemlich weit hinten ist.

Gibt also eine Begrenzung bei Shredder die besagt:
Nicht mehr als x UCI Optionen, wie so viele andere Begrenzungen.

Mithin ist ein Deuterium nicht testbar.
Und bei Lc0 geht es nur deswegen, weil wichtiges in einer config Datei abgelegt werden kann.

Tja, was erwartet wird und letztendlich durchführbar ist sind auch immer zwei verschiedene Dinge.

Erinnere mich aber, dass wenn ich mit einer EPD teste geht es bei Shredder auch mit der Option "Einer gegen Alle".

Genau wie das blöde (book in *.pgn Dateien am Ende der Partie). Kommt der Zug direkt aus syzygy wird bei einigen Engines book ausgegeben.
Und x von diesen Kleinigkeiten sind wirklich ärgerlich.

Ed hat ein schönes Tool, welches Buchzüge zählt.
Funktioniert nicht, wenn die PGN von Shredder kommt und so funktioniert dieses und jenes nicht und Fehler werden nicht korrigiert.

Hatte Stefan vor ca. 2 oder 3 Jahren eine Liste der ganzen gesammelten Fehler gesendet, dann kam eine Antwort weil er einiges
nicht verstanden hat. Erläuterte dann im Detail und dan kam nichts mehr.

Gruß
Frank
Parent - By Frank Quisinsky Date 2024-01-06 21:43 Edited 2024-01-06 22:07
Egal, muss man mit leben ...
Ist wie gesagt so, dass mir andere GUIs nicht das bieten können wie ich teste.
Auch nicht CuteChess, wobei CuteChess einiges hat was richtig gut ist.

So genug ...
Habe mich müde geschrieben.

Ah, vergessen ...
Ich beame die 16 laufenden Shredder Matches zum TV.
Nutze die Maus als Fernbedienung und habe 16 Eng-Eng Kanäle.



Und das Problem ist, viele Anzeigen sind dann dennoch zu klein, obwohl der TV riesig ist.

Als ich bei Arena aufhörte arbeite ich mit Martin gerade daran folgendes zu tun.
Nur das anzeigen zu lassen was von weiterer Entfernung wichtig ist.

Also übergroße Darstellung der Stellungsbewertung der besten 4 Züge etc..
So wurde die ganze GUI bei der Darstellung umgekrämpelt und das war für Martin
wahnsinnig viel Arbeit. Dann endete meine Mitarbeit.
Ich weiß nicht was daraus geworden ist. Es grenzten viele weitere Ideen an der
neuen Darstellung aber die sind dann alle in einer Liste auch ins Nirwana gegangen.

Wenn z. B. tools das machen worüber wir diskutierten und die dann im Textmode kann
man nicht zuschauen. Kann mir schon vorstellen wie einige Programmierer testen ohne
das überhaupt ein Schachbrett angezeigt wird. Nur ohne Schachbrett sehe ich nichts.
Kann zwar auch blind spielen aber dafür muss ich mich wahnsinnig konzentrieren und
ganz sicher keine 16 laufende Partien, sondern heute vielleicht maximal 2.

Ein gut bekannter Programmierer macht mir gerade folgendes:
Wenn in einem der 16 Matches Wasp spielt sehe ich ein Lichtsignal auf einem zweiten
Bildschirm und sehe gleichzeitig die Partienummer.
Dann beame ich mit einem Klick zum richtigen Match ohne das ich 16 Kanäle durchsurfen
muss. Auch daraus könnten viele weitere Ideen anknüpfen. Ist aber nur Spielerei.
Up Topic Hauptforen / CSS-Forum / Test-Set mit ausgeglichenen Startpositionen ...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill