Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Gedanken zu meinem nächsten Turnier ... ein MA-Turnier!
- - By Frank Quisinsky Date 2023-11-18 19:11 Edited 2023-11-18 20:01
Hallo zusammen,

ich denke ich brauche noch ca. 4 Wochen, bis ich genug Ergebnisse und Eindrücke zu den aktuellen TOP-60 habe.
Im Anschluss möchte ich dann ein neues Turnier starten, bei dem ich die Zeitkontrolle weiter steigere.

1. Zeitkontrolle: 60 Züge in 60 Minuten + 6 Sekunden Aufschlag pro Zug
2. Zeitkontrolle: Rest in 30 Minuten + 3 Sekunden Aufschlag pro Zug

Ferner setze ich anstatt 5-Steiner dann 6-Steiner ein und erhöhe die Hash-Tables von 768Mb auf 1Gb.
Auch dieses Turnier dann wieder ohne Aufgabefaktor, gespielt wird bis Matt oder Remis.

Um unnötige Zeit nicht zu verplempern und beim Zusehen mehr Spaß zu haben muss ich bei den TOP-60 aussortieren.
Engines die einen zu hohen Züge-Durchschnitt haben oder auch Engines die einfach zu lange zum Matt setzen benötigen nehme ich heraus.

Von den im laufenden Turnier bislang 59 Engines getesteten Engines qualifizieren sich 33 sowie zusätzlich 8 Engines, die sich in der Vergangenheit bewährt haben.

Zunächst eine Excel ...



Die in Gelb hinterlegten Engines haben sich schon bewährt aber sind derzeit nicht mehr im aktuellen Turnier vertreten, weil nicht innerhalb der TOP-41.
Also, Mantissa, Nalwald, Midnight, Hiarcs, Frozennight und Tucano. Hier schaut der Durchschnitt der Züge bei einer Partie bzw. auch die durchschnittliche Länge einer Gewinnpartie OK aus.

Von Obsidian und chess.cpp habe ich noch keine Eindrücke gesammelt.
Diese beiden starten morgen mit weiteren 3 Updates in einer Updaterunde bei meinem laufenden Turnier:

Laufendes Turnier:
https://www.amateurschach.de/fling/fcp-tourney-2024.html

In grün also 33 Engines die sich derzeit qualifiziert haben (unter Vorbehalt da zwei noch nicht getestet sind).

Darunter dann in Rot Engines die ich herausnehmen werde.
Hierzu muss man sagen das sich der Züge-Durchschnitt der grünen Engines natürlich weiter minimiert, wenn die roten nicht in der Statistik wären.
Derzeit liegt der Züge-Durchschnitt bei 96 Zügen.

Ich könnte diesen schätzungsweise auf 88 Züge minimieren bei einer deutlich geringen Remis-Quote und bei deutlich mehr Kurzsiegen und mithin macht Zusehen mehr Spaß!

Nun, wenn sich 33 qualifizieren kommen 8 hinzu:
Ein bissel Pfeffer in die Suppe ...

1. Andscacs 0.1 NNSf dev (nutze das NN file was Norman Schmidt auch für Hakkapeliitta 3.0 NNSf anbietet).
In meiner letzten Ratingliste produzierte Andscacs 0.1 NNSf dev mit 82 Zügen einen hervorragenden Züge-Durchschnitt bei vielen kurze Gewinnpartien.

2. Hakkapeliitta 3.0 NNSf von Norman Schmidt erstellt ... Programm ist von Mikko Aarnos (Finnland).
Eine Lieblings Engine von mir, die durch Neural-Network gut ins Feld passt (von der Spielstärke her gesehen wäre Hakkapeliitta ohne NN zu schwach).

3. Shredder 13
Sehr stark im Endspiel und schwächer in der Königssicherheit ... ein gefundenes Fressen für die taktisch starken Engines hinsichtlich schneller Gewinnpartien.
Allerdings werden die Taktiker sich dann wieder im Endspiel die Zähne ausbeißen.

4. Fritz 16 (Rybka)
Verliert viel zu viele Partien sehr schnell. An dieser Engines können sich die Taktiker austoben und viele schnelle Gewinnpartien produzieren.
Ich brauche solche Engines im Feld damit die Statistik zu kurzen Gewinnpartien besser wird.
Allerdings gilt gleiches wie bei Shredder 13, die Engine ist im Endspiel sehr spielstark.
-Punchingball -

5. DanaSah 9.1 NN
Wäre derzeit nicht in den TOP-50 aber knapp dahinter. Das Programm erspielt sehr viele kurze Gewinnpartien gegen ca. gleichstark oder minimal stärker,
vergleichbar wie Velvet, Texel, Wasp mit dem Unterschied das DanaSah auch verhältnismäßig viele Partien schnell verliert.

6. Chiron 5.01
Immer für eine Überraschung gut. Wie auch bei den vorgenannten 5 ist der Züge-Durchschnitt deutlich unter 90 (ohne Aufgabefaktor).
OK, Shredder 13 und Xiphos 0.6 produzieren einen Zügedurchschnitt von 88-89 Zügen.

7. Fizbo 2.0
Vielleicht kann Norman Schmidt hier auch eine NN-Version erstellen?! Habe mal nachgefragt!
Fest steht, das Programm opfert wild im späten Mittelspiel ... kann schnell gewinnen aber auch schnell verlieren.
Eine absolute Bereicherung beim Spielstil.

8. Xiphos 0.6
Ich liebe dieses Programm. Fährt mehr Schwarzsiege ein als Engines vergleichbarer Spielstärke (herausragendes Merkmal). Ist immer für eine Überraschung gut und erspielt
leicht überdurchschnittlich auch schnelle Gewinne bzw. ist dabei nicht sehr anfällig für schnelle Verluste. Bei meinem FCP-Tourney-2020 und 2021 habe ich immer gern
bevorzugt bei Xiphos zugesehen.

Diese 8 Engines drücken die Remis-Quote, drücken den Züge-Durchschnitt und sorgen für mehr Möglichkeiten hinsichtlich Spielstil etwas zu erkennen.
Vermutlich wird diese Gruppe von 41 Engines dann einen Züge-Durchschnitt von 88 erreichen. Die Remis-Quote vom Turnier wird wahrscheinlich auf 55%-58% bei einem ganz
normalen Eröffnungsbuch, welches alle 500 ECO-Codes ausgeglichen ausspielen kann, nach unten gehen (derzeit bei den TOP-41 liegt die Remis-Quote bei 70%).

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2023-11-18 19:32 Edited 2023-11-18 20:20
Achso ... die durchschnittlichen Move-Average Zahlen bei Fritz 19, Caissa 1.14.1 und Devre 5.0 sind von den Vorgängerversionen.
Die drei jungen Updates starten morgen mit chess.cpp und Obsidian ins laufende Turnier.

Die Excel findet sich im Download File zu meinem laufenden Turnier unter:
https://www.amateurschach.de/download/_fcp-tourney-2024.zip

und wird natürlich weiter aktualisiert bis ich mein kommendes Turnier starte.
Interessierte können also gerne weiter verfolgen.

Bei SlowChess Blitz 2.9 NN ist der Zügedurchschnitt nur deswegen so hoch, weil ich Contempt = 0 nur bei der Engine und nicht bei der GUI eingestellt habe (die wird beim Engine Start mitgestartet).
Hatte ich beim Turnierstart vom FCP-Tourney-2024 wie auch seinerzeit bei meiner FCP-Ratingliste-KI vergessen einzustellen. Kann mir auch nicht immer alles merken.

Bei Fritz 16 (Rybka) gibt es noch zu sagen das ich Nalimov nicht einsetzen kann.
Mit Nalimov Datenbanken (zu aktivieren unter den UCI Eigenschaften) bleibt die Engine zu oft unter der Shredder GUI hängen).
Wenn dann auch nur 5-Steiner auf dem Brett sind, der Fehler hängt also mit den Endspieldatenbanken zusammen.
Ist bei Fritz 15 (Rybka) nicht anders.

DanaSah nutzt Gaviotabases und egbb, die 6-Steiner will ich nicht auch noch runter laden und nutze daher für diese Engine die 5-Steiner.

Ja, ja ... die vielen kleinen Besonderheiten hier und dort.

Ich schrieb MA-Turnier im Thread ... heißt einfach nur Move-Average optimiert.
Parent - - By Frank Quisinsky Date 2023-11-18 22:07
Hallo zusammen,

ich habe die Excel upgedatet.
Average-draw wurde hinzugefügt.

Wird ein wenig deutlicher warum sich meine Stockfish Begeisterung seit Jahren in Grenzen hält.
Bei Stockfish gab es mal einen Contempt, der wurde vor ca. 2-3 Jahren entfernt und wie ich seinerzeit austestete stieg damit der Zügedurchschnitt um 21 Züge an.

Im Grunde auffällig, dass alle Engines mit einem hohen Züge-Durchschnitt bei den Remispartien gar keinen einstellbaren Contempt haben.
Oder in zwei Fällen zwar einen Contempt haben, der aber nicht funktioniert ... dient ein wenig als Attrappe oder macht irgend etwas anderes.

Werde daher sehr wahrscheinlich auch Stockfish für meine Turniere nicht mehr einsetzen.
Das schlimme ist ... sämtlich interessanten Abkömmlinge produzieren den gleichen Remis-Käse.

Gruß
Frank
Parent - - By Peter Martan Date 2023-11-18 22:33 Edited 2023-11-18 22:35
Frank Quisinsky schrieb:

Bei Stockfish gab es mal einen Contempt, der wurde vor ca. 2-3 Jahren entfernt und wie ich seinerzeit austestete stieg damit der Zügedurchschnitt um 21 Züge an.

Im Grunde auffällig, dass alle Engines mit einem hohen Züge-Durchschnitt bei den Remispartien gar keinen einstellbaren Contempt haben.

Ich weiß schon aus deinen diesbezüglichen Stellungnahmen im Talkchess, dass du eine eigene Sicht von "Contempt" hast, und was er bewirkt bzw. bewirken soll, Frank.
Zu dem, was man dort schon alles dazu geschrieben hat noch ein paar Bemerkungen von mir, Frank, Contempt im alten klassischen Sinn macht bei Engines, die NNUE verwenden, keinen Sinn mehr.  Schon als SF noch einen einstellbaren hatte, aber auch schon NNUE, hatte er Auswirkungen nur mehr in den Fällen, in denen die Eval den hard coded Parametern folgte, in dem Fenster, in dem NNUE nicht griff und das also nur in schon gewonnenen oder verlorenen Stellungen (in deren Eval- Bereichen).
Drum wurde er dann auch abgeschafft, seit es HCE (Eval ohne NNUE) bei SF gar nicht mehr gibt, ist er vollends hinfällig geworden und das gilt aber auch für alle anderen Engines (und das werden immer mehr von denen, die überhaupt NNUE auch nützen), die mehr und mehr auf hand crafted evaluation ganz verzichten.

Abgesehen von alledem ist, wenn du mich fragst, deine Vorstellung von dem, was Contempt, so wie er früher mal einstellbar war, an Auswirkung auf die Partielänge hat oder deiner Meinung nach haben sollte, wenn du ohne GUI- Adjudizierung von Partieergebnissen spielen lässt, ist diese deine Vorstellung von Contempt eine etwas romantische, wenn ich's mal so sagen darf. Wie er sich wirklich bei den Engines, bei denen es ihn noch gibt (und auch bei denen, die ihn noch irgendwie verwenden, mit oder ohne NNUE) auswirkt, das siehst du wieder mal bei Stellungstests am besten (zumindest am schnellsten) und es ist jedenfalls von Engine zu Engine und von Stellung zu Stellung sehr verschieden.
Just my two cents

Übrigens wäre, wenn du das anschaust, was ich dir zu ShashChess im Thread dort geschildert habe, ShashChess mittlerweile der SF- Branch schlechthin, bei dem "Contempt" noch einen Sinn machte, er heißt halt bei ihm anders, man stellt ihn (sozusagen) über die Shashin- Optionen ein und mittlerweile besonders subtiler Weise noch über die Avatar- Files. Bezeichnender Weise ist letzteres hauptsächlich bis nur für die absichtlich geschwächten Settings der einstellbaren Spielstärke gedacht, die der menschliche Spieler zum Training nutzen kann. Aber auch schon früher war's mit dem Contempt halt so (daher ja auch der Name), dass er nur im Spiel gegen schwächere Engines höher gestellt werden sollte, dafür nahm man Elo- Verluste gegen die gleichstarken und stärkeren in Kauf.
Parent - - By Frank Quisinsky Date 2023-11-18 22:57 Edited 2023-11-18 23:04
Hi Peter,

das ist völliger Quatsch mit der eigenen Sicht.

95% aller Engines die Contempt haben machen im Grunde alles gleich.
Der Zügedurchschnitt bei den Remisen wird deutlich gesenkt wenn Contempt = 0 steht.

x-Mal ausgestet!
Setze z. B. bei Dragon für Komodo 3.3 Contempt = 12 und schaue Dir den Zügedurchschnitt an.
Der geht um 19 Züge nach oben!!

Würde es anders formulieren:
Es gibt auch rund um Contempt diverse Ideen, wie z. B. die von Minic Programmierer.
Oder Contempt funktioniert nur für Schwarz-Partien oder macht in Kombination irgend etwas anders als ursprünglich gedacht.

z. B. nutze Contempt erst dann wenn x-Figuren auf dem Brett sind.
etc. Wasp hat z. B. sehr intelligende Contempt Settings und ich bin froh das John hier vor ca. 2 Jahren auch einiges geändert hat.
Zügedurchschnitt bei den Remisen ist TOP und Engine wurde stärker!!

Was Du schreibst zu Contempt kann ich nicht nachvollziehen.
Es gibt reichlich NN-Engines bei den Du Contempt einstellen kannst und genau das deutliche Auswirkungen auf die Dauer der Partien hat.

Die Excel Tabelle ist sehr eindeutig und zeigt das Problem wie ich finde sehr deutlich auf.
Welche Engine hat Contempt, welche nicht und wie schaut es um die Remis-Quote aus wenn Contempt auf 0 eingestellt wird.

Contempt = 0 schwächt eine Engine nicht, sondern stärkt eine Engine!
Wenn schneller ins Remis abgewickelt wird werden Endspiele vermieden, bei den es zu ungewollten Ergebnissen kommt.
Gerade in NN-Zeiten.

Das war früher komplett anders herum!
Da gaben die sehr starken Programme zu schnell zu viele Remisen ab und das konnte durch Contempt vermieden werden.
Fast alle TOP-60 Engines haben NN Files und die Wahrscheinlichkeiten hierfür sind drastisch gesunken.

Kann Dir im Detail sagen was das bei Wasp ausgemacht hat.
Wickle in ein schnelles Remis ab wenn möglich (bei der bekannten Endspielschwäche) brachte bei Wasp ca. 20 Elo mehr.
Würde ich also einen Contempt = 12 bei Wasp setzen, geht die durchschnittliche Zugzahl hoch und Wasp wird schwächer.

Zugegeben, die super starken Engines wie Stockfish verlieren vielleicht 1-3 Elo durch Contempt aber zahlen dafür einen sehr hohen
Preis, denn eine Partie dauert ca. 20 Züge länger. Das steht in keinem Verhältnis.

Oder um es genau zu sagen, ich sehe z. B. bei Dragon 3.3 mit Contempt nicht wirklich einen messbaren Vorteil (habe aber auch hier derzeit nur 400 Partien).
Was ich sehe ist das eine Partie 19 Züge länger dauert.

Ich bin nach wie vor der Meinung der eine TOP-Engine nicht unnötig lange eine klare Remisstellung hinauszögern sollten.
Das schaut unprofessionell aus und nervt gewaltig, gerade wenn Du bei den Partien zuschaust.

Müssen wir nicht schönreden ...
115 Züge dauert bei Stockfish 16 eine Remispartie ... 31 Züge schneller ist CSTal unterwegs.
Beide Engines nutzen ein NN-File.

Das ist ein absolutes KO Kriterium wenn Stockfish für Eng-Eng eingesetzt wird.
Nur Berserk toppt das noch!

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2023-11-18 23:07
Ist wie mit allen anderen Dingen im Leben.
Schaue mir lieber die Fakten an, was Andere erzählen ist nicht in jedem Fall hilfreich.
Parent - - By Peter Martan Date 2023-11-18 23:30 Edited 2023-11-18 23:43
Frank Quisinsky schrieb:

Der Zügedurchschnitt bei den Remisen wird deutlich gesenkt wenn Contempt = 0 steht.

Du meinst, wenn du das GUI anhand der Evals adjudizieren lässt? Das kannst du aber (je nach GUI) auch leicht dadurch erreichen, dass du die im GUI einzustellende Grenze dafür veränderst, und dann ist's wenigstens wirklich für alle Engines, egal, ob sie einen Contempt haben oder nicht, gleich und damit fair.
Dass manche Engines unabhängig von ihrem Contempt (und wie ich dir versuche zu erklären, bei den meisten, die überhaupt noch einen haben, auch mit ihm) verschieden hohe numerische Evals haben, das kriegst du sowieso nicht weg, dadurch, dass du bei manchen den Contempt (mehr) und bei anderen nicht (oder weniger) verstellst, erst recht nicht.
Frank Quisinsky schrieb:

Setze z. B. bei Dragon für Komodo 3.3 Contempt = 12 und schaue Dir den Zügedurchschnitt an.
Der geht um 19 Züge nach oben!!

Bei 3.3 ist jetzt default 20, du meinst also, wenn du ihn senkst, geht der Zügedurchschnitt nach oben? Und um genau 19 Züge? Gegen welche Engines, bei welchen Eröffnungen, mit einer wie großen statistischen Schwankung dieser 19 Züge im 95%- Intervall?

Lass gut sein, Frank, über deine Turniere, die Ergebnisse, die du dort hast, und was du aus ihnen folgerst, diskutiere ich nicht mit dir, aber wenn du einen Dragon dazu bringen willst, wirklich (nennen wir es mal) "aggressiver" zu spielen, solltest du die Aggressive Personality nehmen, damit schaltest du zwar NNUE aus, schwächst ihn deutlich, aber dafür findet er sich wirklich weniger damit ab, dass Stellungen remislich werden, wenn er's verhindern kann, ohne gleich zum Kamikaze zu werden, willst du einen Kamikaze, dreh' noch zusätzlich den Armageddon- Modus auf.
Willst du jetzt, dass er durchschnittlich weniger Züge pro Partie gegen ungefähr gleichstarke Engines statistisch liefert, wird das der Aggressive Dragon schon deshalb auch oder gerade als Kamikaze liefern, weil er mehr verlieren wird, so.
Wenn du im Gegenteil einen Defensive Dragon als Personality wählst, würde das, denke ich, am ehesten deinen Vorstellungen eines höheren Contempt entsprechen, nein? Weniger "Verachtung", dem Gegner gegenüber, Hauptsache, nicht verlieren. Und das hebt dann, hast du herausgefunden, den Zügedurchschnitt von Dragon in einem Turnier? Dann würde ich das mal mit der Defensive Personality gegenchecken, wenn das dann auch funktioniert, dann wahrscheinlich wieder hauptsächlich, weil er trotz oder gerade wegen dieser Einstellung mehr verlieren wird gegen die ungefähr Gleichstarken, die Wirkung wäre übrigens beim alten Contempt ohnehin auch sowohl beim (stark) nach oben wie beim (stark, ins Negative) verstellten Contempt in erster Linie die der schnelleren und häufigeren Verlustpartien.

Nun ist es aber bei Dragon auch schon ein paar Versionen lang (ziemlich) genau so wie bei SF, so richtig wirkt sich der Contempt nur bei Regular Eval aus, im weitaus überwiegenden Teil der Stellungen innerhalb der Partie, so lange sie nicht sowieso gewonnen oder verloren ist, tut er das just überhaupt nicht, die Engine evaluiert aus dem NNUE und schert sich einen Sch...marrn um das, was du als Contempt einstellst. Engine evaluiert Contempt- unabhängig, es sei denn du nimmst als "Contempt" das NNUE- Scaling und verstellst es, sortiert die Züge unabhängig vom Contempt, ob jetzt das GUI, weil's 0.00 als Eval im Output hat, ein paar Züge früher zuschlagen darf, das ist statistische Kosmetik, relativ dazu, wie die Partie bis dahin verlaufen ist.

Und da wären wir bei dem, was man Testen und Messen kann und dem, was man daraus folgert. Wie weit schwanken die 19 Züge, die du im Schnitt für deine Contempt- Veränderungen bei Dragon gemessen hast, im statistisch relevanten Bereich?
Wie weit sinken sie mindestens nach unten, wie weit höchstens nach oben (wird ja auch mal vorkommen, nein?) und wie streuen sie um deine 19 Züge?
Bist du sicher, dass du mit deinen 19 Zügen aus dem rein zufallsbedingten statistischen Rauschen rauskommst? Und wenn ja, wie weit?
Parent - - By Frank Quisinsky Date 2023-11-18 23:40 Edited 2023-11-18 23:49
Hallo Peter,

habe Contempt von Standard bei Dragon by Komodo auf 0 gesetzt.
Glaube es waren 12 ... Standard kann aber auch 20 gewesen sein, weiß ich nicht mehr.

Siehst Du doch in meinem Turnier was Dragon bei Komodo 3.3 Contempt = 0 daherzaubert.
Liegt nach fast 400 Partien gegen 40 Gegner einen Punkt schwächer als Stockfish 16.
Ist doch alles dokumentiert was ich mache.

Ja, ich weiß ... Komodo hat auch einige Settings (z. B. zur Aggressivität).
Aber es macht für mich keinen Sinn Settings zu prüfen oder ich müsste damit aufhören mich mit möglichst vielen Programmen zu beschäftigten.
Der Tag hat nur 24 Stunden. Nutze lieber die Zeit um mir einen Überblick über möglichst viele Programme zu verschaffen.

Um einen Zügedurchschnitt zu sehen brauchst Du nicht so viele Ergebnisse wie bei 1:0, 0:1 / 1/2:1/2 Konstellationen.

Kannst Du einfach sehen wenn Du von einer 40er Runde zu nächsten 40er Runde kontinuierlich auswertest.
Kein Zügedurchschnitt verändert sich grob nicht mehr wenn 200 Partien vorliegen bzw. nicht der Rede wert.

Also, Dragon by Komodo 3.3 mit Contempt = 0 nach 400 Partien nur einen Punkt von Stockfish 16 entfernt.
Nehme ich die Partien von ersetzen Engines im Turnier noch hinzu sind es nach weit über 500 Partie 1.5 Punkte.

Und wenn ich die Bedenkzeit weiter nach oben setze wird Dragon by Komodo 3.3 Stockfish 16 wahrscheinlich überholen.
Darauf deutet alles hin wenn sich der Unterschied immer mehr verringert je höher die Zeitkontrolle ist.
Vielelicht sind die Beiden dann auch gleichstark ... kann selbst ja nur Rückschlüsse ziehen auf die Stats und oftmals lag ich auch schon falsch.

Hier nochmals die Links:

Turniertabelle, wird alle 10 Minuten aktualisiert.
https://www.amateurschach.de/fling/fcp-tourney-2024.html

Spielplan, wird alle 10 Minuten aktualisiert.
https://www.amateurschach.de/fling/fcp-tourney-2024.sto

*.zip download (aktuelle Version = 10.2.9.1):
Partien und Dokumentation = 24.016Mb (derzeit)
https://www.amateurschach.de/download/_fcp-tourney-2024.zip

Alles dokumentiert!

Gruß
Frank
Parent - - By Peter Martan Date 2023-11-18 23:55 Edited 2023-11-19 00:07 Upvotes 1
Frank Quisinsky schrieb:

Um einen Zügedurchschnitt zu sehen brauchst Du nicht so viele Ergebnisse wie bei 1:0, 0:1 / 1/2:1/2 Konstellationen.

Um eine Schwankungsbreite dessen zu sehen, was sich durch welchen Contempt einer Engine wie stark ändert, brauchst du genau so viel Datenmaterial, wie um eine andere Schwankungsbreite, z.B. die der Elo, statistisch zu relativieren. Es geht ja nicht um den einen Schnitt, es geht darum, wie weit reiten die einzelnen Ergebnisse um diesen Mittelwert herum aus, und mit welcher Wahrscheinlichkeit sind's 19 Züge weniger, mit welcher 18 und mit welcher 19 mehr. Bei den Elo interessiert dich auch nicht nur, wieviel sie nach einer Partie sind (kannst du, wenn du Ausgangswerte hast, danach auch schon sagen, das ist ja das Schöne an der Formel, mit ihrer statistischen Aussagekraft hat die Art, wie sie fürs Einzelergebnis ermittelt wird, ob nach der Eloformel oder einfach als 1-0, 0-1 oder Remis, überhaupt nichts zu tun, ist statistisch schnurzpiep, darauf will ich ja immer wieder hinaus, das eine sind die numerischen Werte, die sind zwischen den Matches auch weniger und weniger vergleichbar, was z.B. die Elo angeht, aber das davon völlig unabhängige Andere sind nochmal die statistischen Verlässlichkeiten) sondern wie weit der Wert, den du im Mittel oder nach Arpad Elo erhältst, in einem bestimmten Konfidenzintervall wahrscheinlich ist.
Daher meine Frage nach deinen 19 Zügen in ihrer statistischen Aussagekraft, wieviel mehr oder weniger als diese 19 Züge sind mit 95%iger Wahrscheinlichkeit in dem, was du bei jeder einzelnen Partie von Dragon an Partielängen gemessen hast, in diesem deinem Konfidenzintervall drin?
Und dann, wenn du das weißt, ermittle mal, wieviele es im Schnitt gewesen wären, wenn du ihn von jetzt default 20 nicht auf 0 sondern auf 10, oder auf -10 setzt und schau, wie weit dieser Schnitt dann dieselben 95% an Power deiner Vergleichsmessung hat. Dann kannst du statistisch relevant (nämlich überhaupt statistisch beobachtet) sagen, bei soundsoviel Änderung des Contempt von Dragon 3.3 hab ich in genau diesem Engine- Kollektiv mit soundsoviel Wahrscheinlichkeit soundsoviel Änderung des Zügedurchschnitts von Dragon 3.3.
Und das natürlich nur für das eine Turnier, was dessen Hardware- TC und das Buch angeht
Parent - - By Frank Quisinsky Date 2023-11-19 00:06 Edited 2023-11-19 00:11
Peter,

ich schreibe ja immer sehr gern ... z. B, kürzlich auf ein Posting von Stefan Pohl ... mich interessieren die Tendenzen.
Ich muss nichts messen auf 95% statistischer Wahrscheinlichkeit, weil das ist vergleichbar mit ...

Bist mittlerweile 1km von zu Hause weg und es kommt Dir der Gedanke ...
Hast Du die Tür wirklich abgeschlossen oder nicht?!

Was macht nun die Person die z. B. Wert darauf legt statistisch genau zu messen?
Frage kannst Du Dir selbst beantworten.

Also, ich renne nicht zurück!

Habe nur 3 FCP-Turniere mit 41.000 Partien spielen lassen (glaube das letzte war mit weniger Partien).
Es gab wirklich mal bei 41 Engines im Feld die Konstellation ... ausgerechnet bei Wasp ... das von Partienummer 1800 auf 2000 die Elo um 12 gefallen ist.

Ich lebe also ganz gut mit Fehlertolleranzen und möchte jetzt mit Dir nicht die ganzen sich über Jahre hinweg bewährten Turnier-Konditionen zu Büchern etc. besprechen.
Das habe ich alles schon x-mal durch und im finalen Resultat siehst Du was ich einstelle, nutze oder mache.

Handelt kaum jemand permanent gegen eigene sich mehrfach bewährte Erfahrungswerte.
Zwar finde ich immer wieder mal etwas was ich verbessern könnte aber das ist heute eher selten.

Ich finde die Excel spricht Bände!!
Das ist nur mit sehr viel Fantasie wirklich angreifbar!
Aber wenn Leute erfinderisch sind bin ich neugierig drauf.
Nur komme mir nicht mit den Statistik-Kram ... wenn die Wahrscheinlichkeit viel zu gering ist das ein Ereignis eintreffen könnte.
Sonst dürfte ich ja nicht mehr vor die Tür, weil der Blitz könnte mich ja treffen!

Viele Grüße
Frank
Parent - - By Peter Martan Date 2023-11-19 00:12 Edited 2023-11-19 00:18 Upvotes 1
Frank Quisinsky schrieb:

... mich interessieren die Tendenzen.
Ich muss nichts messen auf 95% statistischer Wahrscheinlichkeit,

Nein, musst du nicht, aber dann musst du dir von mir schreiben lassen, meine Tendenz beim Contempt ist die, dass er bei den heutigen Engines an und für sich weniger und weniger Rolle spielt (daher in dieser Form und unter diesem Namen auch weniger und weniger in den UCI- Parametern angeboten wird) und schon gar nicht (genau) so, wie du dir das beim Zügedurchschnitt deiner Turniere zusammentendierst

Eine Tendenz wäre, die Partien werden (wenigstens bei Dragon 3.3) kürzer, 19 Züge im Schnitt sind ein Messwert, den müsstest du ja auch gar nicht erheben, wenn's dir nur um eine Tendenz ginge, hingegen behauptest du einfach mit dem Brustton der Überzeugung: 19 Züge bei Veränderung von 20 am Dragon 3.3- Contempt und gut.
Sorry, ist aber halt der Grund, aus dem sich Leute überhaupt Statistiken antun (einen Durchschnitt von irgendwas zu berechnen, ist keine solche Statistik), damit sie dann sagen können, das (der Wert, den sie als Tendenz oder sonstwie erkannt zu haben glauben) ist mit soundso großer Wahrscheinlichkeit mehr oder weniger genau so und nicht einfach vielleicht auch irgendwie ganz anders oder so ähnlich.
Wünsch gute Nacht,
Parent - By Frank Quisinsky Date 2023-11-19 00:26 Edited 2023-11-19 00:32
Hi Peter,

ich behaupte es nicht, ich weiß es.
Aber wenn ich beginne jedes Ergebnis was ich zu Hause produziere im Internet zu veröffentlichen!

Einfacher ist es alles anzugreifen!
Darauf haben sich einige speziallisiert wenn der Tag lang ist.

Sehe das anders!
Ich animiere gerne und gebe auch anderen gerne die Möglichkeit etwas beizutragen.

Die Zeiten als ich Contempt Vergleiche Online stellte sind lange vorbei.
Das Thema ist doch seit Jahren durch.

Abhandlungen findest Du sicherlich noch in TalkChess!
Zwar mache ich hin- und wieder immer gerne Stichproben aber die halten sich in Grenzen.
Schrieb ja, ich habe 400 Partien mit Standard Settings von Dragon by Komodo 3.2 (nicht 3.3).
Aber da wird sich sicherlich nichts weiter bewegt haben.

Der Zügedurchschnitt bei Komodo 3.2 ist gleich zu Komodo 3.3 nach 400 Partien bei Contempt = 0.
Warum sollte sich dann bei Contempt Standard etwas verändern?!

Gibt unsinnigere Sache die mehr Spaß machen als das immer wieder zu testen.
Aber es steht Dir ja frei mit Fakten einen Test beizusteuern wenn Du es nicht glaubst oder angreifst.
Nur ... denke die Sachen die Du so treibst sind interessanter.
Mir musst Du nichts beweiesen, niemand hier!

Übrigens machte Contempt in Zeiten vor NN wirklich mal bei Stockfish 15 Elo aus.
Aber das ist lange vorbei ... auch selbsterklärend wenn die Verfolger dichter aufrücken und heute im Endspiel kaum noch Gewinne produziert werden.
Insofern beantwortet sich die Frage eh schon von ganz allein und insofern kann ich nicht verstehen warum Entwickler von stärkeren Engines mit einem so hohen Zügedurchschnitt um die Ecke kommen.
Vielleicht weil es bei Stockfish ja auch so gemacht wird, aber das gibt natürlich niemand gerne zu.

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2023-11-19 00:51 Edited 2023-11-19 01:07
Hallo Peter,

ich gebe Dir mal ein ganz nettes Beispiel von einer Züge-Statistik mit auf den Weg ...

Laufendes Turnier (41 Engines), wie gesagt alles dokumentiert ...

Nach 0820 Partien ... Average    = 191.96 (sind Halbzüge)
Nach 1640 Partien ... Average    = 192.37 ( 96,3 moves )
Nach 2460 Partien ... Average    = 191.65 ( 95,8 moves )
Nach 3280 Partien ... Average    = 192.58 ( 96,2 moves )
Nach 4100 Partien ... Average    = 191.69 ( 95,8 moves )
Nach 4920 Partien ... Average    = 192.45 ( 96,2 moves )
Nach 5740 Partien ... Average    = 191.53 ( 95,7 moves )
Nach 6560 Partien ... Average    = 191.59 ( 95,7 moves )
Nach 7380 Partien ... Average    = 191.85 ( 95,9 moves )
Nach 9 Runden ... was derzeit läuft!

Diese Stats habe ich auch für jede Engine nach 40 Partien, 80 Partien, 120 Partien ...
Ich weiß also worüber ich rede!

Ob es nun 190, 192 oder 194 sind spielt im Grunde auch keine wirklich große Rolle und da passt auch Dein Statistik Einwand nicht.
Um einen Zügedurchschnitt zu messen brauchst Du nicht Unmengen von Partien. Das ist nun wirklich Quatsch!

Interessanter ist eher ...

Wenn der Elo-Durchschnitt der 41-Engines durch 5 Updates um 4 Elo nach oben geht ...
Wie wirkt sich das auf die Remisquote auf.

Vorher ...
Draws      =  5.102 ( 69.13% ) ... auch nach Runde 9 vor den 5 Updates
Draws      =  5.127 ( 69.47% ) ... jetzt nach Runde 9 nach den 5 Updates und 4 Elo mehr im Durchschnitt für alle.

Das deckt sich mit meinen bisherigen Ergebnisse um zu simulieren ...
Wie hoch ist die Remis-Quote wenn der Elo-Durchschnitt nicht 3352 wäre sondern bei 3400 Elo liegen würde?

Solche Sachen interessieren mich derzeit mehr.

Viele Grüße
Frank

Also, die Remisquote vom FCP-Tourney-2024 hätte ich nach den Statistiken vom FCP-Tourney-2020 vor 4 Jahren im Grunde bis auf 0,2% vorhersagen können wenn ich gewusst hätte das die TOP-41 dann bei 3352 im Durchschnitt liegen.
Das ist z. B. ein echt geiles Beispiel was man so alles treiben kann wenn man sich nicht mit der Frage beschäftigt: "aber-es-könnte-zur-statistischen-ungenauigkeit-kommen".
Weil genau das ist gefährlich lahm-legend!
Parent - - By Benno Hartwig Date 2023-11-18 23:33

> Engines die einen zu hohen Züge-Durchschnitt haben oder auch Engines die einfach zu lange zum Matt setzen benötigen nehme ich heraus.


Ich verstehe natürlich das "Warum", aber Herausnehmen ist schon ein Schritt.
Welche Engines sind aus diesem Grund nun nicht dabei?
Parent - By Frank Quisinsky Date 2023-11-18 23:47
Siehst Du in der Excel ... Grafik im Thread!
Parent - By Frank Quisinsky Date 2023-11-19 12:06 Edited 2023-11-19 12:10
Hallo Benno,

habe die Grafik nochmals geändert.

Achte auf Dunkelrot!
4 Spalten ...

move-avg
move-avg-win
move-avg-draw
win+draw

Die letzten 7 jeder Spalte wurden dunkelrot markiert.
z. B. bei Stockfish dunkelrot nur bei "move-avg-draw".

Nehme ich nun genau diese Engines aus der Datenbank ... welch eine Freude!
Der Zügedurchschnitt schaut entsprechend der durchschnittlichen Spielstärke der noch verbliebenen Teilnehmer im Feld aus.

Hatte mir mal eine solche Tabelle vom FCP-Tourney-2020 generiert, um zu sehen was passiert wenn die durchschnittliche Turnier-Elo weiter steigt.
Hinsichtlich Zügedurchschnitt und Remis-Quote.

Das heißt die rot-markierten treiben also, aus welchen Beweggründen auch immer, den Zügedurchschnitt einer Schachpartie nach oben.
Es gibt auch Engines, die den Zügedurchschnitt, wie auch immer geartet, nach unten treiben bzw. der deutlich niedriger ist für die Spielstärke zu erwarten wäre.

In orange dann die 5, die heute ins Turnier starten.
Bei drei habe ich Ergebnisse der Vorgängerversion, zwei der Engines sind völlig neu für mich.

Viele Grüße
Frank
Parent - - By Andreas Matthies Date 2023-11-19 08:59
Kurze Frage mit der Bitte um eine kurze Antwort: Gibt es ein (Kosten-)freies Tool, mit dem man die für dich wichtigen Statistiken (oder zumindest einige davon) aus einer PGN extrahieren kann?
Parent - By Frank Quisinsky Date 2023-11-19 10:40
Es gibt einiger solcher Tools.
Viele hat Ferdinand Mosca programmiert, oder auch andere Programmierer in Winboard Zeiten.
Parent - - By Lothar Jung Date 2023-11-19 11:05
Ich hatte bereits vor kurzem auf dieses mächtige Tool hingewiesen:

https://www.cs.kent.ac.uk/people/staff/djb/pgn-extract/help.html#date-t
Parent - By Frank Quisinsky Date 2023-11-20 06:59
Mit PGN extract ist vieles möglich! Bestandteil von vielen kleinen Tools die Ferdinand geschrieben hat.
Auch mit der Tool-Sammlung von Norm Pollock geht einiges.
Oder natürlich auch mittels ChessBase geht einiges oder mit dem Hiarcs Chess Explorer bzw. anderen kleineren / größeren GUIs wie Scid.

Einiges werte ich meist recht umständlich aus, z. B. Bewegungen der Leichtfiguren im Mittelspiel oder Bewegungen von Bauernzügen bei x Figuren auf dem Brett.
Oder nach -2 doch noch gewonnen etc..

Muss dafür aber Zeit haben und mache das nicht so oft.

Zügedurchschnitt ist aus verschiedenen Gründen sehr hilfreich.
z. B. bei einem auffällig zu hohen Zügedurchschnitt der Gewinnpartien haben Engines ein Problem Matt zu setzen, meist wenn syzygy zu Gange sind.
z. B. Caissa, oder rofChade.

Woran ich mir die Zähne ausbeiße sind z. B. Stats zu ungleichem Material bzw. Qualitätsopfer etc.
Mittels Chessbase läßt sich gerade hier etwas herausfinden aber das ist wirklich sehr komplex.

Im Grunde findet man beim Auswerten der Datenbanken auch viele Fehler, gerade wenn man sich die längeren Partien anschaut und ganz besonders
bei der Zeiteinteilung der Engines, z. B. langes rumrechnen wenn Stellung zu 100% klar ist (z. B. bei Matt in 1). Das nervt gewaltig beim Zusehen der Partien,
Rechenzeit wird für weniger wie nichts verplempert. Auch dafür habe ich z. B. ein Tool aber wenn ich damit jetzt auch noch anfange ...

Denke eher dass sich die Programmierer die Partien näher ansehen sollte.
Habe heute kaum Zeit und wirklich Lust Fehlerlisten online zu stellen.
Up Topic Hauptforen / CSS-Forum / Gedanken zu meinem nächsten Turnier ... ein MA-Turnier!

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill