Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / 72 Stunden für Engine-Duell, wenn eigentlich lange Zeiten interessieren
- - By Benno Hartwig Date 2021-03-04 18:12
Angenommen ich habe 2 Engines, und mich interessiert der Spielstärkevergleich.
Und eigentlich interessiert mich am meisten, wie es sich verhält, wenn jede Engine pro Partie eine Stunde hat.
Aber ich will mir andererseits nur 72 Stunden für diese Frage nehmen. (mal so als Beispiel)

Dann nur ungefähr solche 36 Partien zu spielen, bringt natürlich eine fürchterliche Streuung, und ich würde dem Ergebnis nur sehr wenig trauen können.
Also nehme ich lieber deutlich kürzere Zeiten.
Ich bekomme dann statistisch deutlich(!!!) belastbarere Zeiten
aber mir wird damit doch nur eine Frage beantwortet, deren Antwort eben nur so ungefähr zur eigentlich interessierenden Frage passt.

Welche Zeit für jede Engine pro Partie würdet ihr nun in diesem Fall nutzen wollen?
5min/Partie brächte vielleicht 432 Partien (nur!), aber 5min- und 60min.Ergebisse erscheinen mir noch sehr gut vergleichbar (einfach ein wenig "komprimieren", dann passt es.)
Ggf. wäre besser noch kürzere Zeiten zu nehmen, 1000 Partien bei 2min-Partien brächten ggf. ein verlässlicheres Ergebnis.

Und nun sagt bitte: Welche Zeit würdet ihr hier nutzen wollen?
Parent - - By Eduard Nemeth Date 2021-03-04 18:22
Du solltest erst einmal aufklären für welchen Zweck du diesen Test brauchst?

Mein Zweck zB. ist das Serverspiel, möglichst also mindestens 5 Min und mit Ponder ON.

Der Clemens macht doch gerade deshalb seine eigenen Tests (10 min und mit Ponder ON). Weil auf InfinityChess sogar 12m+3s gespielt wird.
Parent - By Clemens Keck Date 2021-03-04 18:52
Das 10 +2 hat sehr lange gedauert( dauerte ca viereinhalb Tage) , und ich hatte nur 180 Spiele pro Testrun
Gelegentlich hatte ich einen solchen 180 Partien run wiederholt, und es machte echt keinen Spaß zu sehen, wie stark unterschiedlich die Ergebnisse waren, trotz gleichen engines, gleicher setup, gleiche 90 Vorgabestellungen. Teilweise waren es über 30 ELO Unterschied.
Also müssen es mehr Spiele sein.
Ich bin seit 2 Monaten auf 4min + 2sec runter. Eine Partie dauert im Schnitt 12,5 Minuten.
Spiele immer noch die selben 90 Vorgabestellungen, diesmal aber zwei Testruns parallel im Spießrutenlauf. Macht 360 Spiele in 3,5 Tagen.
Die ungleichen Ergebnisse zwischen den beiden Testruns sind immer noch da. Ich hoffe der Mittelwert ist genauer.

C.K.

Eduard Nemeth schrieb:

Du solltest erst einmal aufklären für welchen Zweck du diesen Test brauchst?

Mein Zweck zB. ist das Serverspiel, möglichst also mindestens 5 Min und mit Ponder ON.

Der Clemens macht doch gerade deshalb seine eigenen Tests (10 min und mit Ponder ON). Weil auf InfinityChess sogar 12m+3s gespielt wird.
Parent - - By Benno Hartwig Date 2021-03-04 21:50 Edited 2021-03-04 21:53

> Du solltest erst einmal aufklären für welchen Zweck du diesen Test brauchst?


Ich möchte gern die Engine finden, die im Spiel gegen andere bei 1 Stunde pro Partie möglichst spielstark ist.
Wie finde ich die möglichst zuverlässig, wenn ich dafür nur 72 Stunden investieren kann?

Eine handvoll sehr langer Partien ist da sicher nicht die zuverlässigste Methode. (beispielsweise 36 Partien mit voller Zeit)
10000 Partien bei ultrakurzen Zeiten mögen statistisch belastbar sein, sie zeigen aber etwas, was zu deutlich weit weg ist von dem, was ich wissen will.
Die Kompromisse dazwischen erscheinen verlässlicher (statistisch einigermaßen verlässlich, bei Spielstärkeverhältnissen, die nur unwesentlich von den gesuchten verschieden sind)

Wo liegt der Kompromiss, der eine möglichst kleine Abweichung vom eigentlich gesuchten Wert erwarten lässt?
Parent - By Tommy Tulpe Date 2021-03-05 11:42
Benno Hartwig schrieb:

Ich möchte gern die Engine finden, die im Spiel gegen andere bei 1 Stunde pro Partie möglichst spielstark ist.
Wie finde ich die möglichst zuverlässig, wenn ich dafür nur 72 Stunden investieren kann?


Hallo Benno,
deine Fragestellung ist klar formuliert.
Auch wenn ich Statistikkenntnisse aus dem Studium auskrame, kann ich kein Ergebnis berechnen für deine Suche nach dem "idealen Kompromiss".
Ich fürchte, das muss man probieren.

An deiner Stelle würde ich selbstverständlich auch diejenigen Ergebnisse zu Rate ziehen, die andere erhalten haben, die mehr Zeit als 72 Stunden investieren wollten in ähnliche Fragestellungen.

Oder kurz:  Nimm Fat Fritz 2 oder Stockfish 13, und du wirst nicht weit vom Optimum entfernt sein.  

Grüße von

Ulrich
Parent - By Frank Quisinsky Date 2021-03-04 21:18 Edited 2021-03-04 21:28
Hallo Benno,

selbst schaue ich immer, dass eine Partie ca. durchschnittlich 45 Minuten läuft.
Nicht mehr wegen "höherer Qualität", sondern weil wenn ich Zeit habe möchte ich zusehen.
Laufen die Partien zu schnell macht zusehen keinen Sinn.

Die erste Frage ist also was Dir selbst wichtig ist.
Engine Vergleiche und Ergebnisse gibt es genug im Internet.
Du wirst kaum etwas feststellen was nicht schon festgestellt wurden ist.

Geht es Dir nur um einen Spielstärkevergleich macht ein Match zwischen zwei Engines eh
keinen Sinn. Du hättest zwar dann einen Spielstärkevergleich zwischen 2 Engines aber keinen
den Du _ultimativ_ verwenden kannst.

Die FCP-Turniere bei 41 Engines auf 5Ghz und 10 Cores und 50 Partien pro Match benötigen
ca. 5 Monate. 41.000 Partien aus denen sich alles Mögliche auswerten läßt. Nur wenige
Fragen bleiben offen!

Wenn ich z. B. diese Turniere nicht mehr offiziell durchführen würde, würden hier
Turnierpartien mit Ponder=On laufen.

Wasp gegen meine anderen Favoriten und ich würde eine Menge Spaß haben zuzusehen
wenn ich die Zeit dafür hätte. Ich würde mitanalysieren während die Partien laufen.

Das macht wirklich richtig Spaß! Wie stark dann eine Engine in Elo wäre, interessiert
mich persönlich schon länger nicht mehr.

Viele Grüße
Frank

Geht es Dir wirklich nur um Ergebnisse ...
Lasse die Endspieldatenbanken weg, setzte Aufgabefaktor = on, lasse Fischer weg
(können einige Engines nicht korrekt mit umgehen) und nutze 40 Züge in 4 Minuten.
Darunter würde ich nicht gehen (denke an extremes Pruning bei TOP-Engines).
Ein Stockfish sollte mindestens 5 Sekunden pro Zug haben, sonst übersieht auch
Stockfish gerne. So kannst Du z. B. trotz niedriger Bedenkzeit noch hochwertige
Ergebnisse produzieren, wo sich spätere Analysen gar lohnen!
Parent - By 2phil4u Date 2021-03-11 18:04
Du brauchst bei sehr langen Zeiten zwar mehr Zeit insgesamt, hasst aber einen Vorteil.
Da die Remisrate immer höher wird hast du irgendwann so ein Ergebnis.
1000 Spiele
900 remis.
100  Siege Engine A.
Weisst du worauf ich hinauswill?
Keine Ahnung, ob das schon Fuer sehr sehr lange Bedenkzeiten gemacht wurde.
Aber irgendwann gewinnt nur noch die bessere Engine.
Up Topic Hauptforen / CSS-Forum / 72 Stunden für Engine-Duell, wenn eigentlich lange Zeiten interessieren

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill