Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Test-Strategie bei: "Eine Testreihe beginnt mit ungewöhnlichen Ergebnissen"
- - By Benno Hartwig Date 2020-02-05 09:54
Angenommen ich teste eine Engine und erwarte (mit dem sicheren Gefühl: "Ich weiß, dass es so ist!") in einem konkreten Umfeld beispielsweise eine Spielstärke im Bereich 3000 bis 3100 Elo.
Ich habe mir vorgenommen, beispielsweise 1000 Partien zu spielen.

Und nun liefern uns die ersten 50 Partien aber ein Ergebnis, welches deutlich außerhalb des erwarteten Bereiches liegen (an den ich aber immer noch superfest glaube! Und nun startet die Engine weit erfolgreicher!)
Dann habe ich ja 2 Möglichkeiten

- sturheil weiterspielen und eben am Ende alles auszurechnen
   (also hinzunehmen, dass diese ersten 50 wohl erstmal tendentiell einfach verfälschend waren,
   von den restlichen 950 kann ich ja kein "Gegensteuern" erwarten, sondern eben nur ein Pendeln um den Erwartungswert, ein mehr und mehr "unwichtig machen")

. diese Ergebnisse zu streichen und das Experiment einfach mit 950 Partien neu zu beginnen.

Beide Vorgehen sind machbar, und beide sind auch nicht wirklich schlecht.
Und beide Vorgehen werden mir einen gewissen Fehler im Ergebnis liefern.

Mir ist aber nicht klar: bei welcher dieser beiden Varianten darf ich den kleineren Fehler erwarten?
und dann ggf. eben auch die Frage: bei welchen "ungewöhnlichen Anfängen" (Umfang, Heftigkeit) sollte ich die Ergebnisse einstampfen und lieber mit etwas reduziertem Umfang neu beginnen?
Parent - By Peter Weise Date 2020-02-05 10:29
Weshalb einstampfen?
Sollten alle Parameter im Vorfeld korrekt eingestellt worden sein, dann sollte jede gespielte Partie zählen!
Übrigens stehen solche Ausreißer-Serien durchaus auf der Tagesordnung. Vor einer Woche hatte ich einen Test mit LC0 über 200 Partien ausgeführt. Nach meiner Schätzung vor dem Match hätte LC0 55% der möglichen Punkte holen sollen. Nach den ersten 30 Partien waren es aber "nur" 51.5%. Am Ende der Serie waren es (fast wie erwartet) 54.5%!
Parent - By Michael Scheidl Date 2020-02-05 10:41
Zitat:
Beide Vorgehen sind machbar, und beide sind auch nicht wirklich schlecht.

"Geschmacklose" Testresultate nach Gutdünken einfach heraus zu nehmen wäre tatsächlich nicht nur wirklich schlecht, sondern eine Katastrophe und das Gegenteil einer sauberen Methodik. Ich hab schon spontan angenommen daß Du eine Satire geschrieben hast
Parent - - By Clemens Keck Date 2020-02-06 08:47
Moinsen

also die Schwankungsbreite ist groß. Selbst bei gleichen Stellungsvorgaben und gleicher Hardware.
Ichz müsste wahrscheinlich wesentlich mehr Spiele machen, um das auszugleichen.
Ich habe 2 Rechner, mit genau gleicher cpu. Der RAM ist unterschiedlich, die RTX 2060 ist von 2 verschiedenen Herstellern.
Die RTX habe ich im Takt und Stromverbrauch auf das gleiche Level eingestellt.
Es gelingt nur sehr selten, das beide Rechner den gleichen Test mit gleichem Ergebnis abliefern.
Teilweise Abweichungen von 20 Elo. Vor allem wenn ich Lc0 mit settings teste.

Deswegen teste ich auch nicht ständig, es könnte ja sein das ich da für einen ziemlichen Schmarren viel Geld für Strom verplempere.
Ein paar starke Netzwerke konnte ich  trotzdem schon finden.
Ich spiele fast täglich das engine Turnier auf Infinitychess mit, und meine Favoriten Netzwerke spielen gut mit.
Und das trotz schwacher Hardware (Eine RTX 2070 plus quadcore PC), im Vergleich zu den restlichen Teilnehmern.
So ein Turnier dauert im Schnitt 8 Stunden, mit EMANs reloader tool kann es unbeobachtet laufen, und wenn ich von der Arbeit heimkomme kann ich noch das ein oder andere Spiel mitverfolgen .

C.K.
Parent - - By Peter Martan Date 2020-02-06 09:30
Clemens Keck schrieb:

Die RTX habe ich im Takt und Stromverbrauch auf das gleiche Level eingestellt.
Es gelingt nur sehr selten, das beide Rechner den gleichen Test mit gleichem Ergebnis abliefern.
Teilweise Abweichungen von 20 Elo. Vor allem wenn ich Lc0 mit settings teste.

Deswegen teste ich auch nicht ständig, es könnte ja sein das ich da für einen ziemlichen Schmarren viel Geld für Strom verplempere.

!!

Und wenn du jetzt außer den LC0- Settings noch ein paar SF- Settings (am Ende gar solche von Branches) Eng-Eng-testen wolltest und mit wirklich unterschiedlichen Eröffnungstestsets, dann ständest du vollends auf verlorenem Posten.

Und SF dev. und Crystal und Eman (um nur willkürlich ausgesuchte 3 zu nennen) sind, wenn man auf Feinheiten in den Parametern Wert legt, wirklich unterschiedlichere Schuhpaare, als ob ein und dasselbe LC0- Netz mit Kiudee oder Kiudee "mod"
http://talkchess.com/forum3/viewtopic.php?p=827780#p827780
läuft, besonders, wenn die Hardware- Zeit nicht die kürzeste und sparsamste ist, für die du überhaupt signifikante Unterschiede bekommst.

Oder ob der Contempt ein und desselben Fisches + oder - 24 ist, nicht einmal 100 und -100 macht gegen die besten Konkurrenten (oder gegen sich selbst ) im Eng-Eng mit etwas längerer Hardware-TC einen Unterschied, der auch nur im entferntesten etwas mit Resultaten gegen einen Mix zu tun hat, in dem auch ein paar schwächere Engines mitspielen. Dazu ist der Contempt nämlich gedacht, um im Spiel gegen Schwächere mehr Punkte zu machen, nicht im Selfplay.


Sch...lechte Elo sind das, die man so misst, sogenannte Scheelo.
Parent - - By Lothar Jung Date 2020-02-06 10:25
„Wer mißt, mißt Mist.“ Physikerweisheit
„It‘s hard to hit a moving target.“ Militärfeststellung
„Ceteris  paribus“  „unter sonst gleichen Bedingungen“  Wissenschaftliche Untersuchungsmaxime
„Der Einfluss von (nicht systematischen) Messfehlern kann durch häufige Versuchwiederholungen reduziert werden.“ Gesetz der Großen Zahlen
Parent - By Peter Martan Date 2020-02-06 12:57 Edited 2020-02-06 13:05
Lothar Jung schrieb:

„Der Einfluss von (nicht systematischen) Messfehlern kann durch häufige Versuchwiederholungen reduziert werden.“ Gesetz der Großen Zahlen

Hier handelt es sich aber großteils um systematische oder zumindest System- immanente Messfehler. Bei denen helfen dir noch so große Zahlen, wie du schon richtig selbst vermutest, wenn du von "nicht systematischen" Fehlern schreibst, einen Sch...marrn.

Scheelo sind es, die du misst, wer misst misst Mist, wer Scheelo misst, misst Sch...ier unübertragbare Elo, man könnte auch Sch...einelo zu ihnen sagen, weil der eigentliche Sinn der Sache Eloformel, dir ein bisschen was von den großen Zahlen zu ersparen und trotzdem Werte zu bekommen, die irgendwo zwischen zwei Spielern, die eben nicht Unmgengen von Partien unter genau gleichen Matchbedingungen direkt gegeneinander spielen, bis die Errorbar kleiner wird als ihre Elo- Differenz, auf zu erwartende Matchresultate im Vergleich zu anderen Spielern zu treffen, gegen die sie noch keine Unmgengen vorn Partien direkt ausgespielt haben, dieser eigentlich Sinn der Eloformel durch systemimmanente Messfehler ad absurdum geführt wird, egal, mit wie großen Zahlen du diese immer wieder systematisch auftretenden Fehler wiederholst.
Up Topic Hauptforen / CSS-Forum / Test-Strategie bei: "Eine Testreihe beginnt mit ungewöhnlichen Ergebnissen"

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill