Benno Hartwig schrieb:
"Wow, eine 20,5 zu 9,5 -Führung. Das kann doch nicht Zufall sein!" wollte ich für einen Moment denken.
Und, doch, es war nur Zufall.
Benno
Bei nur 30 Partien ist das "Ergebnis" etwa auf dem Niveau des Zeitungs-Horoskops. Wie dieses Beispiel mal wieder eindrücklich demonstriert.
Bei Einzelvergleichen wie diesem hier, pendelt sich das Ergebnis nach meiner Erfahrung erst ab ca. 300 Partien auf ein zumindest halbswegs brauchbares Ergebnis ein. Was im Klartext heißt, daß sich dann in den allermeisten Fällen bis zur 1000er Marke nicht mehr viel ändert. Gelegentlich treten aber auch später noch beträchtliche Schwankungen auf. Besonders, wenn die 2 gegeneinander spielenden Engines etwa auf dem gleichen Spielstärkelevel liegen.
Und Gesamtergebnisse eines Testgauntlets einer Engine gegen mehrere Gegner pendeln sich eben dann auch erst ein, wenn sich die Einzelergebnisse stabilisieren. Daher breche ich ja auch LS-Testruns immer frühestens nach 2500 Partien ab, wenn das Ergebnis zu schlecht ist, weil es früher einfach nicht aussagekräftig ist. Nach 2500 Partien sind aber immerhin 250 Partien pro Einzelwettkampf absolviert.
Sehr erhellend ist diesbzgl. auch die Tatsache, daß ich meine LS-Testruns ja auf zwei absolut identischen Notebooks spielen lasse (jeweils 5000 Partien). Ich staune da immer wieder, wie unterschiedlich der Erfolgsscore der getesteten Engine in den zwei Gauntlet-Testruns ist, in denen ja alles komplett identisch ist, außer daß sich die 250 Vorgabestellungen unterscheiden (beide 250er Sets sind aber zufällig durchmischte Vorgaben). Es kommt durchaus vor, daß nach jeweils 200 oder 300 absolvierten Partien der ErfolgsScore um mehr als 10% differiert (!) Selbst 15-20% habe ich da schon gesehen. Da habe ich teilweise schon an der Korrektheit meiner Testabläufe gezweifelt...
Aber peu-a-peu liefen die zwei Scores dann weiter und weiter aufeinander zu, und am Ende des Testruns lagen sie noch nie (!) mehr als 1% auseinander. Was bei zwei mal 5000 Partien deutlich innerhalb der Errorbar liegt. So wie man es auch erwarten würde.
Stefan