Thomas Zipproth schrieb:
Interessantes Ergebnis, danke für den Test.
Das bedeutet, das die aktuelle Version auch dieser Reihe von im Testframework erfolgreichen Versionen immer noch gleich oder schlechter spielt:
Code:
+ 6386 -6295 =27531
+ 839 - 715 = 3478
+ 3217 -3096 =14418
+ 1605 -1458 = 6141
+ 6020 -5918 =20108
In letzter Zeit habe ich auch eine Reihe von nicht nachvollziehbaren Stockfish Ergebnissen erlebt, welche mich so langsam ein Problem im Framework vermuten lassen.
Ab und zu reiche ich eine Testversion ein, wenn ein privater Test ergibt, das diese Version mit ziemlicher Sicherheit zumindest nicht schlechter spielt als die aktuelle.
Interessanterweise sind alle diese Versuche grandios gescheitert, ohne das ich bisher eine Erklärung dafür gefunden habe.
Bei dem letzten Versuch war es besonder krass. Ich hatte etwas vielversprechendes gefunden und meine 3 Rechner vorsichtshalber 24 Stunden laufen lassen.
Das Ergebnis bei dieser Testversion war folgendes:
Code:
14 Sekunden Partien: +1611 -1608 =5898
15 Sekunden Partien: +1494 -1416 =5685
16 Sekunden Partien: +1394 -1313 =5365
Das Ergebnis im Test-Framework:
Code:
15 Sekunden Partien: +951 -1041 =3649
Also nach relativ kurzer Zeit klar schlechter, trotz der vorausgegangen positiven Resultate.
Die Tests erfolgten mit einer exakten Kopie des Testframeworks, nur mit 3 unterschiedliche Zeiten.
Vielleicht kannst du aus Elo-theoretischer Sicht beurteilen, wie wahrscheinlich ein solches Framework Ergebnis nach den vorausgegangenen Tests ist?
Thomas
Naja, also klar schlechter ist das Ergebnis im Framework eigentlich nicht. 49.2%, wenn ich richtig rechne. Also -5 oder -6 Elo. und das bei 5641 Partien, was eine Errorbar von +/-7 bedeutet. Ergo liegt das Ergebnis noch innerhalb der zu erwartenden Schwankungsbreite und ist somit gar nicht sicher schlechter. Und deine Ergebnisse ergeben 50.3% aus 25784 Partien. Das wäre eine Errorbar von knapp +/-4 Elo. Also hat man eine Gesamtvergleichserrorbar der beiden Ergebnisse von knapp +/-11 Elo und die Ergebnisse liegen 1.1% auseinander, also knapp 8 Elo.
Also ist statistisch gesehen eigentlich alles im grünen Bereich (der Errorbars)...
Das ist eben die Crux bei solchen Messungen: Wenn es um so geringe Schwankungen (im Ein-Prozent-Bereich) geht, müßten eigentlich noch sehr viel mehr Partien absolviert werden, als ein paar Tausend oder 25000. Hier wären Größenordnungen von jeweils ca. 100000 Partien anzuraten. Ob das mit den heutigen technischen Mitteln in einem halbwegs vernünftigen Zeitrahmen realisierbar ist, ist eine andere Frage. Aber dann hätte man bei zwei zu vergleichenden Engineversionen eine Errorbar von jeweils nur noch knapp +/-2 Elo und somit eine Vergleichserrorbar von nur noch knapp +/-4 Elo. Das wäre dann so etwa ein gutes halbes Prozent, was man statistisch noch gesichert auseinanderhalten könnte.
Und wenn man nur Stockfish alt gegen Stockfish neu im Direktvergleich gegeneinander spielen lassen will, wie im Framework, dann sollten es eben 200000-250000 Partien sein, wenn man so geringe Zuwächse (oder leichte Regressionen) messen wollte.
Wahrscheinlich ist das Problem des Frameworks genau das: viel zu wenige Partien, um so minimale Änderungen, wie sie einzelne Patches bedeuten, statistisch gesichert messen zu können. Das führt dann dazu, daß Zufallsschwankungen die eigentlichen Veränderungen, die man ausmessen will, überlagern (können). Und dann meint man, merkwürdige Effekte im Framework zu sehen, obwohl es nur zufällige statistische Schwankungen im Errorbarbereich sind. Wir könnten dieses Phänomen passenderweise den Frank-Quisinski-Effekt nennen...
Gruß - Stefan