Hallo Stefan.
Finde es sehr erstaunlich, wie genau deine Messungen den Ergebnissen des Stockfish-Frameworks entsprechen.
Mit der Ausnahme der offiziellen SF4 (und den Ausreisser habe ich auch schon gemessen) passt das ja immer zusammen.
Erstaunt bin ich deshalb, weil nicht anzunehmen ist, dass die Tests gegen ein Teilnehmerfeld immer den Ergebnissen
des SF Test gegen nur die Vorgängerversion entsprechen, wenn zwischen den Versionen nur sehr geringe Spielstärkeunterschiede
liegen. Meine Test gegen einzelne Engines zeigen ein gemischteres Bild, aber insgesamt stimmt die Richtung natürlich,
z.B. SF4 ist immer Stärker als SF3.
Ein Grund könnte sein, dass du mit ähnlich kurzen Bedenkzeiten testest, wie die SF Entwickler, und somit bestimmte Verbesserungen
messen kannst, die bei längeren Bedenkzeiten nicht mehr so leicht nachzuweisen wären, oder vielleicht auch gar nicht mehr existieren.
So wie viele SF patches im zweiten Testlauf mit "langer" Bedenkzeit durchfallen, sollten die Patches mit noch längeren Bedenkzeiten
vermutlich ebenfalls nicht immer bestehen. Ich vermute Mal, die SF Entwickler haben hier schon fleißig getestet, ab wann sich
längere Tests noch lohnen, das Ergebnis wird aber sicherlich ein Kompromiss, zwischen Genauigkeit und Aufwand der Test sein.
Zitat:
um wie viel eine neue Engine-Version im Vergleich zur alten Version zugelegt hat. Und da spielt es ja keine Rolle, ob eine Engine mit mehr Zeit besser zurecht kommt, oder nicht, weil das ja für ihre Vorgängerversion auch schon gilt
Vermutlich verstehe ich das falsch, aber es gibt natürlich haufenweise Verbesserungen einer Engine, die sie im Vergleich zur letzten Version mit
"kürzerer Bedenkzeit besser zurechtkommen" lassen, jede Optimierung des Suchalgorithmen ist als solche zu sehen. Eine Verbesserung des
Suchalgorithmus lässt die Engine mit der Resource Zeit effizienter umgehen und die Auswirkung steigt, je knapper diese Resource ist.
Viele Grüße
Roland