Hallo Ingo,
das Problem ist, daß Du einen Effekt nachweisen willst, der im niederen zweistelligen Elo-Bereich liegt. Dazu muß Dein Versuchsaufbau so genau wie möglich sein, ansonsten hast Du viele nutzlose Partien gespielt die gar nichts aussagen.
Ganz wichtig ist eine IDENTISCHE Vergleichsgruppe - und das schaffst Du eben nur mit ponder=off. Ich bin vollkommen Deiner Meinung, daß prinzipiell ponder=on die bessere Methode ist, Engines zu testen, aber bei dem, was Du versuchst geht das so nicht, da die Vergleichsgruppe eben IMMER mit der gleichen Bedenkzeit spielen muß weil es sonst eben keine Vergleichsgruppe ist. Wie angesprochen, Shredder 10+6 ist UNGLEICH zu Shredder 5+3. Wie gesagt, Du solltest ja mit Time-Handicap spielen. Folgender Versuchsaufbau wäre sinnvoll:
Engine X und Engine Y (unsere beiden Vergleichsengines) spielen mit 5+3 gegen 10 ausgewählte Engines die ebenfalls 5+3 als Zeitkontrolle bekommen.
Dann spielen Engine X und Y mit 10+6 wieder gegen die 10 Engines mit 5+3. Nun vergleicht man die Zugewinne von Engine X und Y, insbesondere die Intervalle (Das sollte ausrechenbar sein, ab wieviel Elo Abweichung die Abweichung signifikant wäre - ich würde da wieder auf den Mathe-Lehrer im Forum zurückgreifen, der mag das selber nicht mehr so genau wissen, kennt aber sicher jemanden, der es weiß wie's geht
-Tendenziell würde ich sagen, daß schon ein kleinerer Unterschied als die 95% Intervalle hier ausreicht, aber Stochastik und Bauchgefühl passt meist nicht so ganz zusammen...
Übrigens unbedingt mit Vorgabestellungen spielen, sonst könnte der Effekt der Bücher einstreuen. (Natürlich kann auch die Auswahl der Stellungen das Ergebnis beeinflussen, aber ich halte das für exakter als mit Büchern spielen)
Hauptnachteil der Methode: Du mußt 4000 Partien spielen für Engine X & Y weil die aus Deiner Rangliste nicht nutzbar sind.
Aber alles andere ist eben Unsinn - um einen Unterschied von ein paar Elos herauszuarbeiten mit lediglich 1000 Partien sollten wenigstens die Versuchsbedinungen eindeutig sein. In dem Zusammenhang, um den Zeitunterschied zu vergrößern, was hieltest Du von 2+1 & 10+5 ? Dann hättest Du einen Faktor 5 !
Ich glaube übrigens an Deine untere Schwellwert-Theorie, meines Erachtens hat allerdings die ART der Zeitkontrolle einen viel größeren Einfluß. 5+3 dürfte vom Zeitaufwand ähnlich wie 6+0 sein oder evtl. 40 in 4 - ich würde aber mitunter Abweichungen erwarten. Jedenfalls ist 6+0 auf jeden Fall etwas anderes, weil sinnvolles Zeitmanagement hier sicher eine größere Rolle spielt als bei 5+3. Rein vom Beobachter-Standpunkt finde ich 6+0 übrigens deutlich interessanter - insgesamt ist es aber schon fast ein anderes Spiel...
Andererseits, vergleicht man CEGT 40 in 4 und Deine Rangliste, dann ist der Unterschied nicht allzu groß, auch wenn ponder und andere Wahl der Zeitkontrollen-Art durchaus Unterschiede möglich machen und evtl. in größerem Maße erwarten ließen.
Tja, Du willst ein Statement zum unteren Schwellwert ? Ich hab mich da jetzt drum herum gewurstelt - aber sagen wir mal 1+1 bei heutigen Rechnern produziert immer noch irgendwo sinnvolle Resultate, kürzere Zeiten mögen zu Testzwecken interessant sein aber insgesamt andere Resultate erzeugen. Oder sagen wir es so: erreiche ich eine Steigerung bei Partien in einer Minute oder auch den beliebten 10 Sekunden + 0.1 increment oder gar Partien in einer Sekunde, dann ist es nicht unwahrscheinlich, daß dies auch bei höheren Bedenkzeiten hilft - aber eindeutige Aussagen über die Größenordnung der Steigerung oder gar Rangfolgen sind eher nicht zu treffen. IMO wird da die Bedeutung von zeitkritischen Routinen, dem Zeitmanagement als solches usw. relativ gesehen überbewertet. Eine Zeitkontrolle wie Deine, 5+3, halte ich für hinreichend um die Spielstärke von Engines zu bewerten, genauso wie die 40/20 der CEGT. Die Praxis gibt einem ja auch recht, die Abweichungen zur 40/120 der CEGT z.B. sind ja nicht gerade gigantisch.
Ich ändere übrigens die Engines, die ich da im Vergleich gern sehen würde: Zappa & Spark.
Gruß, Thomas