Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Beobachtungen bei Testserien. Frage an alle eifrigen Tester
- - By Clemens Keck Date 2010-02-16 12:19
Hallo zusammen

mir ist schon öfter aufgefallen, dass es in engine-matches mit (möglichst) gleichen Bedingungen-zB Vorgabestellungen- teilweise unerklärlich starke Abweichungen gibt. Ich hatte das schon immer auf meinem Octa, wenn ich 4 gegen 4 mit ponder ON gespielt habe.
Im HT Experiment spiele ich ja nun auf 2 PCs über die serielle Schnittstelle. Leider muß ich auch hier diese starken Schwankungen feststellen.
Ich spiele ZB ein 12 Zug Buch, 100 Partien. Bekomme einen Schnitt von 40% für Engine A. Nun spiele ich Vorgabestellungen und bekomme einen Schnitt von 45% für engine A (was übrigens auch sehr stark abweicht von CEGT & co.). Wiederhole ich das Vorgabestellungsmatch, bekomme ich nun einen Schnitt von 36% für Engine A. Es sind immerhin 70 Positionen in dieser Vorgabe, also 140 Partien.
Wie soll ich das nun interpretieren?? Was soll ich "glauben"? Muß ich das alles als "wahr" interpretieren, und durch große Partienanzahl den Mittelwert bilden?
Wie sind Eure Erfahrungen? Beobachtet Ihr ähliches, und was haltet Ihr davon?

Gruß, Clemens
Parent - By Benno Hartwig Date 2010-02-16 12:50
[quote="Clemens Keck"]Nun spiele ich Vorgabestellungen und bekomme einen Schnitt von 45% für engine A (was übrigens auch sehr stark abweicht von CEGT & co.). Wiederhole ich das Vorgabestellungsmatch, bekomme ich nun einen Schnitt von 36% für Engine A. Es sind immerhin 70 Positionen in dieser Vorgabe, also 140 Partien.[/quote]
70 Stellung, farbvertauschte Wiederholung: 140 Partien, 2 Durchgänge: also 280 Partien
oder
70 Stellung, keine farbvertauschte Wiederholung: 70 Partien, 2 Durchgänge: also nur 140 Partien?

In beiden Fällen sollte nun dein Schätztwert für die relative Spielstärke von A sein: (45%+36%)/2=40,5%
Solange du keine Unterschiede in der Testreihendurchführung befürchtest, kannst du die Ergebnisse nur so zusammenfassen.

Bei 70 Partien und frech angenommenen 40% remis und einer echten rel. Spielstärke von 40,5% ist die Wahrscheinlichkeit dafür, dass ein Extremergebnis (>=45 oder <=36%) eintritt übrigens imerhin ca. 36%.
In gut einem Drittel von 70-Partien-Reihen wirst du Abweichungen vom richtigen Wert in mindestens dieser Größenordnung haben.

[quote="Clemens Keck"]Was soll ich "glauben"? [/quote]Dass 70-Partien-Serien nur eine sehr unscharfe Aussage ermöglichen.
Bei 140 Partien landest du bei einer Extrem-Wahrscheinlichkeit (>=45 oder <=36%) von gut 16%. Immerhin. Immer noch.

Benno
Parent - - By Timo Haupt Date 2010-02-16 12:50
Hallo Clemens,

eine Abweichung von 9% bei 140 Partien mit den gleichen Vorgabestellungen erscheint mir relativ hoch. Mit geringen Schwankungen muss man immer rechnen (selbst bei SP-Engines), diese hatte ich jedoch immer kleiner als 3% eingeschätzt. Gerhard Sonnabend hat glaube ich schon mal Testreihen interessehalber wiederholt und kam auf ziemlich exakt dieselben Ergebnisse wie beim ersten Testlauf. Ob das ein Zufall war? Oder war die große Abweichung bei dir ein statistischer Ausreißer? Oder liegt es gar am Pondern (Gehard testet m.W.n. ohne Ponder). Da ich selbst auch immer mit Ponder=On teste, interessiert mich diese Thematik sehr. Werde demnächst auch mal eine Testreihe über 100 Partien wiederholen und mir die Abweichung anschauen. Da müssen wir auf jeden Fall dranbleiben...

Viele Grüße
Timo
Parent - - By Ingo Bauer Date 2010-02-16 15:55
Hallo Timo, Hallo Clemens

[quote="Timo Klaustermeyer"]
...
eine Abweichung von 9% bei 140 Partien mit den gleichen Vorgabestellungen erscheint mir relativ hoch.....
[/quote]

Ich habe keine echten Zahlen, aber 9% gegen eine Engine würden mich aus meinen Erfahrungen mit Single Engines eine Augenbraue hochziehen lassen - und weitermachen. Nun testet Clemens aber MP. Alles im Rahmen für mein Bauchgefühl. Ich jdenfalls gebe auf 100 Serien gar nichts.

Clemens, was deinen Test betrifft kannst du mit 140 Spielen leider nichts anfangen. Ich habe mal tolle Setting mit 170 Vorgabestellungen (also 340 Spiele) Shredder-Setting gegen Rybka gemacht und bekam auch Settings die 5,6,7% besser lagen als default. Nachdem im Test gegen viele Engines aber nichts herauskam habe ich den Test gegen Rybka wiederholt und hatte 0% Gewinn (nach 340 Spielen!). Alles als Single wohlgemerkt! Sprich um verläßliche Ergebnisse Gleiche-Engine gegen Gleiche-Enigne zu bekommen brauchst du VIEL mehr Spiele.

Ich habe zwei andere Bsp. Ich bin erstaunt wie parallel bei mir S12x64 und S12-32b liefen. Auch wenn die Individualergebnisse völlig verschieden gelaufen sind ist das Gesamtübereinstimmung hervoragend.
Anderes Bsp. Ich habe aus Versehen mal einige 100 (glaube es waren 800) Spiele von Hiarcs gegen mehrere Engines doppelt laufen lassen. Die individuellen Ergebnisse waren unterschiedlich, das Gesamtergebniss so identisch, das ich alle Spiele zusammengeworfen habe!

Ab wieviel Spielen bei Gleiche-Engine gegen Gleiche-Engine ein Ergebniss wiederholbar genau ist kann ich dir nicht sagen, 140 ist auf jeden Fall zu wenig.

Gruß
Ingo
Parent - - By Clemens Keck Date 2010-02-16 23:03
Hallo Ingo

momentan frustriert mich das doch sehr. Mit "das" meine ich die Anzahl der zu spielenden Partien, um eine geringe Schwankungsbreite in den Vergleichsmatches zu erzielen.
Ich weiss gar nicht ob ich noch weiter mache im meinem HT Experiment. Ich würde ca. 20-22 Tage(und Nächte) für eine einzige Engine brauchen...Und hab ich dann wirklich "Gewissheit"?

MfG Clemens
Parent - - By Ingo Bauer Date 2010-02-16 23:11
Moin Clemens

[quote="Clemens Keck"]
...
Ich weiss gar nicht ob ich noch weiter mache im meinem HT Experiment. Ich würde ca. 20-22 Tage(und Nächte) für eine einzige Engine brauchen...Und hab ich dann wirklich "Gewissheit"?
...
[/quote]

Ich war auch erstaunt ob deines Vorhabens, ich glaube ich habe das schonmal vorgerechnet.

Gehen wir mal positiv davon aus das von 4echten auf 8HT Kerne 50% Speed rausspringen die auch VOLL von einer Enigne genutzt weren können.

Gehen wir weiter davon aus das von 1 auf 2 Kerne 60 Elo rasuspringen, von 2 auf 4 50, von 4 aug 8 40Elo und du davon 50% hast, also 20 Elo - dann versuchst du hier 20 Elo Schwankungen nachzuweisen - wohlgmerkt bei obiger idealer Rechnung, wenn es dumm läuft sind es vielleicht nur 10 oder 5 oder noch weniger ELo ...

Von vornherein scheint mir das besser zu sein HT auszuschalten und lieber die 200MHz (oder mehr) OC draufzulegen. Da weiß man was man hat!

Gruß
Ingo
Parent - - By Peter Martan Date 2010-02-17 06:43
[quote="Ingo Bauer"]
Gehen wir mal positiv davon aus das von 4echten auf 8HT Kerne 50% Speed rausspringen die auch VOLL von einer Enigne genutzt weren können.

Gehen wir weiter davon aus das von 1 auf 2 Kerne 60 Elo rasuspringen, von 2 auf 4 50, von 4 aug 8 40Elo und du davon 50% hast, also 20 Elo - dann versuchst du hier 20 Elo Schwankungen nachzuweisen - wohlgmerkt bei obiger idealer Rechnung, wenn es dumm läuft sind es vielleicht nur 10 oder 5 oder noch weniger ELo ...

Von vornherein scheint mir das besser zu sein HT auszuschalten und lieber die 200MHz (oder mehr) OC draufzulegen. Da weiß man was man hat!
[/quote]

Moin!
Ein bisschen klingt das, wenn ich es zusammenfassend interpretieren darf für mich, nach, von allem anderen hat man zwar vielleicht  auch noch was, man weiß es nur schon gar nicht mehr.

Und was bitte hat man von 200 MHz, wenn man von guten 2000 ausgeht? Sag nicht 10%, weil die Frage war ja, was bringt's schachlich.
Kommt jetzt natürlich auf die engine an, aber wir reden ja von solchen, die auf einem Kern schon an die 3000 haben, wenn ich jetzt mal nur deinen Gewinn von einem auf 8 Kerne addiere, hab ich statt 3000, 3150, richtig?
Dass ich das schon nur mehr mit sehr vielen Partien auch statistisch absichern kann, ist klar, und dass jeder weitere Zuwachs erst recht weniger und weniger zählt auch.
Ist das Ganze eigentlich eine Sackgasse der Programme und ihrer hardware- Nutzung oder nur eine des Testens, deiner Meinung nach?
Parent - By Ingo Bauer Date 2010-02-17 07:22
Moin

[quote="Peter Martan"]
Und was bitte hat man von 200 MHz, wenn man von guten 2000 ausgeht? Sag nicht 10%, weil die Frage war ja, was bringt's schachlich.
[/quote]

Die Antwort muß lauten; Es bringt SICHERE 10%, im Gegensatz zu völlig unklaren X-Elo bei HT.

[quote="Peter Martan"]
...
Ist das Ganze eigentlich eine Sackgasse der Programme und ihrer hardware- Nutzung oder nur eine des Testens, deiner Meinung nach?
...
[/quote]

Na ja die 150Elo sind IDEALFALL, unter realen Bedinungen bin ich sicher das bei den meisten deutlich weniger übrigbleibt.
Ja, eine Sackgasse ist es insofern als das sich Schach schlecht parallelisieren läßt. Allerdings weiß man ja nie ob morgen jemand mit einer genialen Idee um die Ecke kommt, die Schachengines auf Grafikkarten mit sozusagen x-hundert Kernchen perfekt nebeneinander laufen lassen kann!?

Gruß
Ingo
Parent - - By Gerhard Sonnabend Date 2010-02-16 16:47
[quote="Timo Klaustermeyer"]
Hallo Clemens,

eine Abweichung von 9% bei 140 Partien mit den gleichen Vorgabestellungen erscheint mir relativ hoch. Mit geringen Schwankungen muss man immer rechnen (selbst bei SP-Engines), diese hatte ich jedoch immer kleiner als 3% eingeschätzt. Gerhard Sonnabend hat glaube ich schon mal Testreihen interessehalber wiederholt und kam auf ziemlich exakt dieselben Ergebnisse wie beim ersten Testlauf. Ob das ein Zufall war? Oder war die große Abweichung bei dir ein statistischer Ausreißer? Oder liegt es gar am Pondern (Gehard testet m.W.n. ohne Ponder). Da ich selbst auch immer mit Ponder=On teste, interessiert mich diese Thematik sehr. Werde demnächst auch mal eine Testreihe über 100 Partien wiederholen und mir die Abweichung anschauen. Da müssen wir auf jeden Fall dranbleiben...

Viele Grüße
Timo
[/quote]

Es ist genau so wie Du es im Gedächtnis hast, Timo.
Zwischenzeitlich habe ich sechs 100er-Serien wiederholt, 5 bewusst
und eine "aus Versehen". Die grösste Abweichung liegt bei einem
Punkt Unterschied. Genau so wie Du vermute ich, dass bei PB=on die
ganze Sache schon mal grössere Abweichungen bringen kann.
Meine Tests liefen (und laufen) alle mit 4-CPU-Engines und PB=off.

Viele Grüsse,
G.S.
Parent - - By Ingo Bauer Date 2010-02-16 18:03
[quote="Gerhard Sonnabend"]
... Genau so wie Du vermute ich, dass bei PB=on die
ganze Sache schon mal grössere Abweichungen bringen kann.
Meine Tests liefen (und laufen) alle mit 4-CPU-Engines und PB=off.
...
[/quote]

Hmm, meine abweichenden Test liefen natürlich auch mit Ponder ON, was dann doch dafür spricht das POFF und PON eben doch ist als nur eine Bedenkzeitverlängerung.

Gruß
Ingo

PS: Ich kanns nicht lassen
Parent - - By Gerhard Sonnabend Date 2010-02-16 18:12
[quote="Ingo Bauer"]
PS: Ich kanns nicht lassen
[/quote]

Macht doch nichts, Ingo.
Ich kann ja nicht mehr als meine Beobachtungen schildern.
Und, in der "Sache" CEGT bist Du in letzter Zeit immerhin
ein wenig "zurück gerudert" !!
Ist doch auch schon was...


Viele Grüsse,
G.S.
Parent - - By Ingo Bauer Date 2010-02-16 18:27
[quote="Gerhard Sonnabend"]
...
Und, in der "Sache" CEGT bist Du in letzter Zeit immerhin
ein wenig "zurück gerudert" !!
Ist doch auch schon was...
...
[/quote]

"Zurück gerudert" bin ich - kein Zweifel, allerdings muß ich es ein wenig relativieren da das Rudern nicht die CEGT verursacht hat, sondern die Tatsache das mir klarer geworden ist wie viel schlimmer die anderen sind. 

Gruß
Ingo
Parent - - By Gerhard Sonnabend Date 2010-02-16 20:25
[quote="Ingo Bauer"]
"Zurück gerudert" bin ich - kein Zweifel, allerdings muß ich es ein wenig relativieren da das Rudern nicht die CEGT verursacht hat, sondern die Tatsache das mir klarer geworden ist wie viel schlimmer die anderen sind. 
[/quote]

Welche anderen ?
Gibts noch mehr ?

Viele Grüsse,
G.S.
Parent - By Ingo Bauer Date 2010-02-16 20:41
[quote="Gerhard Sonnabend"]
...

Welche anderen ?
Gibts noch mehr ?

...
[/quote]

Hinter den sieben Bergen, bei den sieben Zwergen soll Gerüchteweise ...

Gruß
Ingo
Parent - - By Kurt Utzinger Date 2010-02-16 14:08
Hallo Clemens
Das erstaunt mich beim Einsatz von MP-Engines wenig. Wenn man
nur bedenkt, wie gross die Schwankungen bei Teststellungen sind,
dann muss sich nicht wundern, dass auch bei Partien von nachvoll-
ziehbaren Resultaten nur geträumt werden kann.
Mfg
Kurt
Parent - - By Jens Heerklotz Date 2010-02-17 11:30
So isses Kurt.

Daher gilt zum schnellen und verlässlichen Enginetest:

1.) "single" Spielen
2.) möglichst eine solide Anzahl an Partien
3.) lieber 10000 Blitzpartien als 50 lange Partien (gefällt dir nicht Kurt, ist aber so)

Es geht wirklich um Statistik und Toleranzen/ Abweichungen. Da sind nunmal ein Tausender
5 Minuten- Spiele "besser" und signifikanter in Ihrer Aussage als ein dutzend langer Turnier-
partien...

Gruss
Parent - By Kurt Utzinger Date 2010-02-18 12:16
[quote="Jens Heerklotz"]
So isses Kurt.

Daher gilt zum schnellen und verlässlichen Enginetest:

1.) "single" Spielen
2.) möglichst eine solide Anzahl an Partien
3.) lieber 10000 Blitzpartien als 50 lange Partien (gefällt dir nicht Kurt, ist aber so)

Es geht wirklich um Statistik und Toleranzen/ Abweichungen. Da sind nunmal ein Tausender
5 Minuten- Spiele "besser" und signifikanter in Ihrer Aussage als ein dutzend langer Turnier-
partien...

Gruss
[/quote]

Hallo Jens
"Leider" muss ich Dir Recht geben, solange es nur um Statistik und
Toleranzen/Abweichungen geht. Diese Erkenntnis wird mich trotzdem
nicht dazu bringen, auf 5-Minuten-Spiele umzustellen.
Gruss
Kurt
Up Topic Hauptforen / CSS-Forum / Beobachtungen bei Testserien. Frage an alle eifrigen Tester

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill