Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SF211 und diverse Aggressiveness-Werte
- - By Benno Hartwig Date 2011-06-27 19:10 Edited 2011-06-27 19:13
Angeregt durch Franks Stockfish-PHQ wollte ich ich mal genauer erfahren, wie sich z.B. Aggressiveness eigentlich so auswirkt.
und ich habe bei 1m-1s jeweils 148 Partien mit Vorgabestellungen und Farbvertauschung gegen Houdini spielen lassen.
Wollte schauen, ob sich da in dem Rauschen eine Struktur (ein angedeutetes Masimum erkennen lässt)
Gespielt wurde mit 29 Werten für Aggressiveness von 0 bis 200.
Ich hatte zunächst ein annähernd gleich verteiltes Muster über diesen Bereich gelegt,
und ich habe dann in der Nähe der besonders interessanten Ergebnisse den Test wiederholt, um auf echte Stärken aufmerksam zu werden.
Herausgekommen ist



Es rauscht gewaltig!
Bei 150 fand ich zunächst auch gute Werte, aber dann auch sehr schlechte direkt in der Nähe.
Dann irgendwann war bei 110 ein Superergebnis, aber 100 und 112 waren sauschlecht.
Rauschen!

Ich habe mal eine Parabel-Trendlinie rübergelegt zur Klärung der Frage:
"Welche Parabelförmige Spielstärkeverteilung (welcher Buckel) passt zu den ermittelten Ergebnissen am besten?"
Herausgekommen ist die rote Linie, und da wäre das Maximum wirklich bei 'gut 100', wobei die Werte zwischen 80 und 140 kaum schlechter wären.

Benno
(Das Rauschen bei 148 Partien ist doch verdammt stark)
(Obwohl mit Vorgabestellungen gespielt wurde, unterscheiden sich die Einzelergebnisse bei fast gleiche Werten (z.B. 108 und 110 und 112) gravierend! Da kommt keine Partie das zweite Mal)
Parent - - By Ingo Bauer Date 2011-06-27 19:25 Edited 2011-06-27 19:30
Hallo Benno

Hast du die 148 Partien als Singlecore oder MP erspielt? In beiden Fällen wäre eine Wiederholung der selben Spiele, z.B. bei 150 interessant um mal zu sehen wie weit bei 148 Ergebnissen dieses wirklich wiederholbar ist. Es wäre ein weiterer Indikator wie sinnvoll ein Test gegen EINE Engine ist. Bei MP würde ich bei dem selben Setting noch mehr "Rauschen" erwarten als bei der Singelversion.

Gruß
Ingo

PS: Und nur weil du 'keine Wiederholung' erwähnst. Ich habe meine 140000+ Spiele mal auf Dubletten durchsucht. Also Dubletten bis Zug 255 = 0! Nicht ein Spiel doppelt, das hat mich doch erstaunt!
Parent - - By Benno Hartwig Date 2011-06-28 07:15
[quote="Ingo Bauer"]In beiden Fällen wäre eine Wiederholung der selben Spiele, z.B. bei 150 interessant um mal zu sehen wie weit bei 148 Ergebnissen dieses wirklich wiederholbar ist. [/quote]Ja, das wäre interessant.
Ich vermute, dass bei Wiederholung auch mit allen diesen Aggressiveness-Werten ein völlig neues Rauschen entsteht, dass sich auch bei gleichem Parameter eine andere Partie entwickelt, der Zufall neu zuschlägt.
Ich denke, dass kleine Unterschiede in der Rechnerauslastung zu etwas anderem Timing führen, einen Zug und damit die gesamte Partie ändern.
Aber das wäre zu prüfen. Vielleicht passiert das ja auch nicht.

Benno

PS:
den einsamen Spitzenreiter 110, der bei weitem das beste Ergebnisse brachte, habe ich unter gleichen Bedingungen auch gegen Rybka4.1 antreten lassen.
Und er schnitt etwas schlechter ab als das original-Setting.
Rauschen!
Parent - - By Ingo Bauer Date 2011-06-28 07:33 Edited 2011-06-28 07:37
Hallo Benno

[quote="Benno Hartwig"]
[quote="Ingo Bauer"]In beiden Fällen wäre eine Wiederholung der selben Spiele, z.B. bei 150 interessant um mal zu sehen wie weit bei 148 Ergebnissen dieses wirklich wiederholbar ist. [/quote]Ja, das wäre interessant.
Ich vermute, dass bei Wiederholung auch mit allen diesen Aggressiveness-Werten ein völlig neues Rauschen entsteht,...
[/quote]

Ich habe in der Vergangenheit sehr viel mit den Shreddersettings rumgespielt, deswegen meine Frage. Allerdings habe ich damals an einer Schraube gedreht und deutlich mehr Spiele gegen mehrere Gegner gemacht. Wie du, vermute auch ich, dass bei solch kurzen Sätzen beim Wiederholen ein ganz anderes Rauschen zustande kommt ... was mich am Sinn solcher Statistiken zweifeln läßt.

Und das schlimmste von allem ... ich habe Setting gefunden die für sich schlechter waren, in Kombination aber besser (wenn auch minimal) als das Original ... an dem Punkt habe ich dann mit Setting-Spielereien aufgehört

Gruß
Ingo
Parent - - By Benno Hartwig Date 2011-06-28 08:10
[quote="Ingo Bauer"] Wie du, vermute auch ich, dass bei solch kurzen Sätzen beim Wiederholen ein ganz anderes Rauschen zustande kommt ... was mich am Sinn solcher Statistiken zweifeln läßt.[/quote]Aber auch Rauschen enthält bisweilen viel Information. (seti@home kann viel dazu berichten)
Ich versuchte daher mit den Methoden der Ausgleichsrechnung an solche Informationen heranzukommen.
http://de.wikipedia.org/wiki/Ausgleichungsrechnung
Prinzipielle könnte man da Testreihen bemühen, bei denen jeder Parameterwert nur einmal oder wenige Male getestet wird.
Interessant vielleicht auch, wenn man mit mehreren Parametern gleichzeitig spielt, Ausgleichsrechnung über mehrdimensionale Parameterräume.
Getriggert vielleicht über Scripte, die die Arena-Konfigurationsdateien anpassen und diese vielen Engines und das Turnier hier automatisiert eintragen.
Schach, Computerschach und die Beschäftigung mit Computern allgemein hat sicher auch viel mit einem kindlichen Spieltrieb zu tun...

Benno
Parent - By Ingo Bauer Date 2011-06-28 08:55
Hallo

[quote="Benno Hartwig"]
[quote="Ingo Bauer"] Wie du, vermute auch ich, dass bei solch kurzen Sätzen beim Wiederholen ein ganz anderes Rauschen zustande kommt ... was mich am Sinn solcher Statistiken zweifeln läßt.[/quote]Aber auch Rauschen enthält bisweilen viel Information. (seti@home kann viel dazu berichten)
Ich versuchte daher mit den Methoden der Ausgleichsrechnung an solche Informationen heranzukommen.
http://de.wikipedia.org/wiki/Ausgleichungsrechnung
Prinzipielle könnte man da Testreihen bemühen, bei denen jeder Parameterwert nur einmal oder wenige Male getestet wird.
Interessant vielleicht auch, wenn man mit mehreren Parametern gleichzeitig spielt, Ausgleichsrechnung über mehrdimensionale Parameterräume.
Getriggert vielleicht über Scripte, die die Arena-Konfigurationsdateien anpassen und diese vielen Engines und das Turnier hier automatisiert eintragen.
Schach, Computerschach und die Beschäftigung mit Computern allgemein hat sicher auch viel mit einem kindlichen Spieltrieb zu tun...

Benno
[/quote]

Danke für den Wikipedia Link - hochinteressant.

Ich hoffe das deine Spielereien zu etwas führen ...

Gruß
Ingo
Parent - - By Michael Scheidl Date 2011-06-27 21:35
Zitat:
(Das Rauschen bei 148 Partien ist doch verdammt stark)

Das macht nichts; bei einem Hobby kann man nicht immer tausende Partien verlangen. Deine Testmethodik ist jedenfalls hervorragend. Wenn 80...140 gut sind, liegt das Optimum vielleicht bei 110. D.h. was sich mir dann aufdrängen würde ist, eventuell nochmal 100 mit 110 aussagekräftig(er) zu vergleichen. Allerdings befürchte ich, daß die Gegnerwahl diese Resultate beeinflußt. Vielleicht ist 110 optimal anti-Houdini, aber nicht optimal anti-Komodo usw.

War das auf Quadcore? Wenn ich richtig sehe, ist SF 2.1.1 also bei 1m+1s im direkten Duell stärker als Houdini? Kann das bei 3+0 (= Engineraum) dann anders sein?
Parent - By Benno Hartwig Date 2011-06-28 07:08
[quote="Michael Scheidl"]War das auf Quadcore? [/quote]Ach, dann mache ich noch ein 'Eingeständnis'.
Da das alles auf meinem Rechner-für die-täglichen-Aufgaben läuft, habe ich fast mein gesamtes Computerchach-Equipment in einer virtuellen Maschine gekapselt.
Und da läuft alles auf einem Kern, und der läuft ungefähr mit 85% eines direkt betriebenen Kerns (ein Core 2 Duo mit 3,0 GHz).
Sicher bei weitem  nicht 'wissenschaftlich vollwertig', aber schon mit Ergebnissen, deren Betrachtung sich ggf. lohnt.
Benno
Parent - By Frank Quisinsky Date 2011-06-28 07:57
Hi Benno,

gute Idee, guter Test!
Aber anstatt jetzt gegen Houdini zu wiederholen wäre der Test gegen einen Angstgegner interessanter.

Also gegen Critter, taktisch auch sehr gut und PHQ-1 hatte ja gegen Critter ein schlechteres Ergebnis erzielt.
Wenn Du das machst, nehme die 1.01 damit Vergleichswerte zum SWCR Test vorliegen.

Wahrscheinlich wird dabei herauskommen, wie auch als wenn Du Rybka 4.1 nimmst, das die Werte oberhalb von 110 wieder besser werden - Vermutung -.
Die Einstellungen bei PHQ-2, gerade die 150 führten zu der doppelten Anzahl an schnellen Gewinnpartien, meist gegen schwächere Gegner. Von daher ist die Idee die Schraube so hoch zu drehen gar nicht so übel, ganz im Gegenteil. Wird auch immer klarer, dass je aggressiver desto mehr Punkt bei den Starken in einem Spießroutenlauf mit vielen Schwächeren.

Die Anzahl der Partien bei einem Gegner reicht für Deinen Test wie ich finde.
Wiederholst Du den mit 1-2 anderen Gegner haben wir mehr Anhaltspunkte als gegen Houdini zu wiederholen.

Und ...
Problematisch an den ganzen Settings ist, das ja an drei Schrauben gleichzeitig gedreht wird.
Würde ich das jetzt so testen, würde ich wie Du erstmal einzeln testen (also Aggressiveness einzeln) und dann im Kombination mit "Mobility Middlegame".
Dann wieder 1-2 Durchläufe und dann vielleicht noch zwei weitere in Kombination mit Feigheit.

Das Ergebnis wird gut sein, fraglich wird sein ...
Und wie schaut das bei längeren Bedenkzeiten wieder aus.

Falsch machen können wir nicht, denn wir wissen ... zwischen Standard und PHQ-1 liegen nur 8-10 ELO. Drehen wir nicht deutlich höher wird es nicht mehr oder weniger aber es wird nicht weniger wenn wir etwas heruntergehen Und wie Dein jetziger Test schon zeigt ... sehr interessant ... drehen wir noch höher ... Aggressiveness auf 200 fällt Deine Kurve zu 150 deutlich. Genau das ist auch meine Vermutung anhand von ein paar Teststellungen. Höher macht nicht viel Sinn, aber niedriger wird auch nicht so viel mehr bringen. Insofern wird Tuning bei SF wahrscheinlich nicht mehr als 30 ELO bringen, denke ich mir mal so ganz frech.

Denke das sind auch die drei Schrauben bei denen sich etwas regt.
Mobility Endgame, meines Erachtens eher passiver um das Rating etwas zu steigern.
Muss nicht getestet werden, da SF in default schon sehr stark im Endspiel ist.
Da reichen ein paar Stellungen aus um zu sehen wie sich dieser Parameter auswirkt.

Gruß
Frank
Parent - - By Ingo Althöfer Date 2011-06-28 08:44
[quote="Benno Hartwig"]
Herausgekommen ist

[/quote]

Hallo, ein Verbesserungsvorschlag:
Das Diagramm wäre hilfreicher, wenn es nicht die irreführenden
blauen Linien zwischen den blauen Punkten hätte.

Ingo Althöfer.

PS. Das ist eine Sache, die ich auch meinen Studenten immer
wieder zu erklären versuche.
Parent - By Benno Hartwig Date 2011-06-28 08:57
[quote="Ingo Althöfer"]Das Diagramm wäre hilfreicher, wenn es nicht die irreführenden blauen Linien zwischen den blauen Punkten hätte. [/quote]Stimmt. Gerade wo ich doch fortwährend beklage, dass das Rauschen so groß ist, machen diese Zwischenwerte erst recht keinen Sinn.
Ich werde das Bild noch mal austauschen.
Thanx und Grüße,
Benno
Parent - By Benno Hartwig Date 2011-06-29 06:58
[quote="Ingo Althöfer"]Das Diagramm wäre hilfreicher, wenn es nicht die irreführenden blauen Linien zwischen den blauen Punkten hätte. [/quote]Habe die Grafik ersetzt.
Jetzt da einem nicht mehr eine konkrete Kurve vorgegaukelt wird, wirken die Werte noch zufälliger.
Benno
Parent - - By Thomas Cutter Date 2011-06-30 14:45
Mir scheint die Parabel extrem von den beiden äußersten Punkten dominiert zu sein. Wie sieht der Parabel-Fit ohne diese Punkte aus? Doch eher die Gerade?

Gruß Thomas
Parent - By Benno Hartwig Date 2011-06-30 20:06 Edited 2011-06-30 20:08
Stimmt. Dadurch dass diese extremen Parameterwerte recht schlechte Ergebnisse brachten, zwangen sie der Trendlinie schon weitgehend eine bestimmte Form auf.
Ich habe die Aggressiveness-Werte 0 und 200 mal aus der Liste genommen.
Heraus kam:



Die rote Trendlinie ist ein Polynom vom Grade 3. (Ich wollte gern auch die 'schiefe des Buckels' sehen)

Es ist natürlich auch der eine positive Ausreißer bei 110, der dann maßgeblich die Kurve bestimmt.
OK, letzte Manipulation: den nehme ich auch weg:



So sieht die Kurve aus, wenn die krisselige Punktemenge wirkt und die 3 Extreme herausgenommen wurden.
Die besten Werte scheinen so bei 120 zu liegen, wobei 100 aber kaum schlechter sein dürfte.

Benno
Up Topic Hauptforen / CSS-Forum / SF211 und diverse Aggressiveness-Werte

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill