Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Houdini 4 und der Contempt-Wert
- - By Benno Hartwig Date 2014-02-23 10:59
Bald nachdem ich vor kurzem meinen Houdini 4 erhielt, habe ich ihn einfach mal gegen Stockfish_14021221_x64_modern_sse42 auf die Reise geschickt.
Sehr knappe Ressourcen: 1m + 1s auf nur einem Kern des i3-2377M, na für einen ersten Eindruck eben.
Auch wenn diese kurzen Zeiten ggf. kaum interessieren, schreibe ich hier mal darüber.
Heraus kam:

1: Houdini_4_AQ_x64B                   527,5/1007
2: Stockfish_14021221_x64_modern_sse42 479,5/1007


Houdini hatte also eine nette 52,38%-Ausbeute, also ein Plus von ca. 16 ELO.

"Nun nimm deinen Gegner doch mal ernst!" hatte ich Houdini dann zugerufen und ihm den Contempt=0 gegönnt.
Heraus kam:

1: Houdini_4_AQ_x64B cont0             782,5/1469
2: Stockfish_14021221_x64_modern_sse42 686,5/1469


Ja, ein wenig 'überlegener' wurde Houdini dadurch: 53,26% Ausbeute, entsprechend vielleicht so 23 ELO.

Und um das Bild komplett zu machen, musste Houdini noch mal mit Contempt=2 ran.
Mich überraschte dann folgendes Ergebnis:

1: Houdini_4_AQ_x64B cont2             718,5/1257
2: Stockfish_14021221_x64_modern_sse42 538,5/1257


Houdini war da also mit 57,16% überlegen!
Das entspricht eine ELO-Differenz von ca. 48 ELO!

Nach meinen Ergebnissen spielt H4 gegen SF bei diesen sehr kurzen Zeiten mit Contempt=2 einigermaßen deutlich am erfolgreichsten!!

Was habt ihr da ggf. für Ergebnisse? Stützen sie diese These? Oder widersprechen sie?
Und wie mag es bei längeren Zeiten und mehr Kernen sein?
Benno
Parent - - By Tom Paul Date 2014-02-23 12:27
Das liegt an deiner schwachen Hardware.
1. Zu wenig Kerne.
2. Was viel wichtiger ist, zu wenig GHz.
3. Laptop Prozessor.

H4 findet auf schwacher Hardware(-daraus folgt niedrigere Tiefe) im Durchschnitt mehr bessere Züge als Stockfish.
Parent - - By Benno Hartwig Date 2014-02-23 13:34

> H4 findet auf schwacher Hardware(-daraus folgt niedrigere Tiefe) im Durchschnitt mehr bessere Züge als Stockfish.


Stimmt wohl. Viellicht nur darum kann H4 hier vorn liegen.

Aber:
Warum war Contempt=2 so besonders erfolgreich?
Ist H4 auch bei längeren Zeiten mit Contempt=2 besonders erfolgreich?
Und ggf. auch gegen andere Enginges?

Benno
Parent - - By Stefan Pohl Date 2014-02-23 13:53
Benno Hartwig schrieb:

Stimmt wohl. Viellicht nur darum kann H4 hier vorn liegen.

Aber:
Warum war Contempt=2 so besonders erfolgreich?
Ist H4 auch bei längeren Zeiten mit Contempt=2 besonders erfolgreich?
Und ggf. auch gegen andere Enginges?

Benno


Ich hatte mal mit Houdini 3 Contemp=2 ein paar tausend Partien unter LS-Bedingungen gemacht und das Ergebnis war deutlich schlechter als der default-Houdini 3. Etwa so auf dem Level wie Contempt=0 glaube ich mich zu erinnern, also so ca. -25 Elo.

Stefan
Parent - - By Benno Hartwig Date 2014-02-24 07:24
Ich habe gerade noch mal Houdini 4 mit Contempt=1 gegen Contempt=2 auf die Reise geschickt. (Auch wenn Robert sowas sicher auch ausgiebig getestet hat.)
Gleiche Bedingungen. Reinste Inzucht. Warum nicht.
Benno
Parent - - By Stefan Pohl Date 2014-02-24 08:18
Benno Hartwig schrieb:

Ich habe gerade noch mal Houdini 4 mit Contempt=1 gegen Contempt=2 auf die Reise geschickt. (Auch wenn Robert sowas sicher auch ausgiebig getestet hat.)
Gleiche Bedingungen. Reinste Inzucht. Warum nicht.
Benno


Naja, ob das so viel bringt?!
Wenn mal beim Testen im Topbereich SaureGurkenZeit ist, lasse ich evt. mal Houdini 4 mit Contempt=2 für die LS-Rangliste durchlaufen. Beim LS-Testrun sind ja nur starke Gegner dabei, allerdings ist Houdini natürlich so stark, daß selbst Engines wie Fire 3 etc. im Vergleich eher schon als schwach einzuordnen sind...
Und nur starke Gegner sollten eigentlich für Contempt=2 eher ungünstig sein.
Aber vielleicht teste ich es mal.

Stefan
Parent - - By Benno Hartwig Date 2014-02-27 22:22
Nö, hat nicht 'so viel' gebracht.
Herausgekommen ist nun im H4-Duell Contempt=1 gegen Contempt=2:

1: Houdini_4_AQ_x64B       737,5/1407
2: Houdini_4_AQ_x64B cont2 669,5/1407

Die Contempt=2-Variante erreichte also nur 47,58%

Interessant war noch, dass diese Variante aber mit
=101111=1=110010=111=100=111=1
startete.
"Wow, eine 20,5 zu 9,5 -Führung. Das kann doch nicht Zufall sein!"  wollte ich für einen Moment denken.
Und, doch, es war nur Zufall.

Benno
Parent - By Stefan Pohl Date 2014-02-28 14:54
Benno Hartwig schrieb:

"Wow, eine 20,5 zu 9,5 -Führung. Das kann doch nicht Zufall sein!"  wollte ich für einen Moment denken.
Und, doch, es war nur Zufall.

Benno


Bei nur 30 Partien ist das "Ergebnis" etwa auf dem Niveau des Zeitungs-Horoskops. Wie dieses Beispiel mal wieder eindrücklich demonstriert.
Bei Einzelvergleichen wie diesem hier, pendelt sich das Ergebnis nach meiner Erfahrung erst ab ca. 300 Partien auf ein zumindest halbswegs brauchbares Ergebnis ein. Was im Klartext heißt, daß sich dann in den allermeisten Fällen bis zur 1000er Marke nicht mehr viel ändert. Gelegentlich treten aber auch später noch beträchtliche Schwankungen auf. Besonders, wenn die 2 gegeneinander spielenden Engines etwa auf dem gleichen Spielstärkelevel liegen.
Und Gesamtergebnisse eines Testgauntlets einer Engine gegen mehrere Gegner pendeln sich eben dann auch erst ein, wenn sich die Einzelergebnisse stabilisieren. Daher breche ich ja auch LS-Testruns immer frühestens nach 2500 Partien ab, wenn das Ergebnis zu schlecht ist, weil es früher einfach nicht aussagekräftig ist. Nach 2500 Partien sind aber immerhin 250 Partien pro Einzelwettkampf absolviert.

Sehr erhellend ist diesbzgl. auch die Tatsache, daß ich meine LS-Testruns ja auf zwei absolut identischen Notebooks spielen lasse (jeweils 5000 Partien). Ich staune da immer wieder, wie unterschiedlich der Erfolgsscore der getesteten Engine in den zwei Gauntlet-Testruns ist, in denen ja alles komplett identisch ist, außer daß sich die 250 Vorgabestellungen unterscheiden (beide 250er Sets sind aber zufällig durchmischte Vorgaben). Es kommt durchaus vor, daß nach jeweils 200 oder 300 absolvierten Partien der ErfolgsScore um mehr als 10% differiert (!) Selbst 15-20% habe ich da schon gesehen. Da habe ich teilweise schon an der Korrektheit meiner Testabläufe gezweifelt...
Aber peu-a-peu liefen die zwei Scores dann weiter und weiter aufeinander zu, und am Ende des Testruns lagen sie noch nie (!) mehr als 1% auseinander. Was bei zwei mal 5000 Partien deutlich innerhalb der Errorbar liegt. So wie man es auch erwarten würde.

Stefan
Parent - By Karl Müller Date 2014-02-25 00:06
werde ich mal testen Contempt 2 . . .
was Contempt 1 oder 0 betrifft bin ich inzwischen nicht mehr so sicher, ob nun die 1  oder die 0 besser ist - auch gegen Stockfish, also gleichwertige Gegner
daher ist Contempt 2 ein Versuch wert - danke Benno für die Anregeung
- By Karl Müller Date 2014-02-24 23:53
auch ich denke, dass H 4 mit single-kern oder nur zwei kerne stärker spielt als Stockfish, aber nur dann . . .  
Up Topic Hauptforen / CSS-Forum / Houdini 4 und der Contempt-Wert

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill