Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Houdini 2.0b Personality im Test
- - By Stefan Pohl Date 2011-10-30 14:11
Hallo zusammen,

hier die Ergebnisse des besten Settings (erstellt per Hex-Editor) von Houdini 2.0b, das ich bisher gefunden habe. Gespielt mit 60 neutralen, ausgewählten Vorgabestellungen aus Frank Quisinskys Downloadangebot. Gespielt wurde ohne TBs mit nur einem Core pro Engine unter der LittleBlitzer-GUI mit dem flotten aber nicht überschnellen Tempo 30 Sekunden + 1 Sekunde Fischer-Bonus. 128 MB Hash, keine Bücher.

Houdini 2.0b xp   - Houdini 2.0b x64       56.5 - 63.5    +34/-41/=45    47.08%
Houdini 2.0b xp   - Rybka 4.1                  72.5 - 47.5    +48/-23/=49    60.42% (IPON 57.5%)
Houdini 2.0b xp   - Critter 1.2 64-bit       75.5 - 44.5    +51/-20/=49    62.92% (IPON 54.5%)
Houdini 2.0b xp   - Stockfish 2.1.1 JA 64bit  85.0 - 35.0 +62/-12/=46    70.83% (IPON 63.5%)
Houdini 2.0b xp   - Komodo64 3               87.5 - 32.5    +69/-14/=37    72.92% (IPON 57%)

Das etwas schwächere Ergebnis im Vergleich zur Default-Engine darf man nicht überbewerten, da solche Inzest-Vergleiche oft merkwürdige Ergebnisse liefern. Die Ergebnisse gegen die großen 4 des Computerschachs sind dafür m.E. umso bemerkenswerter, besonders die Beerdigung von Komodo. Um Fragen zu vermeiden: Komodo funktionierte ordungsgemäß und zeigte unter LittleBlitzer vernünftige Knotenwerte an.
Die Erfolgsquote gegen alle 4 Gegner des Default-Houdini 2.0b in der IPON beträgt 58.1%. Die Erfolgsquote dieses Settings betrug in diesem Wettkampf dagegen unglaubliche 66.8% (!), also 8.7% mehr, was etwa 60 Elo Zuwachs bedeuten würde. Um hier aber gleich mal auf die Euphoriebremse zu treten: Wettkämpfe nähern sich mit längeren Bedenkzeiten tendenziell immer der 50%-Marke an. Die bessere Engine wird also mit zunehmender Bedenk/Rechenzeit immer etwas Elo verlieren. Das ist auch hier sicherlich der Fall und deshalb würde Houdini 2.0b xp sicher einiges an Erfolgsprozenten verlieren, wenn man IPON-Tempo benutzen würde. Dennoch ist das Setting auf jeden Fall interessant.
Das Setting besteht im wesentlichen darin, daß Figurenwerte benutzt wurden, die Ivanhoe nach empfunden sind (100, 330, 342, 500, 950). Außerdem wurden die 4 pawn-shield Parameter um 3 herabgesetzt und die 3 pawn-storm Parameter um 6 erhöht, um ein etwas aggressiveres Spiel zu erreichen. Das Setting könnte prinzipiell auch in Houdini 1.5a benutzt werden, da die Paramter-Einteilung identisch ist. Allerdings habe ich es mit Houdini 1.5a nicht getestet, ob es auch dort gut wirkt ist daher unklar. Ich schreibe jetzt hier zunächst die Text-Strings der beiden Default-Engines hin und dann den des Settings. Man muß dann nur mittles eines Hex-Editors den Text-String der jeweiligen Original-Engine durch den neuen Setting-Text-String ersetzen. Das ist eine Sache von einer Minute...

Houdini 1.5a Original:
5D717974912A20202020202020202020202020202020202020202020202020202020202020

Houdini 2.0b Original:
5D717974702A2020202020202020202020202020202020202020202020201E2328161C1E20

Houdini 2.0b Pohl Setting (auch in Houdini 1.5a einsetzbar):
64828E7D642D2020202020202020202020202020202020202020202020201B202513222426

Viel Spaß damit. Bitte Ergebnisse posten.

Grüße an alle - Stefan
Parent - - By Erdogan Günes Date 2011-10-30 14:26
(100, 325, 350, 550, 1000) und fürs Läuferpaarbonus ( 50 )

Wäre jetzt mein vorschlag, wenn das mal einer testen würde bitte

Bye Erdo
Parent - By Stefan Pohl Date 2011-10-31 14:41
[quote="Erdogan Günes"]
(100, 325, 350, 550, 1000) und fürs Läuferpaarbonus ( 50 )

Wäre jetzt mein vorschlag, wenn das mal einer testen würde bitte

Bye Erdo
[/quote]

Habs versucht, das Ergebnis war nicht gut...War allerdings nur ein Schnelltest über 150 Partien.

Gruß - Stefan
Parent - - By Peter Martan Date 2011-10-31 10:33
Hallo Stefan!
Danke für die Testergebnisse, bin selbst halt nach wie vor hauptsächlich an Taktik- Biestern interessiert.
BTW, Matthias Gemuhs tool funktioniert jetzt auch für 2.0b:
http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=431266&t=40863&sid=a5fdffc00f8c2276a9c963a29b052544
Parent - By Michael Scheidl Date 2011-10-31 13:53 Edited 2011-10-31 14:02
Es funktionieren auch die 2.0b-Settings mit 1.5a. Mich hat der direkte Vergleich der Bewertungsfunktionen interessiert, daher ist es logisch das auf einer fixen Rechentiefe zu testen. Ich habe das unter Arena, mit Gaviotas-Zugriff (Viersteiner) und Suchtiefe 7 getestet:

Zitat:
   Engine          Score                                                  Ho                                                 Ho    S-B
1: Houdini 1.5a    26,5/50 ·················································· ==11==000==0110010111=1=0==01=0==0=101=1=110=10110  622,75
2: Houdini 1.5a-2d 23,5/50 ==00==111==1001101000=0=1==10=1==1=010=0=001=01001 ··················································  622,75

"2d" ist Houdini 1.5a mit den Settings von Version 2.0b. Das ist kein statistisch relevantes Ergebnis, aber man kann sagen daß H15a mit den H2b-Settings im direkten Vergleich nicht spektakulär stärker ist.

(Test war mit S.Canbaz' Top-25 Openings)
Parent - - By Stefan Pohl Date 2011-10-31 14:42
[quote="Peter Martan"]
Hallo Stefan!
Danke für die Testergebnisse, bin selbst halt nach wie vor hauptsächlich an Taktik- Biestern interessiert.
BTW, Matthias Gemuhs tool funktioniert jetzt auch für 2.0b:
http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=431266&t=40863&sid=a5fdffc00f8c2276a9c963a29b052544
[/quote]

Yep, danke für die Info, da kann ich ja meinen Hex-Editor und meinen Taschenrechner wieder beurlauben.

Gruß - Stefan
Parent - - By Peter Martan Date 2011-10-31 18:11
Hab aber nach ein paar Versuchen festgestellt, dass da zumindest bei mir mit 2.0b Pro die Werte nicht so bleiben, wie man sie einstellt, wenn man die .exe dann verwendet.
Hab das Matthias Gemuh im talkchess schon geschrieben, mal sehen, ob er es reproduzieren kann.
http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=431308&t=40863
Pack deinen Taschenrechner vielleicht doch noch nicht weg.
Parent - - By Peter Martan Date 2011-10-31 19:27
Und was für ein Tempo an Service:
http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=431313&t=40863
Scheint nur an der zu niedrigen Untergrenze der range der Materialwerte der Dame gelegen zu haben.
Mit 860 als niedrigstem Wert funktioniert's bei mir jetzt wieder.
Parent - By Peter Martan Date 2011-10-31 19:57
Parent - - By Frank Brenner Date 2011-10-31 13:10
Houdini 2.0b xp   - Houdini 2.0b x64       56.5 - 63.5    +34/-41/=45    47.08%
Houdini 2.0b xp   - Rybka 4.1                  72.5 - 47.5    +48/-23/=49    60.42% (IPON 57.5%)
Houdini 2.0b xp   - Critter 1.2 64-bit       75.5 - 44.5    +51/-20/=49    62.92% (IPON 54.5%)
Houdini 2.0b xp   - Stockfish 2.1.1 JA 64bit  85.0 - 35.0 +62/-12/=46    70.83% (IPON 63.5%)
Houdini 2.0b xp   - Komodo64 3               87.5 - 32.5    +69/-14/=37    72.92% (IPON 57%)

Hi Stefan,

das sind ja bereits sehr gute Anfangsergebnisse. Die sind so gut, dass ich an deiner Stelle den Test fortsetzen und auch einmal andere Startstellungen bzw zusätzliche Gegner dazunehmen würde.

Wenn du jetzt mit dem Test stoppst sind deine Settings nicht gut genug getestet und alles hängt schwebend in der Luft.

Von der Community kannst du kaum auf Fortsetzung deiner Tests setzen ...

Gruß Frank.
Parent - - By Stefan Pohl Date 2011-10-31 14:45
[quote="Frank Brenner"]
Houdini 2.0b xp   - Houdini 2.0b x64       56.5 - 63.5    +34/-41/=45    47.08%
Houdini 2.0b xp   - Rybka 4.1                  72.5 - 47.5    +48/-23/=49    60.42% (IPON 57.5%)
Houdini 2.0b xp   - Critter 1.2 64-bit       75.5 - 44.5    +51/-20/=49    62.92% (IPON 54.5%)
Houdini 2.0b xp   - Stockfish 2.1.1 JA 64bit  85.0 - 35.0 +62/-12/=46    70.83% (IPON 63.5%)
Houdini 2.0b xp   - Komodo64 3               87.5 - 32.5    +69/-14/=37    72.92% (IPON 57%)

Hi Stefan,

das sind ja bereits sehr gute Anfangsergebnisse. Die sind so gut, dass ich an deiner Stelle den Test fortsetzen und auch einmal andere Startstellungen bzw zusätzliche Gegner dazunehmen würde.

Wenn du jetzt mit dem Test stoppst sind deine Settings nicht gut genug getestet und alles hängt schwebend in der Luft.

Von der Community kannst du kaum auf Fortsetzung deiner Tests setzen ...

Gruß Frank.
[/quote]

Ich stoppe gar nix. Ich versuche nur zunächst mal ein noch besseres Setting zu finden, was vor allem gegen den default-Houdini mind. 50% holt. Mein Rechner läuft seit Tagen rund um die Uhr. Ein gutes Settings zu finden dauert eben. Und erst, wenn mir nichts mehr besseres einfällt, wird das bis dann beste Setting ausführlicher getestet. Darüberhinaus hat auch dieser erste Test immerhin 600 Partien umfaßt, was ja nun nicht sooooo wenig ist.

Gruß - Stefan
Parent - - By Frank Brenner Date 2011-10-31 15:59
Ich finde es jedenfalls sehr Spannend was du machst.

Aber du bist ja ein alter Hase und kennst die Problematik der Settingtuner:

Der Settingersteller hat eine kurze Testmethode(bei dir 600 Partien) und testet immer und immer wieder mit dieser festen Testmethode.  Das Setting cheatet dann genau diesen Test, auch wenn der Test aus 600 Partien besteht ...

In irgendeinem Schachforum gab es vor über einem Jahr schon mal eine Settingflut mit über100 Settings (ich weiss nicht mehr welche Engine ich glaube Rybka oder ein Derviat von Ry) die angeblich mehr als 80 ELo bringen. Auch hier wurde nur die eine Testmethode immer und immer wieder optimiert. Als dann Ingo Bauer das Setting getestet hat kam nur Rauschen dabei heraus.

Wenn jetzt der Ingo Bauer mit seinen anderen Startstellungen und anderer Zeiteinteilung dein Setting überprüft, so wird vermutlich die Verbesserung ebenfalls in Rauschen (d.h. +/- 16 Elo) übergehen.

Deswegen würde ich dieses vielversprechende Setting auch mal unabhängig mit einem neuen Test verifizieren, der vorher nicht getunt wurde.

Also andere Startstellungen und Zeiteinteilung.
Parent - By Ingo Bauer Date 2011-10-31 17:55
[quote="Frank Brenner"]
...
In irgendeinem Schachforum gab es vor über einem Jahr schon mal eine Settingflut mit über100 Settings (ich weiss nicht mehr welche Engine ich glaube Rybka oder ein Derviat von Ry) die angeblich mehr als 80 ELo bringen. Auch hier wurde nur die eine Testmethode immer und immer wieder optimiert. Als dann Ingo Bauer das Setting getestet hat kam nur Rauschen dabei heraus.

Wenn jetzt der Ingo Bauer mit seinen anderen Startstellungen und anderer Zeiteinteilung dein Setting überprüft, so wird vermutlich die Verbesserung ebenfalls in Rauschen (d.h. +/- 16 Elo) übergehen.
...
[/quote]

Ich nehme an du meinst das hier:

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=35286;hl=Setting

Ja, das Wundersetting mit mehr als 80 Elo plus hatte nach IPON Bedinungen und Bayes dann volle 10 Elo. Die allein waren schon im Rauschen, schaut man genauer hin (siehe mein Posting von damals) bleibt nichts übrig. Natürlich kann man die 10 ELo in einer Liste mitführen und glauben man hätte etwas besseres gefunden ... wie heißt es doch so schön "Jeder nach seinen Fähigkeiten, jedem nach seinen Bedürfnissen!". (Das dürft ihr selber Googeln).

Gruß
Ingo
Up Topic Hauptforen / CSS-Forum / Houdini 2.0b Personality im Test

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill