SCCT Rating List - Houdini 2.0 Kayra2

By Stefan Pohl Date 2012-10-06 12:12

Wieder ein neues Setting. Habe mal auf die Schnelle über Nacht 1000 Blitzpartien (30''+400ms) gegen Houdini default spielen lassen. Ergebnis: 501.5 zu 498.5 Punkte. Also keine meßbare Verbesserung. Diese ganzen Settings bringen nichts, zumindest nicht in Elo. Die Spielweise kann sich natürlich schon ändern. Testet man gegen viele schwächere Gegner kann ein aggressives Setting ggf. einen leichten Elo-Gewinn bringen, aber sonst nicht. Settings teste ich daher immer erstmal nur gegen die default-Version derselben Engine. Da werden diese leider immer sehr schnell entzaubert. Naja, wenn Houdini 3 erst mal da ist, interessieren diese Houdini 2 Settings sowieso keine mehr.

Gruß - Stefan

By Sedat Canbaz Date 2012-10-06 12:30

[quote="Stefan Pohl"]
Wieder ein neues Setting. Habe mal auf die Schnelle über Nacht 1000 Blitzpartien (30''+400ms) gegen Houdini default spielen lassen. Ergebnis: 501.5 zu 498.5 Punkte. Also keine meßbare Verbesserung. Diese ganzen Settings bringen nichts, zumindest nicht in Elo. Die Spielweise kann sich natürlich schon ändern. Testet man gegen viele schwächere Gegner kann ein aggressives Setting ggf. einen leichten Elo-Gewinn bringen, aber sonst nicht. Settings teste ich daher immer erstmal nur gegen die default-Version derselben Engine. Da werden diese leider immer sehr schnell entzaubert. Naja, wenn Houdini 3 erst mal da ist, interessieren diese Houdini 2 Settings sowieso keine mehr.

Gruß - Stefan
[/quote]

Thanks for your replay...

But however:
-Please don't mix apple with pear !

Btw,
How many times i need to mention that the current SCCT's conditions are completely different than all available testings (including yours)

Greetings,
Sedat

By Thomas Schoenegger Date 2012-10-06 17:54

Also Sedat, ich habe großen Respekt für deine Arbeit. Habe mir die Spiele Datei runtergeladen und selbst wenn ich das +/- berücksichtige dürfte Kayra2 auf Rang 1 sein.
Sedat, deine Stromrechnung möchte ich nicht bezahlen müssen.
Stefan, auch 1000 Spiele Setting gegen Original sagen rein gar Nichts aus. Das wissen wir doch alle. Interessant wird es ja erst wenn ein Setting besser gegen viele Engines scort. Bei Sedat sehe ich 41 Engines Ansonsten wären ja alle Listenbetreiber dumm. Sie könnten doch gleich Houdini3 gegen Houdini 2 spielen lassen. Bei Gewinn wäre die logische Schlußfolgerung deiner Auffassung nach, ja Houdini 3 muß die Nr.1 sein. Sedats Liste ist eine Blitzliste,ja aber rechne Mal bei einem Zügedurchschnitt von 100 bei 3+2 = 380s und deine Partielänge. Ich zolle Sedat meinen gleichen Respekt wie dir oder Ingo für seine Ipon.
Sedat danke für deine Mühen
Beste Grüße Thomas

By Sedat Canbaz Date 2012-10-06 20:48

By Stefan Pohl Date 2012-10-07 09:42 Edited 2012-10-07 09:50

[quote="Thomas Schoenegger"]
Also Sedat, ich habe großen Respekt für deine Arbeit. Habe mir die Spiele Datei runtergeladen und selbst wenn ich das +/- berücksichtige dürfte Kayra2 auf Rang 1 sein.
Sedat, deine Stromrechnung möchte ich nicht bezahlen müssen.
Stefan, auch 1000 Spiele Setting gegen Original sagen rein gar Nichts aus. Das wissen wir doch alle. Interessant wird es ja erst wenn ein Setting besser gegen viele Engines scort. Bei Sedat sehe ich 41 Engines Ansonsten wären ja alle Listenbetreiber dumm. Sie könnten doch gleich Houdini3 gegen Houdini 2 spielen lassen. Bei Gewinn wäre die logische Schlußfolgerung deiner Auffassung nach, ja Houdini 3 muß die Nr.1 sein. Sedats Liste ist eine Blitzliste,ja aber rechne Mal bei einem Zügedurchschnitt von 100 bei 3+2 = 380s und deine Partielänge. Ich zolle Sedat meinen gleichen Respekt wie dir oder Ingo für seine Ipon.
Sedat danke für deine Mühen
Beste Grüße Thomas
[/quote]

Ein Settingtest ist nicht das gleiche wie eine Engine in einer Liste mit einer Elozahl einzuordnen, eher gleicht ein Setting dem Versuch eine Engine weiterzuentwickeln. Und um das zu tun, ist es einfacher und effizienter zunächst nur gegen die bisherige Version zu testen (beim Settingtest also gegen die Default-Engine) und nur, wenn das vielversprechend aussieht, gegen andere Engines zu testen. Das ist die übliche Vorgehensweise der Entwickler um den Testaufwand überhaupt in erträglichem Rahmen halten zu können, da sie sehr viele Ideen/Versionen erstellen und dann versuchen das Beste herauszufiltern. Auch R.Houdart und das Komodo-Team testen neue Entwicklungsbetas immer erst gegen die Vorläufer und nur wenn das ein deutlich besseres Ergebnis gibt (deutlich über 50%), testet man dann gegen andere Engines.
Die in der Sedat-Liste stärkeren Houdini-Settings basieren im Endeffekt alle auf der T3-Setting-Idee, nämlich mit höheren Pawnstormwerten eine höhere Aggressivität der Engine zu erreichen. Testet man nun so ein Setting gegen viele deutlich schwächere Engines, wird man leicht eine gewisse Elosteigerung feststellen (wie das ja in der Sedat-Rangliste auch der Fall ist). Das passiert, weil ein aggressiveres Setting die Verzerrung ein wenig minimiert, die üblicherweise auftritt, wenn man starke Engines gegen zu schwache Gegner testet. Das hatte ich hier schon mehrmach ausgeführt: Alle Engines sind Autisten und wissen nicht, wie gut bzw. schlecht ihr Gegner ist. Daher wird ein Houdini, wenn er leicht schlechter steht, gerne in ein mögliches Remis durch Dauerschach oder Zugwiederholung einschwenken, auch wenn der Gegner so viel schwächer ist, das er eigentlich die Partien dennoch gewinnen würde. Houdini weiß eben nicht, daß der Gegner so viel schlechter ist. Hat man nun ein aggressiveres Setting, erzeugt man mehr taktische Verwicklungen im Mittelspiel und die Chance erhöht sich, daß eine starke Engine dann früh einen taktischen Schlag gegen eine schwachen Gegner ausführen kann, bevor ein Remis durch Zugwiederholung o.ä. auftritt. Daher scheint ein aggressives Setting in einem solchen Test-Milieu plötzlich besser zu sein als die Default-Engine. Das ist aber eine Täuschung, die darauf basiert, das gegen zu viele zu schwach Gegner getestet wird (s.o.).
Das ist ja der Grund, warum ich weder von der IPON noch von der Sedat-Liste viel halte, wenn es darum geht, die allerbesten Engines zu testen: Es wird gegen zu viele, zu schwache Gegner getestet, was die Ergebnisse verzerrt (sehr starke Engines schneiden eben etwas schlechter ab). Das aggressive Setting reduziert nun diese Verzerrung ein wenig und dadurch scheint es dann besser zu sein als der default-Houdini. Aber das ist leider nur eine Illusion basierend auf falschen Test-Rahmenbedingungen. In meiner alten LS-Liste hatte ich ja auch mal Houdini-Settings getestet (t3 und z glaube ich) und dort konnte keines (trotz großer Partienzahl gegen diverse Gegner) besser scoren (nie außerhalb der Errorbar). Eben weil in der LS-Liste keine so schwachen Gegner vorkommen...

Gruß - Stefan

P.S: Den gleichen Effekt gab es vor einiger Zeit mit dem Stockfish PHQ-Setting in der SWCR-Liste. Auch das schien besser zu scoren, weil es aggressiver spielte. Das PHQ-Setting ist toll, weil Stocki damit super spielt, aber ein Elo-Gewinn ist es gegen gute Gegner mit Sicherheit nicht...

By Robert Houdart Date 2012-10-07 12:25

Stefan, that's a very good summary of the situation.
I've tested the T3 and Kayra settings with 8000 games 2'+2" against the default Houdini 2.0c, and like you I've found no increase in strength.
As you mention, all the "successful" settings in Sedat's list are based on the same trick of increasing the Pawn Storm values which was first proposed by Ben Tennison's T3 settings. I wouldn't be surprised if setting "Contempt=2" in Houdini 2.0c would produce more or less the same result.

Robert

By Frank Brenner Date 2012-10-07 16:59

Ich gebe Dir recht, dass das ganze Setting-Getüttel zumindestens in den letzten Jahren wo ich es verfolge noch nie einen Vorteil gebracht hat.

Die Vorteile waren nur in den (mini-)tests zu beobachten die halt eben gecheatet (getunt) wurden.
Ein allgemeiner Test hat stets gar keinen messbaren Vorteil mehr hervorgebracht.

Wenn das Setting dann noch geheim gehalten wird, halte ich das gaze sogar für SPAM

In folgenden Punkt muss ich Dir aber widersprechen:

Ingos IPON Liste finde ich ausgezeichnet. Ich finde es wichtig, dass viele Engines aufgenommen werden und auch solche die 200-300 ELO Schwächer sind.
Nur mit einer echten großen Basis kann man zuverlässige Ergebnisse produzieren, ansonsten könnten wieder gegen eine kleine Gegnerschaft getunte Ergebnisse auftreten.

Man kann aber sicher auf Engines verzichten die 500+ ELO schwächer sind, weil weil hier die Varianz zu groß ist. (Die Ergebnisse würden sehr stark streuen)
Ansonsten ist es natürlich auch mal klasse zu sehen wie Houdini die alten Brettcomputer aus der 8/16 Bit Ära regelmässig auch mit Turmvorgabe Matt setzt

Einen auf die Einer- und Zehnerstelle genaue Elo Berechnung ist aus diesen Ergebnissen aber nicht mehr ableitbar.

By Michael Scheidl Date 2012-10-06 20:58

Typisch für diese "Setting-Dudes" ist daß sie sich zwar ihrer Erfolge rühmen, aber peinlich genau bemüht sind ihre ach so erfolgreichen Settings geheim zu halten.

By Stefan Pohl Date 2012-10-07 09:46

[quote="Michael Scheidl"]
Typisch für diese "Setting-Dudes" ist daß sie sich zwar ihrer Erfolge rühmen, aber peinlich genau bemüht sind ihre ach so erfolgreichen Settings geheim zu halten.
[/quote]

Das Kayra2 Setting ist nicht geheim, es taugt nur nichts...wie alle anderen Houdini-Settings auch. Leider.

Gruß - Stefan

P.S: Hier sind ein paar der Settings:

Houdini 2.0Baracuda=> 5F758274733021212220222020201E1E1E1E20202020202222202222221E1E2328161C1E20
Houdini 2.0T3=> 5D717974702A2020202020202020202020202020202020202020202020201E23281628323C
Houdini 2.0Z=> 5A7179746E2A2020202020202020202020202020202020202020202020201E22281628323C
Houdini 2.0S=> 5A71797469372020202020202020202020202020202020202020202020201E23281628323C
Houdini 2.0g=> 5F717974702A202020202020202020202020202020202020202020202020202428161E2024
Houdini 2.0c Kayra2=> 5F7C8689982C2020202020202020202020202020202020202020202020201E242A182A333A

By Rainer Maikowski Date 2012-10-07 11:30

Wie gebe ich die settings ein? was bedeuten die Buchstaben und Zahlen? Ich finde sie so nicht in den Einstellungen wieder.
Rainer Maikowski

By Clemens Keck Date 2012-10-07 11:52

Moin Moin

mit dem Houdini Config tool wird das gemacht

http://www.chessgui.com/chess/HoudiConfig.zip

bei ClipBoard mit copy und paste den neuen string einsetzen. Am besten vorher die engine in ein separates Verzeichnis kopieren.

MfG Clemens Keck

By Thomas Schoenegger Date 2012-10-09 07:23

Also, in meiner Rangliste ist Houdini Kayra2 auf Platz 1. Nur starke Gegner und die Elos sind mir eigentlich egal. Mir geht es lediglich um die Rangfolge. Wohin Tests Original gegen Mod führen sieht man sehr schön bei Stockfish, tausende Autoselfplayspiele und wenig bis gar keinem Fortschritt,sorry. Ich persönlich kann es nur Jedem empfehlen selbst zu testen.
Thomas Schönegger

By Stefan Pohl Date 2012-10-09 08:40

[quote="Thomas Schoenegger"]
Ich persönlich kann es nur Jedem empfehlen selbst zu testen.
Thomas Schönegger
[/quote]

Das ist auf jeden Fall ein guter Rat, setzt allerdings auch einigen Enthusiasmus und Durchhaltewillen voraus, sowie die Bereitschaft über die Stromrechnung auch einiges an Geld zu investieren. Generell würde ich es aber immer empfehlen, zumal jede Hardware-Umgebung anders ist. Ich habe mit der LS-Rangliste nur angefangen, weil ich mit den Testbedingungen aller anderen öffentlichen Ranglisten unzufrieden bin (die Mängelliste der einzelnen Listen wäre sehr lang, das aufzuzählen schenke ich mir hier). Und das obwohl ich nur einen einzigen 4core Laptop benutzen kann (braucht dafür aber auch nur 60Watt im Vollast-Schach-Betrieb). Die LS-Rangliste führe ich primär für mich selbst, eben weil ich auch finde, wen die Materie interessiert kann auch selber testen und dann so, wie er es für richtig hält. Daher veröffentliche ich die LS-Rangliste auch nur über das Forum und nicht als eigene Website...Wer sie gut findet, schaut sie sich hier oder auf talkchess an, wer nicht, läßts halt bleiben. Generell ist wohl das Problem, daß es die perfekte Testmethodik nicht gibt - es ist immer eine Menge Kompromiss dabei. Bei meiner LS-Rangliste sind es die sehr kurzen Bedenkzeiten (um mit meinem begrenzten Ressourcen dennoch viele Partien in rel. kurzer Zeit absolvieren zu können) und die hohe Ippo-dichte (um Verzerrungen durch die Hereinnahme zu schwacher Engines zu vermeiden, beschränke ich mich auf die z.Zt. 11 allerbesten Engines (diese Zahl kann in Zukunft aber variieren, das hängt von der weiteren Entwicklung ab) und da ist praktisch alles Ippo-verwandt (mehr oder weniger)).

Gruß - Stefan

P.S: Das Neueinspielen der LS-Rangliste mit doppelter Bedenkzeit ist auf der Zielgeraden und sollte heute Abend fertig werden. Die erste Ausgabe der neuen LS-Rangliste dann wahrscheinlich morgen hier - allerdings noch ohne die neuen Versionen von Stocki, Robbo, Bouquet, Saros. Auch Gull 2 beta2 folgt erst noch. Das dauert dann alles noch mal gut 1 Monat...(mit meinem jetzigen LS-Tempo (45''+500ms) schaffe ich auf 4 Cores nur noch ca. 2000 Partien pro 24h)