Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Langzeit-Tests mit Houdini 3 beta
- - By Michael Scheidl Date 2012-09-26 15:38
Houdini-Programmierer Robert Houdart führt derzeit einen Test bei 90m+30s durch - erstmals einen so langen Test, wie er auf Facebook ausführt. Es werden je 120 Partien gegen Houdini 2.0c, Stockfish 231 und Komodo 5, Singlecore. Er will die Partien nachher veröffentlichen. Details unter:

http://rybkaforum.net/cgi-bin/rybkaforum/topic_show.pl?pid=440526

http://www.facebook.com/pages/Houdini-Chess-Engine/164560926948947

Er rechnet mit einer Gesamttestzeit je Gegner bzw. Match von nur rund 18 Stunden, da er auf einem Multicore-PC 31 Testpartien gleichzeitig laufen läßt.
Parent - - By Michael Scheidl Date 2012-09-26 15:50
Nachtrag: Das Match gegen die Vorgängerversion ist schon fertig und die Partien downloadbar:

http://www.cruxis.com/download/Houdini3_Houdini20c_90min.zip

Laut R.H. +94 Elo bei +/- 42 Elo Errormargin.
Parent - - By Ingo Bauer Date 2012-09-26 15:57
[quote="Michael Scheidl"]
Nachtrag: Das Match gegen die Vorgängerversion ist schon fertig und die Partien downloadbar:

http://www.cruxis.com/download/Houdini3_Houdini20c_90min.zip

Laut R.H. +94 Elo bei +/- 42 Elo Errormargin.
[/quote]

Hehe, ja, das +/-42 gilt aber auch für H2, im ungüstigsten Fall ist es also ein + von 10 Elo mit einer 5% Wahrschienlichkeit das es noch kleiner ist

Nene, Tests gegen Vorgänger halte ich für irrelevant, weil man ja versucht hat evtl Schwächen zu beheben und praktisch ganau auf diese Schwächen spielt ...

Das gegen Komodo und Stockfish ist schon deutlich interessanter!

Gurß
Ingo
Parent - - By Michael Scheidl Date 2012-09-26 16:12
Zitat:
Das gegen Komodo und Stockfish ist schon deutlich interessanter!

Zweifellos, und in ein paar Tagen werden wir ja hoffentlich auch diese Resultate kennen. Allerdings, hat 2.0c überhaupt noch derartige Schwächen daß aus einem Einzelresultat von +52...136 Elo magere +10 Elo gegen das "Gesamtfeld" werden können? Wir werden sehen.
Parent - By Ingo Bauer Date 2012-09-26 16:27
[quote="Michael Scheidl"]
.... Allerdings, hat 2.0c überhaupt noch derartige Schwächen ...
[/quote]

Ich erinnere mich an einen Artikel in der CSS (Print) in dem zum Erscheinen eines neuen Shredders der mit irgendwas zw. 50 und 80 Elo vor der Konkurenz lag sinngemäß gesagt wurde: "Wer soll dieser Enigne in den nächsten Jahren das Wasser reichen?" Einen Monat später kam Rybka!
Es gibt immer Schwächen. Ob Menschen die noch sehen können ist eine andere Frage.

Gruß
Ingo
Parent - - By Robert Houdart Date 2012-09-26 17:29
[quote="Ingo Bauer"]Hehe, ja, das +/-42 gilt aber auch für H2[/quote]
No, that is incorrect.
The individual confidence interval for both engines is ± 21, the confidence interval for the Elo difference is ± 42.

If you're interested, below the BayesElo output:
Code:
Rank Name         Elo    +    - games score oppo. draws
   1 Houdini3      47   21   21   120   64%   -47   48%
   2 Houdini20c   -47   21   21   120   36%    47   48%


Regards,
Robert
Parent - By Ingo Bauer Date 2012-09-26 17:38 Edited 2012-09-26 17:44
Ahh, ok, I did not look at it and just took the information in the posting.

I stand corrected.

Anyhow, the test vs Komodo and Stockfish is what I am interested in
The test vs H2 is of no interesst to me, I would have prefered a Critter 1.4a instead - but again, in a few days we can test by ourself, I have the patience to wait ...

Bye
Ingo
Parent - By Robert Houdart Date 2012-09-26 17:51
[quote="Ingo Bauer"]Nene, Tests gegen Vorgänger halte ich für irrelevant, weil man ja versucht hat evtl Schwächen zu beheben und praktisch ganau auf diese Schwächen spielt ...[/quote]
My testing framework consists of 9 engines, including 2 Houdini versions (1.5 and 1.03a) but not Houdini 2.
In my experience the gains against the 2 Houdini versions have always been of the same order of magnitude as against the 7 other engines, I've never observed that Houdini 1.5 or Houdini 1.03a are easier targets for my improvements.

Note also that my engine development activity is mostly not about identifying and correcting weaknesses in an engine, it's more about finding generic improvements in evaluation or search. I suppose it's the same for the other top engine authors.
Claims from engine authors about "I've improved x or y or z" are usually only intended for marketing purposes .

Cheers,
Robert
Parent - - By Benno Hartwig Date 2012-10-02 14:47
[quote="Ingo Bauer"]Hehe, ja, das +/-42 gilt aber auch für H2, im ungüstigsten Fall ist es also ein + von 10 Elo mit einer 5% Wahrschienlichkeit das es noch kleiner ist [/quote]Sind es nicht 2,5%, dass H3 um mindestens 42ELO schwächer ist als gemessen?
Und sind es nicht 2,5%, dass H2 um mindestens 42ELO stärker ist als gemessen?
Dann ist die Wahrscheinlichkeit für <=10ELO-Differenz doch 0,025*0,025=0,000625=0,0625%.
Mit eben dieser (Un)Wahrscheinlichkeit ist H3 auch um mindestens 178 ELO stärker als H2.

Ok, ganz so kann man nicht argumentieren, denn diese Messergebnisse sind ja nicht unabhängig. Wenn eine Engine einfach zufällig mehr gewinnt, als es ihrer eigentlichen Stärke entspricht, dann werden andere weniger gewinnen müssen, als es deren Stärke entspräche.

Benno
Parent - - By Werner Mueller Date 2012-10-02 15:22
[quote="Benno Hartwig"]
[quote="Ingo Bauer"]Hehe, ja, das +/-42 gilt aber auch für H2, im ungüstigsten Fall ist es also ein + von 10 Elo mit einer 5% Wahrschienlichkeit das es noch kleiner ist [/quote]Sind es nicht 2,5%, dass H3 um mindestens 42ELO schwächer ist als gemessen?
Und sind es nicht 2,5%, dass H2 um mindestens 42ELO stärker ist als gemessen?
Dann ist die Wahrscheinlichkeit für <=10ELO-Differenz doch 0,025*0,025=0,000625=0,0625%.
Mit eben dieser (Un)Wahrscheinlichkeit ist H3 auch um mindestens 178 ELO stärker als H2.

Ok, ganz so kann man nicht argumentieren, denn diese Messergebnisse sind ja nicht unabhängig. Wenn eine Engine einfach zufällig mehr gewinnt, als es ihrer eigentlichen Stärke entspricht, dann werden andere weniger gewinnen müssen, als es deren Stärke entspräche.

Benno
[/quote]
[quote="Robert Houdart"]...
If you're interested, below the BayesElo output:
Code:
Rank Name         Elo    +    - games score oppo. draws
   1 Houdini3      47   21   21   120   64%   -47   48%
   2 Houdini20c   -47   21   21   120   36%    47   48%

...[/quote]
Nicht nur nicht ganz so, sondern genau so eben nicht (wird man argumentieren können). Eben weil (im direkten Vergleich) die jeweiligen Ergebnisse völligst voneinander abhängen.

Mit einer Wahrscheinlichkeit von weniger als 5% ist H3 nicht (47-21)-(-47+21) = 2*26 = 52 Punkte besser als H2.

Oder anders formuliert: die Wahrscheinlichkeit dafür, dass H3 nicht mindestens 52 Punkte besser ist als H2, beträgt lediglich 5%.

Mit derselben (Un-)Wahrscheinlichkeit von 5% ist H3 um (47+21)-(-47-21) = 2*68 = 138 Punkte besser als H2.

Selbstverständlich gilt dies alles nur für den direkten Vergleich
Parent - By Benno Hartwig Date 2012-10-02 20:10
[quote="Werner Mueller"]Nicht nur nicht ganz so, sondern genau so eben nicht (wird man argumentieren können). Eben weil (im direkten Vergleich) die jeweiligen Ergebnisse völligst voneinander abhängen.[/quote]Oh, ich dachte, H3 spielte gegen 3 Gegnerengines. Insofern hängen die zusätzlichen ELO von H3 nur zu einem Drittel von den Partien gegen H2 ab.
Je mehr Gegner, um so geringer ist halt die gegenseitige Abhängigkeit von je zwei erspielten ELO-Zahlen.
Und bei meiner Abschätzung ging ich ohne Prüfung von Michaels "Laut R.H. +94 Elo bei +/- 42 Elo Errormargin" aus.
Damit würde sie wohl schon ganz gut stimmen. (Die Einschränkung, dass auch bei 3 Gegnern natürlich nicht wirklich Unabhängigkeit herrscht, räumte ich ja schon ein)
Aber vielleicht hatte ich das Spielgeschehen auch falsch verstanden. (Nur ein Gegner?, Eine andere Error-Margin?)

Benno
Parent - By Benno Hartwig Date 2012-10-02 14:50
[quote="Michael Scheidl"]Laut R.H. +94 Elo bei +/- 42 Elo Errormargin. [/quote]Herzlichen Glückwunsch.
Damit konnte Robert die Neugierde auf H3 sicher noch einmal ein gutes Stück anheizen.
H2 kaufte ich nicht. Wenn H3 ein gutes Stück überlegen ist, könnte ich aber wieder in die Tasche greifen wollen.
("Warum und wozu eigentlich?" Lieber nicht drüber nachdenken...)
Benno
Up Topic Hauptforen / CSS-Forum / Langzeit-Tests mit Houdini 3 beta

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill