Langzeit-Tests mit Houdini 3 beta

By Michael Scheidl Date 2012-09-26 15:50

Nachtrag: Das Match gegen die Vorgängerversion ist schon fertig und die Partien downloadbar:

http://www.cruxis.com/download/Houdini3_Houdini20c_90min.zip

Laut R.H. +94 Elo bei +/- 42 Elo Errormargin.

By Ingo Bauer Date 2012-09-26 15:57

[quote="Michael Scheidl"]
Nachtrag: Das Match gegen die Vorgängerversion ist schon fertig und die Partien downloadbar:

http://www.cruxis.com/download/Houdini3_Houdini20c_90min.zip

Laut R.H. +94 Elo bei +/- 42 Elo Errormargin.

[/quote]

Hehe, ja, das +/-42 gilt aber auch für H2, im ungüstigsten Fall ist es also ein + von 10 Elo mit einer 5% Wahrschienlichkeit das es noch kleiner ist

Nene, Tests gegen Vorgänger halte ich für irrelevant, weil man ja versucht hat evtl Schwächen zu beheben und praktisch ganau auf diese Schwächen spielt ...

Das gegen Komodo und Stockfish ist schon deutlich interessanter!

Gurß
Ingo

By Michael Scheidl Date 2012-09-26 16:12

Zitat:

Das gegen Komodo und Stockfish ist schon deutlich interessanter!

Zweifellos, und in ein paar Tagen werden wir ja hoffentlich auch diese Resultate kennen. Allerdings, hat 2.0c überhaupt noch derartige Schwächen daß aus einem Einzelresultat von +52...136 Elo magere +10 Elo gegen das "Gesamtfeld" werden können? Wir werden sehen.

By Ingo Bauer Date 2012-09-26 16:27

[quote="Michael Scheidl"]
.... Allerdings, hat 2.0c überhaupt noch derartige Schwächen ...
[/quote]

Ich erinnere mich an einen Artikel in der CSS (Print) in dem zum Erscheinen eines neuen Shredders der mit irgendwas zw. 50 und 80 Elo vor der Konkurenz lag sinngemäß gesagt wurde: "Wer soll dieser Enigne in den nächsten Jahren das Wasser reichen?" Einen Monat später kam Rybka!
Es gibt immer Schwächen. Ob Menschen die noch sehen können ist eine andere Frage.

Gruß
Ingo

By Robert Houdart Date 2012-09-26 17:29

[quote="Ingo Bauer"]Hehe, ja, das +/-42 gilt aber auch für H2[/quote]
No, that is incorrect.
The individual confidence interval for both engines is ± 21, the confidence interval for the Elo difference is ± 42.

If you're interested, below the BayesElo output:

Code:

Rank Name         Elo    +    - games score oppo. draws 
   1 Houdini3      47   21   21   120   64%   -47   48% 
   2 Houdini20c   -47   21   21   120   36%    47   48%

Regards,
Robert

By Ingo Bauer Date 2012-09-26 17:38 Edited 2012-09-26 17:44

Ahh, ok, I did not look at it and just took the information in the posting.

I stand corrected.

Anyhow, the test vs Komodo and Stockfish is what I am interested in

The test vs H2 is of no interesst to me, I would have prefered a Critter 1.4a instead - but again, in a few days we can test by ourself, I have the patience to wait ...

Bye
Ingo

By Robert Houdart Date 2012-09-26 17:51

[quote="Ingo Bauer"]Nene, Tests gegen Vorgänger halte ich für irrelevant, weil man ja versucht hat evtl Schwächen zu beheben und praktisch ganau auf diese Schwächen spielt ...[/quote]
My testing framework consists of 9 engines, including 2 Houdini versions (1.5 and 1.03a) but not Houdini 2.
In my experience the gains against the 2 Houdini versions have always been of the same order of magnitude as against the 7 other engines, I've never observed that Houdini 1.5 or Houdini 1.03a are easier targets for my improvements.

Note also that my engine development activity is mostly not about identifying and correcting weaknesses in an engine, it's more about finding generic improvements in evaluation or search. I suppose it's the same for the other top engine authors.
Claims from engine authors about "I've improved x or y or z" are usually only intended for marketing purposes

.

Cheers,
Robert

By Benno Hartwig Date 2012-10-02 14:47

[quote="Ingo Bauer"]Hehe, ja, das +/-42 gilt aber auch für H2, im ungüstigsten Fall ist es also ein + von 10 Elo mit einer 5% Wahrschienlichkeit das es noch kleiner ist

[/quote]Sind es nicht 2,5%, dass H3 um mindestens 42ELO schwächer ist als gemessen?
Und sind es nicht 2,5%, dass H2 um mindestens 42ELO stärker ist als gemessen?
Dann ist die Wahrscheinlichkeit für <=10ELO-Differenz doch 0,025*0,025=0,000625=0,0625%.
Mit eben dieser (Un)Wahrscheinlichkeit ist H3 auch um mindestens 178 ELO stärker als H2.

Ok, ganz so kann man nicht argumentieren, denn diese Messergebnisse sind ja nicht unabhängig. Wenn eine Engine einfach zufällig mehr gewinnt, als es ihrer eigentlichen Stärke entspricht, dann werden andere weniger gewinnen müssen, als es deren Stärke entspräche.

Benno

By Werner Mueller Date 2012-10-02 15:22

[quote="Benno Hartwig"]
[quote="Ingo Bauer"]Hehe, ja, das +/-42 gilt aber auch für H2, im ungüstigsten Fall ist es also ein + von 10 Elo mit einer 5% Wahrschienlichkeit das es noch kleiner ist

Code:

Rank Name         Elo    +    - games score oppo. draws 
   1 Houdini3      47   21   21   120   64%   -47   48% 
   2 Houdini20c   -47   21   21   120   36%    47   48%

...[/quote]
Nicht nur nicht ganz so, sondern genau so eben nicht (wird man argumentieren können). Eben weil (im direkten Vergleich) die jeweiligen Ergebnisse völligst

voneinander abhängen.

Mit einer Wahrscheinlichkeit von weniger als 5% ist H3 nicht (47-21)-(-47+21) = 2*26 = 52 Punkte besser als H2.

Oder anders formuliert: die Wahrscheinlichkeit dafür, dass H3 nicht mindestens 52 Punkte besser ist als H2, beträgt lediglich 5%.

Mit derselben (Un-)Wahrscheinlichkeit von 5% ist H3 um (47+21)-(-47-21) = 2*68 = 138 Punkte besser als H2.

Selbstverständlich gilt dies alles nur für den direkten Vergleich.

By Benno Hartwig Date 2012-10-02 20:10

[quote="Werner Mueller"]Nicht nur nicht ganz so, sondern genau so eben nicht (wird man argumentieren können). Eben weil (im direkten Vergleich) die jeweiligen Ergebnisse völligst

voneinander abhängen.[/quote]Oh, ich dachte, H3 spielte gegen 3 Gegnerengines. Insofern hängen die zusätzlichen ELO von H3 nur zu einem Drittel von den Partien gegen H2 ab.
Je mehr Gegner, um so geringer ist halt die gegenseitige Abhängigkeit von je zwei erspielten ELO-Zahlen.
Und bei meiner Abschätzung ging ich ohne Prüfung von Michaels "Laut R.H. +94 Elo bei +/- 42 Elo Errormargin" aus.
Damit würde sie wohl schon ganz gut stimmen. (Die Einschränkung, dass auch bei 3 Gegnern natürlich nicht wirklich Unabhängigkeit herrscht, räumte ich ja schon ein)
Aber vielleicht hatte ich das Spielgeschehen auch falsch verstanden. (Nur ein Gegner?, Eine andere Error-Margin?)

Benno

By Benno Hartwig Date 2012-10-02 14:50

[quote="Michael Scheidl"]Laut R.H. +94 Elo bei +/- 42 Elo Errormargin.

[/quote]Herzlichen Glückwunsch.
Damit konnte Robert die Neugierde auf H3 sicher noch einmal ein gutes Stück anheizen.
H2 kaufte ich nicht. Wenn H3 ein gutes Stück überlegen ist, könnte ich aber wieder in die Tasche greifen wollen.
("Warum und wozu eigentlich?" Lieber nicht drüber nachdenken...)
Benno