Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Houdini 2.0 standard in der Base
- - By Clemens Keck Date 2011-09-03 07:20
Moin Moin

bei mir läuft der erste von 2 geplanten Houdini gauntlets. Es spielt die standard version von Houdini 2.0.
Das erste Testset besteht aus der Noomen2008 testsuite plus 20 Stellungen von mir hinzugefügt.
Der zweite Gauntlet wird mit der alten Testsuite gespielt mit der meine "pure list" gespielt wurde.
Nach knapp 600 Partien sind es etwa + 30 Punkte für Houdini 2.0.
http://www.clemens-keck.de/base.htm

So ...ich muss zur Arbeit...
Schönen Tag Euch

Clemens Keck
Parent - - By Ernest Bonnem Date 2011-09-03 20:23
Hallo Clemens,

Wieso ist der Perf Mittelwert (3063 hab ich gerade kalkuliert) so weit weck von deinem gemeinsamen Wert  Perf=3034 ?

Houdini 2.0 x64 x1 - Komodo64 3 sse (2959)  49.5 - 32.5  60.37%  Perf=3032
Houdini 2.0 x64 x1 - Critter 1.2 64-bit SSE4 x1 (2958)  44.0 - 38.0  53.66%  Perf=2983
Houdini 2.0 x64 x1 - Deep Rybka 4.1 SSE42 x64 x1 (2948)  50.0 - 32.0  60.98%  Perf=3025
Houdini 2.0 x64 x1 - Fire 2.1 xTreme x64 x1 (2939)  54.5 - 27.5  66.46%  Perf=3057
Houdini 2.0 x64 x1 - Stockfish 2.1.1 JA 64bit x1 (2930)  50.5 - 31.5  61.59%  Perf=3011
Houdini 2.0 x64 x1 - Loop 2010 x64 (2848)  64.0 - 18.0  78.05%  Perf=3068
Houdini 2.0 x64 x1 - Naum 4.2 (2838)  61.0 - 21.0  74.39%  Perf=3023
Houdini 2.0 x64 x1 - Deep Sjeng c't 2010 (2802)  66.5 - 15.5  81.10%  Perf=3054
Houdini 2.0 x64 x1 - Deep Shredder 12 UCI x1 (2800)  65.5 - 16.5  79.88%  Perf=3039
Houdini 2.0 x64 x1 - Spike 1.4 T1 (2787)  70.0 - 12.0  85.37%  Perf=3093
Houdini 2.0 x64 x1 - spark-1.0 T1 (2782)  70.0 - 12.0  85.37%  Perf=3088
Houdini 2.0 x64 x1 - HIARCS 13.2 MP T1 (2772)  66.0 - 16.0  80.49%  Perf=3018
Houdini 2.0 x64 x1 - Protector 1.4.0 x64 JA (2767)  72.0 - 9.0  88.89%  Perf=3128
Houdini 2.0 x64 x1 - Deep Junior 12.5.0.3 UCI x1 (2757)  66.5 - 12.5  84.18%  Perf=3047
Houdini 2.0 x64 x1 - Zappa Mexico II x1 (2752)  70.5 - 10.5  87.04%  Perf=3082
Houdini 2.0 x64 x1 - Umko 1.2 x64 x1 (2679)  74.0 - 7.0  91.36%  Perf=3088
Houdini 2.0 x64 x1 - Jonny 4.00 (2638)  78.5 - 2.5  96.91%  Perf=3236
  1073.0 - 314.0  77.36%  Perf=3034
Parent - - By Ingo Bauer Date 2011-09-03 20:27
[quote="Ernest Bonnem"]
Hallo Clemens,

Wieso ist der Perf Mittelwert (3063 hab ich gerade kalkuliert) so weit weck von deinem gemeinsamen Wert  Perf=3034 ?

[/quote]

Gute Frage ich habe mich bei mir auch gewundert (Rechne mal bei mir nach).

Trotzdem, nachdem ich die PGN in Bayes geworfen hatte, hatte ich genau den Wert der auch automatisch errechnet wurde!

Gruß
Ingo
Parent - By Ernest Bonnem Date 2011-09-03 20:47
[quote="Ingo Bauer"]Gute Frage ich habe mich bei mir auch gewundert (Rechne mal bei mir nach).[/quote]
Du hast schnell dein Post geschrieben, ich war gerade beim Kalkulieren...

Bei Dir ist der Perf Mittelwert 3045, auch weit weck von deinem gemeinsamen Wert  Perf=3016 
Vielleicht kann jemand mit der Elo Formula erklären...
(natürlich kann ich verstehen, daß wenn auch Houdini 100-0 Crafty schlägt, sollte sowas nicht einen zu großen Einfluß auf Houdinis Elo zu haben)
Parent - - By Clemens Keck Date 2011-09-03 20:47
Hallo Ernest

da muss ich passen. Keine Ahnung.

Gruß, Clemens
Parent - - By Ernest Bonnem Date 2011-09-06 17:14
Hallo Clemens,

Jetzt alles klar!
Bitte siehe    http://www.talkchess.com/forum/viewtopic.php?p=422330#422330
Parent - By Simon Gros Date 2011-09-06 19:38
Falsch, den "wahren" Grund hatte ich doch gepostet, siehe:
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=41351#pid41351
Übersehen?
Simon_G
Parent - By Simon Gros Date 2011-09-06 20:40
U.U. habe ich mich nicht deutlich genug ausgedrückt, deshalb hier der Versuch einer genaueren Erläuterung.
Der Grund für die Differenzen ist der, daß ELO-Stat unter dem Shredder-GUI keine Einzelresultate heranzieht um die Gesamtstärke zu ermitteln, sondern eine Art "großes Turnier" simuliert, genauso wie bei der Funktion Nummer 1 = Rating List.

Beispiel:
Engine "Test" spielt gegen:
Engine A (mit ELO 2700) - 85:15 und erreicht somit = ELO 3001
Engine B (mit ELO 2750) - 78:22 und erreicht somit = ELO 2970
Engine C (mit ELO 2900) - 50:50 und erreicht somit = ELO 2900

Würde man nun die erzielten Performances addieren, also:
3001+2970+2900 und durch die Gegnerzahl (3) dividieren, so kommt man auf den Wert 2957.

Nimmt man jedoch den Gegnerdurchschnitt (wie es ELO-Stat nunmal zurecht und lt. eigener Definition tut), also:
(2700+2750+2900)/3 = 2783 und rechnet das erzielte Gesamtergebnis (213:87) auf diesen Schnitt an, so kommt ELO-Stat auf den Wert 2939.
Je mehr über/unterdurchschnittliche Ergebnisse (>80% oder <80%) in einer Serie vorkommen, desto größer wird also die Differenz beider o.g. "Methoden". Dies hat der Autor übrigens auch klar beschrieben bei der Veröffentlichung seines Tools!
Ich hoffe, dass dies nun verständlich ist.
Simon_G
Parent - - By Simon Gros Date 2011-09-05 07:10
Weil ELO-Stat nicht die einzelnen Ergebnisse addiert und durch die Anzahl der Teilnehmer dividiert,
sondern (richtigerweise) den Gegnerdurchschnitt ermittelt und mit diesem die Gesamtperformance errechnet.
1073.0 - 314.0 (=77.36%) sind bei einem Gegnerdurchschnitt von 2821 eben 3034.
Simon_G
Parent - By Ernest Bonnem Date 2011-09-06 20:43
Meine Frage war: warum ist die korrekte Elostat Nummer (3016) so weit weck von dem Durschnitt der einzelnen Ergebnissen (3045)?

Und sowas habe ich jetzt verstanden (leider nicht mit deiner Antwort...).
Parent - - By Clemens Keck Date 2011-09-04 09:49
Moin Moin

nach 1700 Partien sinds immerhin + 23 (+-15)  geworden.
Den zweiten gauntlet habe ich gestartet.

http://www.clemens-keck.de/base.htm

Schönen Sonntag noch

Clemens Keck
Parent - - By Ingo Bauer Date 2011-09-05 22:17
Hallo Clemens

Ich sehe das du die zwei Testsets zusammengeworfen hast.

Wenn, wie du schriebst, die vorherigen Rating mit dem anderen Testset erspielt wurden, würde mich eigentlich eher ein einheitliches Testset interessieren. Allerdings hast du eh schon Turniere in deiner Liste mit aufgenommen, insofern wird das wahrscheinlich schwierig.
Interessant ist, das wir näher zusammenrücken ...

Gruß
Ingo
Parent - - By Clemens Keck Date 2011-09-06 18:20
Hallo Ingo

ich vermute das Testsuites den Ausgang eines Tests beeinflussen, genau aus diesem Grund halte ich nichts davon immer das selbe testset zu spielen. Schach besteht aus endloser Vielfalt und nicht aus 50 Stellungen. Vielleicht hats Du ja Lust (Mut?) eine Runde mit meiner CK50 zu spielen. Würde mich schon mal intressieren... Das zusammenlegen aller 5+3 Partien soll nochmal zusätzliche Vielfalt integrieren. Zusammenrücken tun wir nicht finde ich, Komodo3  ist leider bei mir nicht so stark wie bei Dir, dafür ist Sjeng bei mir so weit oben... Nur mal 2 Beispiele.
Schwankungen kommen bei mir evtl. durch die unterschiedlichen Rechner ( Westmere, Nehalem, Gulftown, Sandybridge). Insgesamt dürfte es genauer werden durch das Spielen beider Testsuites VG50 und CK50. Jede für sich ist ja schon recht aussagefähig.
Im Moment Teste ich die Numa Sache aus. Wie es scheint bringt es nur auf meinem Supermicro server (octa) spürbar etwas.
Auf dem 12 core ist H2.0 ohne Numa sogar schneller. Insgesamt auch nicht sehr überzeugend für 12 cores.

Gruß

Clemens
Parent - By Ingo Bauer Date 2011-09-06 18:44
Moin,

[quote="Clemens Keck"]

ich vermute das Testsuites den Ausgang eines Tests beeinflussen, genau aus diesem Grund halte ich nichts davon immer das selbe testset zu spielen. Schach besteht aus endloser Vielfalt und nicht aus 50 Stellungen. Vielleicht hats Du ja Lust (Mut?) eine Runde mit meiner CK50 zu spielen. Würde mich schon mal intressieren... Das zusammenlegen aller 5+3 Partien soll nochmal zusätzliche Vielfalt integrieren.
[/quote]

Das Schach mehr ist als 50 Stellungen ist unbestritten, nur das Spielen EINER ENgine mit plötzlich einem anderen Set ist problematisch. Offensichtlich hat Houdini bei dir mit diesem Set besser abgeschnitten als mit dem originalen Testset. Eigentlich müßtest du jetzt ALLE anderen ebenfalls einmal mit diesem Set laufen lassen um zu wissen ob die Verhältnisse stimmen. Es könnte ja sein das die Nr 2 (Sagen wir Critter) damit noch besser spielt (gegen viele Engines) ... dann würde die beiden, H2 und Crittter, wieder zusammenrücken (UNd erst wenn alle gespielt haben wird das gute Ergebniss einzelner relativiert). Also, einen Test zu spielen bringt nichts, wenn dann müßtest du das vollrundig, jeder gegen jeden machen um niemanden zu benachteiligen. Ich weiß nicht wie viele schon mit beiden Sets bei dir eingespielt wurden, aber wenn es nur H2 war hat er offensichtlich einen Vorteil vor den anderen. Wie gut war H2 denn am Ende mit dem Originalset?

[quote="Clemens Keck"]
Zusammenrücken tun wir nicht finde ich, Komodo3  ist leider bei mir nicht so stark wie bei Dir, dafür ist Sjeng bei mir so weit oben... Nur mal 2 Beispiele.
[/quote]

Zusammenrücken bei Houdini 2 meinte ich! Ich habe ein Plus von 10 Elo zu H1.5, du von 18 Elo. Wenn ich sehe das dein Originalset schlechter als 18 gewesen sein muß ist der Unterschied minimal.

[quote="Clemens Keck"]
Schwankungen kommen bei mir evtl. durch die unterschiedlichen Rechner ( Westmere, Nehalem, Gulftown, Sandybridge).
[/quote]

Naaa, das glaube ich nicht, die sind sich zu ähnlich.

[quote="Clemens Keck"]
Insgesamt dürfte es genauer werden durch das Spielen beider Testsuites VG50 und CK50. Jede für sich ist ja schon recht aussagefähig.
[/quote]

Ja, ohne Zweifel ... wenn alle damit spielen und nicht nur einzelne.

[quote="Clemens Keck"]
Im Moment Teste ich die Numa Sache aus. Wie es scheint bringt es nur auf meinem Supermicro server (octa) spürbar etwas.
Auf dem 12 core ist H2.0 ohne Numa sogar schneller. Insgesamt auch nicht sehr überzeugend für 12 cores.
[/quote]

Ja, hier aus Wikipeda: " ...NUMA ist eine Computer-Speicher-Architektur für Multiprozessorsysteme, bei denen jeder Prozessor eigenen, lokalen Speicher hat, aber anderen Prozessoren über einen gemeinsamen Adressraum direkten Zugriff darauf gewährt (Distributed Shared Memory). ..."

Ich nehme mal an das der 8er da Optimaler ist. Richtig gut wäre ein 4 Sockel AMD Opteron Habe ich mir mal zusammengestellt mit 32 Kernen, aber nur Board, Ram, CPUs für 3500EUR ... mit 48 Kernen habe ich nicht mal nachgerechnet ... nene das lohnt nicht wirklich.

Gruß
Ingo
Up Topic Hauptforen / CSS-Forum / Houdini 2.0 standard in der Base

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill