Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / LS-Test von Stockfish 140212 abgebrochen
- - By Stefan Pohl Date 2014-02-15 10:42
Leider -5 Elo zu Stockfish 140129 nach 6300 Partien im LS-Testrun. Da ist auf keinen Fall noch ein Plus drin, zumal es bei Stocki traditionell zum Ende hin bestenfalls gleich bleibt, aber meistens noch leicht runtergeht.
Da warte ich mal ein paar neue Patches ab.

Stefan
Parent - By sachista Date 2014-02-15 10:46
Schade, aber der Stockfish-eigene regression test war ja auch nicht sonderlich erfolgreich, somit decken sich die Ergebnisse einigermaßen.
Parent - - By Joe Boden Date 2014-02-15 10:55
Hast Du die dev-Version vom 9.2.14 nicht getestet, die macht bei mir einen ganz ordentlichen Eindruck, hat bereits einige DON-Elemente integriert (was in manchen Stellung augenfällig ist) und scheint auch insgesamt nicht hinter der 290114 zu liegen.

Hier mal ein Beispiel eines Testlaufs mit 4+2

Platz  Name  St  St  Ko  Ho  Eq  Ro  Gu  Fi  Cr  Ha  Punkte  S-B  %  Perf
1  Stockfish 090214 64 SSE4.2 [new] (3150)  XXX  ½½  ½  1  11  ½  ½1  ½1  ½  1  9.5 / 13  60.00  73.08%  3217
2  Stockfish 290114 64 SSE4.2 [new] (3150)  ½½  XXX  ½  1  ½½  ½  1  1½  ½1  1  9.0 / 13  55.25  69.23%  3270
3  Komodo TCEC 64-bit [new] (3150)  ½  ½  XXX  1½  ½1  ½  ½0  10  1  1½  8.5 / 14  52.50  60.71%  3126
4  Houdini 4 Pro x64 (3150)  0  0  0½  XXX  0  ½  11  1½  11  ½1  8.0 / 14  40.25  57.14%  3154
Parent - - By Ernest Bonnem Date 2014-02-15 16:39
Joe Boden schrieb:
Hier mal ein Beispiel eines Testlaufs mit 4+2

"Beispiel" mit 13 Partien/Engine sollte in diesem Forum verboten sein...  
Parent - - By Joe Boden Date 2014-02-15 16:46
Allgemein stimme ich Dir zu.

Wenn man jedoch vorher schon tausende Partien hat spielen lassen und dann eine neue dev kurz antestet, greift man ja auf Erfahrungswissen zurück. Und dann kann man vielleicht auch nach relativ wenigen Partien bereits eine erste Einschätzung für sich selber treffen, in welche Richtung sich eine Engine bewegt.

Ansonsten: immer gleich tausende Partien spielen zu lassen, um eine Einschätzung vorzunehmen macht selbst Stefan Pohl nicht. Zudem kennen wir dieses Thema hier ja zur Genüge und jeder hier ist im Bilde, um sich eine eigene Meinung zu bilden, meinst Du nicht, Ernest?
Parent - By Ernest Bonnem Date 2014-02-15 16:57
Sorry, Joe!
Solches "Erfahrungswissen" sollte man besser auf einem Rouletten Tisch benützen...   
Parent - - By Michael Scheidl Date 2014-02-15 16:57
Es geht eigentlich nur darum, aus relativ geringen Partienzahlen keine großen Schlüsse zu ziehen. Aber wenn ich, theoretisch gesprochen, eine unbekannte Engine entdeckte die ein sauber konfiguriertes Match gegen Houdini 8:2 gewinnt: Zum Teufel mit jeder statistischen Unsicherheit! Ich wüßte dann daß ich ein Juwel entdeckt habe, und sei es nur wegen des Potentials hin und wieder ein solches Resultat zu erzielen.

Möge der Hausverstand über die Statistik siegen.
Parent - - By Ernest Bonnem Date 2014-02-15 17:16
Michael Scheidl schrieb:
...Match gegen Houdini 8:2 gewinnt

Das ist eine ganz andere Sache!...
Da würde ich zuerst sagen: Houston, we have a problem...  
Parent - By Michael Scheidl Date 2014-02-15 17:19
Houdiniston
Parent - By Joe Boden Date 2014-02-15 17:50
Code:
Das ist eine ganz andere Sache!...


Eben nicht.

Statistisch gesehen sind diese Ergebnisse gleichermassen unsicher. Aber wie der von Michael Scheidl immer wieder bemühte "Hausverstand" zum Einsatz kommt (warum auch nicht, damit leben wir ja tagtäglich unser Leben), so verlasse ich mich gerne auf  meinen auf "Hausverstand" aufbauenden Erfahrungsschatz.

Und da Du einmal zustimmst, lieber Ernest, und einmal verneinst, so ergibt sich nur eine höchst inkonsistente Logik bezüglich Deiner Fähigkeit Schlussfolgerungen zu erzielen.
Parent - - By Stefan Pohl Date 2014-02-15 12:44
Hallo,

da ich Jörg Oster für einen der größten Stockfish-Kenner halte, habe ich nun den LS-Testrun von Stockfish 140215 gestartet, weil diese Version einen sehr interessanten Patch von Jörg enthält, der in der längeren Zeitkontrolle des Frameworks (welche den LS-Bedingungen weit näher ist, als die kurze Zeitkontrolle) den Test sehr gut und sehr schnell bestanden hat.
Und nach gut 200 Partien (was fast nichts ist, daher ist dieser Zwischenstand sehr, sehr, sehr, sehr unsicher), scort dieser Stockfish (timestamp 1392453475) auch in meinem Testrun wirklich sehr gut (Prozente und Elos kann ich bei so wenigen Partien nicht posten, das wäre unseriös).
Wer also gerne mit Stockfishen rumtestet, sollte sich diese Version unbedingt mal anschauen.

Falls ich nicht wieder abbreche, sollte das Ergebnis Dienstag nachmittag vorliegen.
Stay tuned!

Stefan
Parent - - By Jörg Oster Date 2014-02-15 15:02
Hallo Stefan,

ach herrje, ich glaube, da überschätzt du mich gewaltig!
Ich habe so um den Jahreswechsel 2012/2013 angefangen, mir die grundlegenden Kenntnisse von C++ beizubringen und mich gleichzeitig in Stockfish einzuarbeiten. Learning by doing. 
Aufgrund einer länger andauernden Chemotherapie (Tabletten) habe ich die Zeit, und es lenkt mich auch ab.
Glaube mir, so ein Programm ist doch wesentlich komplexer, als viele Laien (einschließlich mir!) vieleicht denken mögen. Mich da als Kenner zu bezeichnen, ist einfach maßlos übertrieben. Es verbleibt noch viel zu lernen ...

Zu diesem Patch: den Test kannst du getrost abbrechen, weil er keine Auswirkungen im normalen Spiel hat. Mit diesem Patch ändert sich lediglich, was SF machen soll, wenn er die maximale Suchtiefe von derzeit 100 plies erreicht. Bisher hat SF dann immer einen Drawscore zurückgegeben. Mit dem neuen Patch ruft SF dann evaluate() auf, und gibt eine statische Bewertung zurück. Um das zu testen, haben wir die maximale Suchtiefe künstlich auf 30 plies reduziert, um die Auswirkungen dieses Patches auch messen zu können. Wann erreicht man im praktischen Spiel schon mal eine Suchtiefe von 100?
Der Patch hat so gut abgeschnitten, weil es offenbar sehr viel besser ist, die statische Bewertung auszugeben, als einfach eine Remisbewertung.
Außerdem kann es sein, dass Marco unabsichtlich noch einen Bug eingebaut hat.

Mein Rat: erstmal abwarten. 
Parent - By Michael Scheidl Date 2014-02-15 15:08
Gute Besserung!

P.S. Ein Enginefan der C++ versteht, ist m.E. sogar mehr als nur ein Kenner. Man wird Dir ab jetzt viele programmtechnische Fragen stellen.
Parent - By Stefan Pohl Date 2014-02-15 17:21
Jörg Oster schrieb:

Hallo Stefan,

ach herrje, ich glaube, da überschätzt du mich gewaltig!
Ich habe so um den Jahreswechsel 2012/2013 angefangen, mir die grundlegenden Kenntnisse von C++ beizubringen und mich gleichzeitig in Stockfish einzuarbeiten. Learning by doing. 
Aufgrund einer länger andauernden Chemotherapie (Tabletten) habe ich die Zeit, und es lenkt mich auch ab.
Glaube mir, so ein Programm ist doch wesentlich komplexer, als viele Laien (einschließlich mir!) vieleicht denken mögen. Mich da als Kenner zu bezeichnen, ist einfach maßlos übertrieben. Es verbleibt noch viel zu lernen ...

Zu diesem Patch: den Test kannst du getrost abbrechen, weil er keine Auswirkungen im normalen Spiel hat. Mit diesem Patch ändert sich lediglich, was SF machen soll, wenn er die maximale Suchtiefe von derzeit 100 plies erreicht. Bisher hat SF dann immer einen Drawscore zurückgegeben. Mit dem neuen Patch ruft SF dann evaluate() auf, und gibt eine statische Bewertung zurück. Um das zu testen, haben wir die maximale Suchtiefe künstlich auf 30 plies reduziert, um die Auswirkungen dieses Patches auch messen zu können. Wann erreicht man im praktischen Spiel schon mal eine Suchtiefe von 100?
Der Patch hat so gut abgeschnitten, weil es offenbar sehr viel besser ist, die statische Bewertung auszugeben, als einfach eine Remisbewertung.
Außerdem kann es sein, dass Marco unabsichtlich noch einen Bug eingebaut hat.

Mein Rat: erstmal abwarten. 


Na, wenn ich morgen früh von der Nachtschicht heimkomme, schaue ich mal, wie es steht...Der Start war jedenfalls gut. Vielleicht geht ja doch was. Manchmal gibt es ja auch unerwartete, positive Effekte. Ansonsten breche ich morgen früh ab.
Daß du solche gesundheitlichen Probleme hast, tut mir wirklich sehr leid. Ich drücke fest die Daumen für eine baldige und komplette Genesung!!

Stefan
Up Topic Hauptforen / CSS-Forum / LS-Test von Stockfish 140212 abgebrochen

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill