Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SPCC: Stockfish 140519 testrun durch
- - By Stefan Pohl Date 2014-05-24 13:47
Der Testrun von Stockfish 140519 ist durch. Und ich habe auch das Endless-RoundRobin Turnier aktualisiert (dort wird ab sofort Komodo 7a statt Komodo TCECr eingesetzt).

http://spcc.beepworld.de

Stefan
Parent - - By Joe Boden Date 2014-05-24 14:44
Jetzt wissen wir nicht, wie die Version vom 17.05.14 gescort hat? Wird die nicht getestet?
Parent - By Stefan Pohl Date 2014-05-24 14:54 Edited 2014-05-24 14:59
Joe Boden schrieb:

Jetzt wissen wir nicht, wie die Version vom 17.05.14 gescort hat? Wird die nicht getestet?


Nö. Wozu? Die Version vom 13.5. wurde getestet und die vom 17.05. unterscheidet sich von dieser nur durch

"Author: Marco Costalba
Date: Sat May 17 12:49:52 2014 +0200
Timestamp: 1400323792

Extract a reliable PV line

Truncate the extracted PV from the point where
the score stored in hash starts to deviate from
the root score.

Idea from Ronald de Man. "

sowie einen Bugfix dieses Patches.
Also kein wirklicher functional change, der auf die Spielstärke Auswirkung hätte.

Stefan

PS: Es gab für diesen Patch auch nur einen no-regression test:
17-05-14  mc  master  diff 
LLR: 1.27 (-2.94,2.94) [-3.00,1.00]
Total: 130152 W: 19023 L: 19146 D: 91983
sprt @ 60+0.05 th 1  LTC: Test for no-regression "Extract a reliable PV line" from an idea of Ronald de Man

Man sieht: praktisch identisches Ergebnis (49.95%)
Parent - - By Benno Hartwig Date 2014-05-30 07:55
Weil die Version vom 19.5. bei dir nicht so recht glänzen konnte, habe ich sie bei mir in 1000 Partien mit 1m+0,5s auf 1 Kern gegen die Version vom 7.5. (dem Spitzenreiter) geschickt.
Mal gucken, was sich da so zeigt.

Herausgekommen ist:
1: Stockfish_14051914_c1               505,5/1000    157-146-697
2: Stockfish_14050708_x64_modern_sse42 494,5/1000    146-157-697


Ich finde hier also keinen Hinweis darauf, dass die neue Version tatsächlich etwas schwächer ist als die von Anfang Mai.
Dass sie tatsächlich stärker ist, will ich bei dem knappen Ergebnis und immerhin/nur 1000 Partien natürlich nicht behaupten.

Benno
Parent - - By Joe Boden Date 2014-05-30 10:48
Benno, diese Turniere gegen einen besonderen Gegner sind nicht wirklich aussagekräftig. Das ist wie mit den Monokulturen im Ackerbau. Stark und anfällig zu gleicher Zeit.

In meinen Turnieren mit mehr als 20 Teilnehmern ist derzeit nichts stärker als die dev vom 270514, dahinter kommt 070514 und dann deutlich abgeschlagen die vom 190514.
Parent - By Joe Boden Date 2014-05-30 11:09
korrektur: es muss natürlich heissen die dev vom 170514 anstatt 270514
Parent - - By Benno Hartwig Date 2014-05-30 12:21
Natürlich interessiert eigentlich die Durchsetzungsfähigkeit gegen andere Engines, nicht gegen die eigene Verwandtschaft. Klar.

Aber diese Züchtung der starken SFs erfolgte, so verstand ich es, doch vor allem (oder sogar ausschließlich) durch Partien gegen die eigenen Fish-Brüder.
Sooo schlecht scheinen solche Tests dann wohl doch nicht zu sein, oder?

Außerdem:
Kennst du auch nur einen statistisch belastbaren Fall, bei dem der umfangreiche Test gegen einen Bruder ein Ergebnis bringt, welches in einem echten Widerspruch steht zur Durchsetzungskraft gegen andere?
Ich nicht.
Um eine um 1 oder 2 ELO unterschiedliche Differenz-Einschätzung wollen wir ja nicht streiten, solange die Reihenfolgen unstrittig bleiben.

Benno
Parent - - By Joe Boden Date 2014-05-30 13:05
Grundsätzlich hast Du recht, Benno.

Aber gerade die wenigen Punkte Unterschied im Feintuning gegen die eigenen Geschwister-Engines spielen gegen Fremdengines nicht so eine entscheidende Rolle. Deswegen kann es vorkommen, dass obwohl eine Engine gegen Gegnerschaft aus eigenem Hause ein paar Elopunkte mehr aufweist, gegen externe Engines schwächer spielt. Das erklärt dann auch die unterschiedliche Turnierperformance.
Hier in sehe ich auch eine Schwäche von Stefans Liste derzeit, da er ja nur gegen wenige Gegner ermitteln lässt.

Mein Vorschlag war ja schon immer, Engines weniger unter Elo-Gesichtspunkten zu definieren, als unter Leistungsklassen und dann aber mehr Augenmerk auf die grundsätzliche Spielanlage einer Engine in den verschiedenen Spielphasen zu legen. Frank Quisinsky und andere haben bereits in diese Richtung argumentiert.
Parent - - By Ralf Mueller Date 2014-05-30 13:33
Zitat:
Aber gerade die wenigen Punkte Unterschied im Feintuning gegen die eigenen Geschwister-Engines spielen gegen Fremdengines nicht so eine entscheidende Rolle. Deswegen kann es vorkommen, dass obwohl eine Engine gegen Gegnerschaft aus eigenem Hause ein paar Elopunkte mehr aufweist, gegen externe Engines schwächer spielt. Das erklärt dann auch die unterschiedliche Turnierperformance.
Hier in sehe ich auch eine Schwäche von Stefans Liste derzeit, da er ja nur gegen wenige Gegner ermitteln lässt.


Es mag sein, dass du recht hast. Es wäre aber interessant, woher du dieses Wissen nimmst. Hast du dazu irgendwelche Belege?
Parent - By Joe Boden Date 2014-05-30 14:58
Ich lasse laufend Turniere spielen im Hintergrund mit tausenden Partien. Meistens mit über 20 verschiedenen Engines und den jeweils neuesten Engines und auch stocki devs. Dabei ist mit das vorhin beschriebene Performanceverhalten augenscheinlich geworden. Ich beziehe mich also nur auf  meine eigene Erfahrung.
Parent - - By Benno Hartwig Date 2014-05-30 14:11

> Engines weniger unter Elo-Gesichtspunkten zu definieren, als unter Leistungsklassen


Ich befürchte, das geht an der Interessenlage sehr Vieler vorbei.

Wenn 2 Hundertmeterläufer sehr schnell  ins Ziel kommen, dann möchte ich auch erfahren, wer von den beiden nun, genau betrachtet, die Nase vorn hat.
Ein "Ach, die waren beide schnell, wer da nun der Schnellste war, interessiert doch nicht!"  habe ich noch nie gehört, olympischer Gedanke hin oder her.

Benno
Parent - By Joe Boden Date 2014-05-30 15:01
Da stimme ich Dir zu, Benno. Die Interessenlage hier ist unterschiedlich. Deswegen bringe ich gerne meinen point-of-view hier unter die Leute. Manche sind so fixiert auf Elo und Siege, dass sie gar nicht mehr wissen, wie genau eine Engine ihre Siege eigentlich erspielt.
Up Topic Hauptforen / CSS-Forum / SPCC: Stockfish 140519 testrun durch

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill