Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Marco spricht zu mir...
- - By Stefan Pohl Date 2014-01-23 06:10
Hallo,

Nachdem ich den Test von Stockfish 140119 für die LS-Rangliste wegen zu schwachem Score nach 3500 Partien abgebrochen habe, hat sich Marco Costalba bei mir gemeldet und mich gebeten die etwas ältere Version 140118 zu testen.
Dieser Bitte komme ich natürlich gerne nach, auch wenn ich bezweifle, daß da viel Eloplus im Vergleich zur Version 140112 bei rumkommen wird.
Ergebnis Sonntag, falls alles glattgeht und ich nicht wieder wegen mangelndem Erfolg vorher abbreche...

Stefan
Parent - - By Patrick Götz Date 2014-01-23 11:41
Jetzt kannst Du nicht mehr sagen, dass du Stockfish "nur" indirekt mit hilfst, denn was Du jetzt machst ist sozusagen ein offizieller Stockfish Regressionstest 
Parent - - By Stefan Pohl Date 2014-01-23 13:06
Patrick Götz schrieb:

Jetzt kannst Du nicht mehr sagen, dass du Stockfish "nur" indirekt mit hilfst, denn was Du jetzt machst ist sozusagen ein offizieller Stockfish Regressionstest 


Wenn man so will.
Bisher ist auch diese Version (140118) minimal schlechter als 140112, aber es sind auch erst 800 Partien durch. Dennoch scheint sich irgendwo eine kleine Regression (zumindest gegen andere Gegner) eingeschlichen zu haben. Mal sehen, wie es morgen aussieht, wenn gut 3000 Partien durch sind.

Stefan
Parent - - By Benno Hartwig Date 2014-01-23 15:06

> Bisher ist auch diese Version (140118) minimal schlechter als 140112...


Trotz deiner ja sehr umfangreichen Testreihen sind die 95%-Intervalle bei neu hinzugekommenen Engines ja immer noch bummelig 10 ELO breit. Kleinere Fortschritte der Engines könnten da immer noch im Rauschen untergehen. Und ein einzelner Ausreißer nach oben kann einge 'enttäuschende Versionen' im Gefolge haben.

Benno
Parent - By Stefan Pohl Date 2014-01-23 17:37
Benno Hartwig schrieb:

Trotz deiner ja sehr umfangreichen Testreihen sind die 95%-Intervalle bei neu hinzugekommenen Engines ja immer noch bummelig 10 ELO breit. Kleinere Fortschritte der Engines könnten da immer noch im Rauschen untergehen. Und ein einzelner Ausreißer nach oben kann einge 'enttäuschende Versionen' im Gefolge haben.

Benno


Stimmt. Aber solange Stockfish sich weiter so schnell entwickelt, macht das nix. Denn die nächste, noch bessere Version kommt dann ja sehr bald hinterher und liegt dann bald auch außerhalb der Errorbar der letzten Version, also des Rauschbereiches.

Stefan
Parent - - By Stefan Pohl Date 2014-01-24 10:50
Benno Hartwig schrieb:

Trotz deiner ja sehr umfangreichen Testreihen sind die 95%-Intervalle bei neu hinzugekommenen Engines ja immer noch bummelig 10 ELO breit. Kleinere Fortschritte der Engines könnten da immer noch im Rauschen untergehen. Und ein einzelner Ausreißer nach oben kann einge 'enttäuschende Versionen' im Gefolge haben.

Benno


Also in diesem Fall scheint das nicht zuzutreffen und es vielmehr so zu sein, daß Marco Recht hat und sich bei der Version 140119 eine Regression eingeschlichen hat (gegen andere Gegner), denn Version 140118 liegt nach nunmehr 3600 Partien bei +4 Elo zu Stockfish 140112 (und somit +9 Elo besser als Version 140119 zu diesem Zeitpunkt).
Ergo lasse ich den Test auf jeden Fall bis zum Ende laufen, selbst wenn sich dieses minimale Plus von  nur 4 Elo möglicherweise zum Ende hin verflüchtigt - was durchaus anzunehmen ist.
Ergebnis Sonntag. Stay tuned!

Stefan
Parent - - By Stefan Pohl Date 2014-01-25 11:39
Stefan Pohl schrieb:

Benno Hartwig schrieb:

Trotz deiner ja sehr umfangreichen Testreihen sind die 95%-Intervalle bei neu hinzugekommenen Engines ja immer noch bummelig 10 ELO breit. Kleinere Fortschritte der Engines könnten da immer noch im Rauschen untergehen. Und ein einzelner Ausreißer nach oben kann einge 'enttäuschende Versionen' im Gefolge haben.

Benno


Also in diesem Fall scheint das nicht zuzutreffen und es vielmehr so zu sein, daß Marco Recht hat und sich bei der Version 140119 eine Regression eingeschlichen hat (gegen andere Gegner), denn Version 140118 liegt nach nunmehr 3600 Partien bei +4 Elo zu Stockfish 140112 (und somit +9 Elo besser als Version 140119 zu diesem Zeitpunkt).
Ergo lasse ich den Test auf jeden Fall bis zum Ende laufen, selbst wenn sich dieses minimale Plus von  nur 4 Elo möglicherweise zum Ende hin verflüchtigt - was durchaus anzunehmen ist.
Ergebnis Sonntag. Stay tuned!

Stefan


Nach nun 7200 Partien ist das Ergebnis praktisch unverändert (+5 Elo zu Stocki 140112), es sieht also so aus, als könnte Stockfish 140118 den Level halten. Sehr bemerkenswert ist der Score im Einzelvergleich gegen Houdini 4: Genau 50% nach 721 von 1000 Partien. Sehr stark!
Ergebnis morgen.

Stefan
Parent - - By Frank Brenner Date 2014-01-25 13:55
5 Pünktchen ist ja eine Menge in so wenigen Tagen.
Hat Marco auch gesagt welche Patches in der Version vom 19. dazugekommen sind, die ggf eine Verschlechterung brachten ?
Parent - By Stefan Pohl Date 2014-01-25 15:20
Frank Brenner schrieb:

5 Pünktchen ist ja eine Menge in so wenigen Tagen.
Hat Marco auch gesagt welche Patches in der Version vom 19. dazugekommen sind, die ggf eine Verschlechterung brachten ?


Welche Patches wann dazugekommen sind, kannst du doch auf der Download-Site der Developmentversionen genau sehen, da ist doch alles chronologisch aufgelistet...Es gab 2 und der neuere der beiden wirds wohl sein. Eine Codevereinfachung von einem Henri Wiechers, die auch nur mit der kurzen der 2 Bedenkzeitstufen getestet wurde.

Stefan
Parent - - By Patrick Götz Date 2014-01-25 21:11
die +5 und die 50% wären beides sehr überraschend. Wenn es bei den ca. +5 bleibt dann hättest Du einen wertvollen Hinweis auf eine mögliche Regression in der Version vom 19.01.2014 gegeben.
Parent - - By Stefan Pohl Date 2014-01-26 04:29
Patrick Götz schrieb:

die +5 und die 50% wären beides sehr überraschend. Wenn es bei den ca. +5 bleibt dann hättest Du einen wertvollen Hinweis auf eine mögliche Regression in der Version vom 19.01.2014 gegeben.


Leider gab es auf Arbeit einen Krankheitsfall und ich kann daher das Endergebnis erst am Montag auf meine Website stellen (immer vorausgesetzt alles läuft beim Testlauf glatt durch). Sorry...

Stefan
Parent - - By Roland Riener Date 2014-01-26 12:56
Die meisten Leser hier vermutlich, ich jedenfalls, verfolgen deine Tests mit großem Interesse, weil du immer am Ball mit der neuesten Entwicklung bist. Danke wieder einmal.

Anspruch auf Testbedingungen auf Zuruf und "termingemäße" Fertigstellung haben wir aber keinen.

Roland
Parent - - By Benno Hartwig Date 2014-01-26 16:17
+1
weil du schnell bist, Stefan,
weil du viele Versionen testest, insb. von SF
und weil die Ergebnisse für diese Zeiten sehr genau sind.
Super!

Benno
Parent - By Hauke Lutz Date 2014-01-27 21:16
+1
Schließe mich meinen 100%ig meinen Vorrednern an !

Ich finde es interessant das Stocki im direkten Vergleich gegen Houdini 4 1,65% aufholt, aber im selben Atemzug gegen Komodo 1,15% Vorsprung verliert.

Gruß
Hauke
- - By LuBüWy Date 2014-01-24 12:53
Hallo Stefan

Bei mir spielt die 19 bei 5 min. Partien wesentlich stärker als die 18
Kann  bei anderen Bedienern natürlich wieder anders aussehen.

Gruß Ludwig
Parent - By Frank Brenner Date 2014-01-25 14:01
Hast du schon zig tausend Spiele gespielt mit der "19er" Version um die Spielstärkedifferenz zu ermitteln ?

Ich würde niemals wegen ein paar Elopunkten unterschied "wesentlich stärker" behaupten.

Vom "Bediener" ist die Spielstärke ganz sicher nicht abhängig.
Up Topic Hauptforen / CSS-Forum / Marco spricht zu mir...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill