Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Testrun von Stockfish 141117 durch
- - By Stefan Pohl Date 2014-11-23 11:22
The result of Stockfish 141117 is now online.
Endless RoundRobin-tournament updated, too.

http://spcc.beepworld.de

(Perhaps you have to clear your browsercache or reload the website)
Parent - By Tom Paul Date 2014-11-23 12:07
TCEC Stage 3 Komodo vs Stockfish.
Stockfish sah vom 14. Zug bis zum 62. Zug nur 0.00.
Ob man nicht da etwas mehr hätte herausholen können?
http://tcec.chessdom.com/archive.php?se=7&st=3&ga=65
Parent - - By Tom Paul Date 2014-11-23 12:36
Der +68 ELO Zuwachs, in nur 1,5 Monaten, im Endless RoundRobin zwischen den beiden Stockfishversionen scheint etwas unfassbares zu sein.
Parent - By Stefan Pohl Date 2014-11-23 13:12
Tom Paul schrieb:

Der +68 ELO Zuwachs, in nur 1,5 Monaten, im Endless RoundRobin zwischen den beiden Stockfishversionen scheint etwas unfassbares zu sein.


Tja. Entweder ein statistischer Ausreisser (152 Partien sind sehr, sehr wenig) oder längere Bedenkzeit+Quadcore hat hier irgendwie ein Elowunder zur Folge.
Auf jeden Fall waren und sind die Knotenzahlen aller Engines ganz normal. Stockfish ist sogar etwas langsamer geworden. Allerdings nur ein paar Prozent. PC war wie immer frisch gebootet und es lief sonst nix drauf, auch keine Antivirensoftware o.ä.

Schon komisch.

Mal sehen, wie es weitergeht.

Stefan
Parent - By Benno Hartwig Date 2014-11-24 10:03 Edited 2014-11-24 10:07
Bei solchen Sprüngen wird der Zufall wohl deutlich mitgeholfen haben.

Andererseits wird der jetzt bei 152 Spielen mitwirkende Zufall (das besondere SF-Glück) sich immer noch spürbar auswirken, wenn auch 608 Partien gespielt wurden.
Falls(!) SF nicht stärker ist sein Vorgänger, dann sollte man für den Rest der Partien den Erwartungswert 59,0% annehmen.
Dann würde für die Engine nach 608 Spielen herauskommen: 61,2%. Wohlgemerkt, ohne dass SF tatsächlich stärker geworden wäre.

Wenn hier jetzt über Gebühr der Zufall zugeschlagen hat, dann wird er sich am Ende immer noch sehr deutlich verfälschend auswirken.

Aber das ist eben auch ein grundsätzliches Ärgernis:
Bei vielen Tests wird es immer einige Geben, wo der Zufall das Ergebnis ein gutes Stück weit besser werden lässt.
Das kann dann nur getoppt werden
- von Engines, die wirklich sehr deutlich besser geworden sind
oder
-  von Engines, die eine ähnliche Portion Glück erfuhren
Diverse eigentlich gute Würfe könnten, ohne Glück, eher als Verschlechterung erscheinen.

Benno
Parent - - By Patrick Götz Date 2014-11-23 17:43
Sehr erfreulich zu sehen, das das gute Resultat von Stockfish 141109 bestätigt werden konnte und wir darüber hinaus sogar schon wieder eine neue Nr. 1 haben.
Danke Stefan!
Parent - - By Stefan Pohl Date 2014-11-23 19:04
Patrick Götz schrieb:

Sehr erfreulich zu sehen, das das gute Resultat von Stockfish 141109 bestätigt werden konnte und wir darüber hinaus sogar schon wieder eine neue Nr. 1 haben.
Danke Stefan!


Gerne.
Komisch nur das exorbitant gute bisherige Abschneiden der Version 141112 im Endless RoundRobin.Vermutlich ein statistischer Ausreisser. 152 Partien sind auch bei längeren Bedenkzeiten und multicore-Betrieb wohl schlicht zu wenige Partien. Das gibt natürlich bzgl. des TCEC und den dort gespielten Partiezahlen ein wenig zu denken...
Noch rätselhafter würde es natürlich, wenn der Score von Stocki 141112 im Endless RoundRobin längerfristig so bliebe.
Bisher war er jedenfalls sehr konstant seit Tagen immer um 68%, was jenseits aller Erwartungen ist. Irgendwas um 62% wäre eigentlich zu erwarten.

Stefan
Parent - - By Patrick Götz Date 2014-11-23 19:32
Da denke ich auch an einen statistischen Ausreißer, bis aber sehr gespannt auf den weiteren Verlauf der 141112.
Grundsätzlich halte ich 152 Partien bei längeren Bedenkzeiten für Aussagekräftiger als die selbe Anzahl bei kurzer Bedenkzeit, aber ein ELO Zugewinn in dieser Höhe muss natürlich angezweifelt werden.
Parent - - By Benno Hartwig Date 2014-11-24 17:23
Die Sieg-, remis- und Niederlage-Chancen für die einzelne Partie mögen bei kurzen Zeiten z.B. 0,35 0,40 und 0,25 sein
und bei langen Zeiten vielleicht 0,30 0,50 und 0,20.
Wie entsteht dann (ohne Neuerfinden der Wahrscheinlichkeitsrechnung) gleich noch mal die größere Aussagekraft bei gleicher Partienzahl??

Benno
Parent - - By Patrick Götz Date 2014-11-24 22:09
Bei Deinen Zahlen, ist es
1. unwahrscheinlicher, das die schwächere Engine in Führung gehen kann und
2. unwahrscheinlicher, das das die stärkere Engine eine übermäßig hohe Führung erzielen kann.

Das bedeutet das bei gegebener Unwissenheit der wahren Spielstärkeverhältnisse eine gegebenes hohes Ereignis bei langer Bedenkzeit mit einer größeren Wahrscheinlichkeit auf einen wirklich vorhandenen deutlichen Spielstärkeunterschied hindeutet als bei kurzer Bedenkzeit.
Parent - - By Benno Hartwig Date 2014-11-25 06:57 Edited 2014-11-25 07:00
Konkret
eine 0,35-0,40,0,25-Überlegenheit bringt bei 100 Partien mit Wahrscheinlichkeit 0,527 mindestens 55,0 Punkte
Bei 0,30-0,50,0,20-Überlegenheit ist die Wahrscheinlichkeit für mindestens 55,0 Punkte 0,529.
Das ist in meinen Augen fast gleich!

Du sprachst von einem 'deutlichen' Spielstärkeunterschied, betrachte ich mal ein sehr deutliches "Mindestens 60,0 Punkte"
Da ist die Wahrscheinlichkeit bei  der 0,35-0,40,0,25-Überlegenheit: 0,108
Bei 0,30-0,50,0,20-Überlegenheit ist diese Wahrscheinlichkeit: 0,087

Und wie sieht es bei "Höchstens 50,0 Punkte" aus:
Bei 0,35-0,40,0,25-Überlegenheit: 0,134
Bei 0,30-0,50,0,20-Überlegenheit: 0,112

Für mich bedeutet das:
Ja, du hast prinzipiell recht, bei kürzeren Zeiten (und dadurch eben kleinerer remis-Quote) ist die Streuung geringfügig größer.
In meinen Augen ist die Differenz aber sehr deutlich zu gering, als dass ich mich zu einer Aussage "Grundsätzlich halte ich 152 Partien bei längeren Bedenkzeiten für Aussagekräftiger"  hinreißen lassen könnte.

Zumal (müsste ich noch mal genauer betrachten):
Bei längeren Zeiten verkleinern sich nach meinem Eindruck im Allgemeinen die Überlegenheiten. (Hast du auch diesen Eindruck?)
Du bekommst dann also in der Regel knappere Ergebnisse, was die Fehlerwahrscheinlichkeit dann wieder vergrößert.

Benno
Parent - - By Patrick Götz Date 2014-11-25 09:37
Benno Hartwig schrieb:

Zumal (müsste ich noch mal genauer betrachten):
Bei längeren Zeiten verkleinern sich nach meinem Eindruck im Allgemeinen die Überlegenheiten. (Hast du auch diesen Eindruck?)


Ja, weil die Remisquote bei langer Bedenkzeit steigt.
Ich glaube die sehr hohe Remisquote bei Fernschachturnieren (ca. 90%) der höchsten Klasse hätte man auch unter den Top-Engines bei gleicher Bedenkzeit.
Parent - - By Benno Hartwig Date 2014-11-25 09:54
90% ist richtig viel.

CEGT 40/4 nennt 31,3% remis
CEGT 40/20 nennt 37,5% remis (+6,2% bei 5-facher Zeit)

CCRL 40/4 nennt 28,3% remis
CCRL 40/40 nennt 39,0% remis (+10,7% bei 10-facher Zeit)

Man könnte Fernschach so betreiben, dass die Engine eben einfach für jeden Zug ein paar Tage rechnet.
3 Tage/Zug ist ggü. 1min/Zug immhin die 4320-fache Zeit.
Ich fänd schon interessant, ob man dann bei ca. 50% remis landet (hätte ich so aus dem Bauch geschätzt) oder ob man wirklich bei 90% landen könnte.

Benno
Parent - - By Patrick Götz Date 2014-11-25 11:28
Benno Hartwig schrieb:

Man könnte Fernschach so betreiben, dass die Engine eben einfach für jeden Zug ein paar Tage rechnet.
3 Tage/Zug ist ggü. 1min/Zug immhin die 4320-fache Zeit.
Ich fänd schon interessant, ob man dann bei ca. 50% remis landet (hätte ich so aus dem Bauch geschätzt) oder ob man wirklich bei 90% landen könnte.


Der Vergleich von mir war doch nicht so passend, da bei Fernschachturnieren die "Eröffnungsbücher" eine ganz andere Aufgabe haben und im Vergleich zu Ranglisten-Test-Büchern viel tiefer und schmaler sind.
Mit einem typischen Ranglisten-8-Züge-Buch wäre die Remisquote daher viel niedriger als bei den von mir angesprochenen Fernschachturnieren.
Parent - - By Benno Hartwig Date 2014-11-25 11:35

> ...da bei Fernschachturnieren die "Eröffnungsbücher" eine ganz andere Aufgabe haben und im Vergleich zu Ranglisten-Test-Büchern viel tiefer und schmaler sind


Ranglistenbücher sollen wohl nur einigermaßen bunt und fair in verschiedene Spielsituationen führen,
Fernschachbücher sind irgendwie auf Gewinn getunt.
Wären sie damit auch ideale Bücher für ganz normale Maschinenraumteilnahmen?
Oder gilt da wieder war anderes als im Fernschach?

Benno
Parent - By Patrick Götz Date 2014-11-25 13:36
Die Eröffnungen in hochklassigen Fernschachturnieren sind halt sehr tief ausanalysiert, genau so wie alle verbreiteten Eröffnunssysteme.
Die Analysearbeit die in einigen beliebten Eröffnungsvarianten steckt, ist vielleicht vergleichbar mit einer Bedenkzeit von einigen Jahren/Zug Computerbedenkzeit.
Und bei "einigen Jahren/Zug" Computerbedenkzeit würde man dann wahrscheinlich wirklich auf die besagten 90% Remisquote kommen 
Parent - - By Peter Martan Date 2014-11-25 07:21
Patrick, ich glaube, da verwechselst du statistische Signifikanz, die hier nur von der Partienzahl abhängt bei sonst gleichem Design der Statistik, mit etwas, was du als "Aussagekraft" bezeichnest, statistisch gesehen aber nur eine andere Interpretation des Ergebnisses ist.
Ich bin ja auch der Meinung, dass längere Bedenkzeiten Einfluss auf das qualitative Ergebnis haben, aber nur auf das der einzelnen Partie, die oder das wiederum interessiert aber bei der Statistik, bei der nur ganze und halbe Punkte gezählt werden, nicht.

Das ist ja eben der Knackpunkt bei dem ganzen Rating- Dilemma das wir jetzt schon länger haben: die Merkmalsdifferenzen zwischen den engines werden mit zunehmender Bedenkzeit kleiner, nicht größer, weil die Remisrate steigt, wir brauchen also mehr Partien um zur gleichen statistischen Signifikanz zu kommen, nicht weniger, je länger die TC ist, je stärker die engines werden, je mehr starke es werden und je besser die Hardware wird.
Drum müssen wir mit Ultrakurz, single core und einem Teilnehmerfeld testen, das entsprechend viel "Kanonenfutter" an inferioren Gegnern enthält, um noch genug Partiematierial zusammenzubringen, und dass selektivere (weniger ausgeglichene) Eröffnungsstellungen auch helfen, hat Stefan auch als einer der ersten Tester völlig richtig erkannt oder jedenfalls als einer der ersten oder eigentlich als Erster praktisch umgesetzt.
Parent - - By Patrick Götz Date 2014-11-25 09:26
Das sehe ich auch so, bei gegebenen Ressourcen ist eine kurze Bedenkzeit bei gleichzeitig entsprechend hoher Partiezahl vorzuziehen. So wie z.B. bei Stefan oder im Framework.
Parent - By Benno Hartwig Date 2014-11-25 11:48

> bei gegebenen Ressourcen ist eine kurze Bedenkzeit bei gleichzeitig entsprechend hoher Partiezahl vorzuziehen.


Auf jeden Fall, und nicht nur das.
Meiner Meinung nach ist die Aussagekraft von z.B. 300 Kurzzeit-Partien nicht oder kaum kleiner als die von 300 Langzeitpartien.
Nur dass jedes Ergebnis in erster Linie etwas aussagt zu eben jener Zeitsituation. Klar.

So kann man sich fragen, was einen am meisten interessiert.
Und falls einen z.B. die Spielstärke bei 1min/Zug interessiert, ist zu überlegen, wie man diese Verhältnisse noch am verlässlichsten bestimmen kann:
z.B.
1.) 100 Partien bei 1min/Zug (man misst, was einen interessiert, hat aber eine vglw. riesige Streuung )
2.) oder 200 Partien bei 30sec/Zug (man misst wenigstens fast das Interessierende, die Streuung ist aber kleiner)
3.) oder 600 Partien bei 10sec/Zug
4.) oder 1200 Partien bei 5sec/Zug
5.) oder 2000 Partien bei 3sec/Zug
6.) oder etwa sogar 6000 Partien bei 1sec/Zug  (man misst schon etwas anderes und hofft aufgrund der Erfahrung, dass der systematische Fehler nicht groß ist, die Streuung ist aber recht klein)

Wo darf ich hoffen, Ergebnisse zu erhalten, die am ehesten das beschreiben, was mich eigentlich interessiert?
Ich würde in diesem Beispiel ggf. mein Glück bei 4.) suchen wollen. Obwohl ich die 1min/Zug-Verhältnisse ergründen will.

Benno
Parent - - By Stefan Pohl Date 2014-11-26 05:07 Edited 2014-11-26 05:10
Patrick Götz schrieb:

Das sehe ich auch so, bei gegebenen Ressourcen ist eine kurze Bedenkzeit bei gleichzeitig entsprechend hoher Partiezahl vorzuziehen. So wie z.B. bei Stefan oder im Framework.


Wobei ich nur kurz anmerken möchte, daß Bedenkzeiten auch nicht zu kurz sein dürfen (bzw. am Partieende werden dürfen) und ich aus diesem Grund den extrem kurzen Fischerbonus im Framework (50 ms) für hochproblematisch halte (Engines brauchen ggf. etwas Initialisierungszeit seitens der GUI, seitens Windoofs oder auch für interne Initialisierungsalgorithmen, bevor sie überhaupt "losrechnen").  Ich nutze deswegen immer einen sehr viel höheren Inkrement von 700 ms für meine Stockfishtests und 350 ms für meine Ippo-Derivate Tests. Damit ist eine gewisse Sockelrechentiefe/Suchtiefe immer gegeben,auch bei langen Partien, wo die Engines die Grundbedenkzeit längst aufgebraucht haben.
Das habe ich auch schon für die LS-Rangliste so gemacht und glücklicherweise macht Andreas Strangmüller es bei seiner Bullet-Rangliste jetzt ebenso.

Stefan
Parent - By Tom Paul Date 2014-11-26 06:29
Das sollte mal im Framework getestet werden.
Parent - - By Benno Hartwig Date 2014-11-26 07:08
Klar, übertreiben will man nicht.
Ich hatte viele Tests gemacht mit 1min + 0,5sec, ich fand die liefen auch gut und vernünftig.
Manchmal gewann ich aber inzwischen den Eindruck, dass sich 1min + 1sec zu einem Quasi-Test-Standard bei kurzen Zeiten etabliert.
Den nutze ich jetzt.

Aus meiner sicher nicht zu kurz, aber man hat bereits nach 24 Stunden zumindest etwas grob Richtungweisendes.

Benno
Parent - By Stefan Pohl Date 2014-11-26 10:01
Benno Hartwig schrieb:

Klar, übertreiben will man nicht.
Ich hatte viele Tests gemacht mit 1min + 0,5sec, ich fand die liefen auch gut und vernünftig.
Manchmal gewann ich aber inzwischen den Eindruck, dass sich 1min + 1sec zu einem Quasi-Test-Standard bei kurzen Zeiten etabliert.



Logischerweise. Da weniger als 1 sec Inkrement bei vielen GUIs schlicht nicht einstellbar ist (Fritz, Shredder). Dieses 1+1 ist aber insofern nicht so gut, als daß nur ein Verhältnis von 60:1 zwischen Basiszeit und Inkrement existiert, was dem Zeiteinteilungsalgorithmus der Engine doch recht wenig Spielraum läßt. 90:1 bis 100:1 halte ich daher für deutlich besser geeignet.

Stefan
Parent - By Jörg Oster Date 2014-11-26 09:26
Stefan Pohl schrieb:

Patrick Götz schrieb:

Das sehe ich auch so, bei gegebenen Ressourcen ist eine kurze Bedenkzeit bei gleichzeitig entsprechend hoher Partiezahl vorzuziehen. So wie z.B. bei Stefan oder im Framework.


Wobei ich nur kurz anmerken möchte, daß Bedenkzeiten auch nicht zu kurz sein dürfen (bzw. am Partieende werden dürfen) und ich aus diesem Grund den extrem kurzen Fischerbonus im Framework (50 ms) für hochproblematisch halte (Engines brauchen ggf. etwas Initialisierungszeit seitens der GUI, seitens Windoofs oder auch für interne Initialisierungsalgorithmen, bevor sie überhaupt "losrechnen").  Ich nutze deswegen immer einen sehr viel höheren Inkrement von 700 ms für meine Stockfishtests und 350 ms für meine Ippo-Derivate Tests. Damit ist eine gewisse Sockelrechentiefe/Suchtiefe immer gegeben,auch bei langen Partien, wo die Engines die Grundbedenkzeit längst aufgebraucht haben.
Das habe ich auch schon für die LS-Rangliste so gemacht und glücklicherweise macht Andreas Strangmüller es bei seiner Bullet-Rangliste jetzt ebenso.

Stefan

Leider sieht Marco Costalba das nicht so. Wenn ich mich richtig erinnere, hat er mal gesagt, der Fischerbonus diene lediglich zum Vermeiden von Zeitüberschreitungen.
Mehr noch als die eigentliche BZ, sehe ich die mittlerweile sehr große Bandbreite an langsamen und schnellen Rechnern als größeres Problem an. Skalieren der Grundbedenkzeit ist ja schön und gut, aber alles hat seine Grenzen ...

Gruß, Jörg.
Up Topic Hauptforen / CSS-Forum / Testrun von Stockfish 141117 durch

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill