LS-Rangliste: Stockfish 140326

By Stefan Pohl Date 2014-04-02 08:49

Der Elowert von Stockfish 140222 wird durch die zusätzlichen 1000 Partien gegen Houdini 4 Contempt=2 leicht nach oben gezogen (ca. 2.5-3 Elo). Dennoch ist und bleibt Stockfish 140222 die bislang beste Developmentversion, auch wenn man diese Elo geistig abzieht oder die erspielten Punkte gegen die 10 Gegner, gegen die auch die neueren Stockfishe gespiellt haben, betrachtet. Was leider bedeutet, daß Stockfish im Moment stagniert oder sogar minimal abbaut.

Stefan

By Tom Paul Date 2014-04-02 08:53

Interessant das bei dir Stockfish immer schwächer wird.
Vielleicht liegt es an der Bedenkzeit die beim Stockfish Team anders ist als bei dir.
Oder an den Vorgabestellungen. Das Stockfish Team lässt ja viel mehr unterschiedliche Stellungen spielen.
Was ist bei dir das maximale + bzw. - in einer Vorgabestellung?
Oder es liegt an den Vereinfachungen die mehr ELO kosten als gedacht.

By Stefan Pohl Date 2014-04-02 08:58

Tom Paul schrieb:

Es ist nicht gesagt, daß Stockfish wirklich abbaut. Wenn man die 2-3 Elo von Stockfish 140222 abzieht, die durch die 1000 Partien gegen Houdini 4 Contempt=2 dazukamen (und den anderen Stockfishen fehlen), dann liegen alle Ergebnisse weit innerhalb der Errorbars.
Nur vorwärts geht es seit dem 22.2. mit Sicherheit nicht.
Und denkbar sind leichte Rückschritte durch die simplification Patches durchaus. Aber ein Nachweis sind die LS-Tests dafür nicht, denn die Ergebnisse nach nur jeweils 10000 Partien sind nicht genau genug.

Stefan

By Thomas Zipproth Date 2014-04-02 21:47 Edited 2014-04-02 21:49

Interessantes Ergebnis, danke für den Test.
Das bedeutet, das die aktuelle Version auch dieser Reihe von im Testframework erfolgreichen Versionen immer noch gleich oder schlechter spielt:

Code:

+ 6386 -6295 =27531
+  839 - 715 = 3478
+ 3217 -3096 =14418 
+ 1605 -1458 = 6141 
+ 6020 -5918 =20108

In letzter Zeit habe ich auch eine Reihe von nicht nachvollziehbaren Stockfish Ergebnissen erlebt, welche mich so langsam ein Problem im Framework vermuten lassen.

Ab und zu reiche ich eine Testversion ein, wenn ein privater Test ergibt, das diese Version mit ziemlicher Sicherheit zumindest nicht schlechter spielt als die aktuelle.
Interessanterweise sind alle diese Versuche grandios gescheitert, ohne das ich bisher eine Erklärung dafür gefunden habe.
Bei dem letzten Versuch war es besonder krass. Ich hatte etwas vielversprechendes gefunden und meine 3 Rechner vorsichtshalber 24 Stunden laufen lassen.
Das Ergebnis bei dieser Testversion war folgendes:

Code:

14 Sekunden Partien:   +1611 -1608 =5898
15 Sekunden Partien:   +1494 -1416 =5685
16 Sekunden Partien:   +1394 -1313 =5365

Das Ergebnis im Test-Framework:

Code:

15 Sekunden Partien: +951 -1041 =3649

Also nach relativ kurzer Zeit klar schlechter, trotz der vorausgegangen positiven Resultate.
Die Tests erfolgten mit einer exakten Kopie des Testframeworks, nur mit 3 unterschiedliche Zeiten.
Vielleicht kannst du aus Elo-theoretischer Sicht beurteilen, wie wahrscheinlich ein solches Framework Ergebnis nach den vorausgegangenen Tests ist?

Thomas

By Stefan Pohl Date 2014-04-02 22:27 Edited 2014-04-02 22:37

Thomas Zipproth schrieb:

Interessantes Ergebnis, danke für den Test.
Das bedeutet, das die aktuelle Version auch dieser Reihe von im Testframework erfolgreichen Versionen immer noch gleich oder schlechter spielt:

Code:

+ 6386 -6295 =27531
+  839 - 715 = 3478
+ 3217 -3096 =14418 
+ 1605 -1458 = 6141 
+ 6020 -5918 =20108

Code:

14 Sekunden Partien:   +1611 -1608 =5898
15 Sekunden Partien:   +1494 -1416 =5685
16 Sekunden Partien:   +1394 -1313 =5365

Das Ergebnis im Test-Framework:

Code:

15 Sekunden Partien: +951 -1041 =3649

Naja, also klar schlechter ist das Ergebnis im Framework eigentlich nicht. 49.2%, wenn ich richtig rechne. Also -5 oder -6 Elo. und das bei 5641 Partien, was eine Errorbar von +/-7 bedeutet. Ergo liegt das Ergebnis noch innerhalb der zu erwartenden Schwankungsbreite und ist somit gar nicht sicher schlechter. Und deine Ergebnisse ergeben 50.3% aus 25784 Partien. Das wäre eine Errorbar von knapp +/-4 Elo. Also hat man eine Gesamtvergleichserrorbar der beiden Ergebnisse von knapp +/-11 Elo und die Ergebnisse liegen 1.1% auseinander, also knapp 8 Elo.
Also ist statistisch gesehen eigentlich alles im grünen Bereich (der Errorbars)...
Das ist eben die Crux bei solchen Messungen: Wenn es um so geringe Schwankungen (im Ein-Prozent-Bereich) geht, müßten eigentlich noch sehr viel mehr Partien absolviert werden, als ein paar Tausend oder 25000. Hier wären Größenordnungen von jeweils ca. 100000 Partien anzuraten. Ob das mit den heutigen technischen Mitteln in einem halbwegs vernünftigen Zeitrahmen realisierbar ist, ist eine andere Frage. Aber dann hätte man bei zwei zu vergleichenden Engineversionen eine Errorbar von jeweils nur noch knapp +/-2 Elo und somit eine Vergleichserrorbar von nur noch knapp +/-4 Elo. Das wäre dann so etwa ein gutes halbes Prozent, was man statistisch noch gesichert auseinanderhalten könnte.
Und wenn man nur Stockfish alt gegen Stockfish neu im Direktvergleich gegeneinander spielen lassen will, wie im Framework, dann sollten es eben 200000-250000 Partien sein, wenn man so geringe Zuwächse (oder leichte Regressionen) messen wollte.
Wahrscheinlich ist das Problem des Frameworks genau das: viel zu wenige Partien, um so minimale Änderungen, wie sie einzelne Patches bedeuten, statistisch gesichert messen zu können. Das führt dann dazu, daß Zufallsschwankungen die eigentlichen Veränderungen, die man ausmessen will, überlagern (können). Und dann meint man, merkwürdige Effekte im Framework zu sehen, obwohl es nur zufällige statistische Schwankungen im Errorbarbereich sind. Wir könnten dieses Phänomen passenderweise den Frank-Quisinski-Effekt nennen...

Gruß - Stefan

By Thomas Zipproth Date 2014-04-02 23:01

Hallo Stefan,

Danke, das war genau was ich wissen wollte.

Laut Doku im FishCooking Forum arbeitet der SPRT Standard Test mit folgenden Wahrscheinlichkeiten:

Pass-rate for 0 ELO patches: 1%
Pass-rate for -1 ELO patches: 0.05%
Pass-rate for +1 ELO patches: 10%

Das führt offenbar dazu, das der Test sofort aufhört, wenn das Ergebnis mal temporär abfällt, was die schlechten Ergebnisse erklären würde.

Die Regressions Tests erfolgen mit 40000 Partien, wobei in der Regel Differenzen von 3-4 Elo (z.B. +40 zu +43) überprüft werden.
Das könnte dann, wie du sagst, zu wenig sein...

Gruß,
Thomas

By Stefan Pohl Date 2014-04-03 04:45 Edited 2014-04-03 04:49

Thomas Zipproth schrieb:

Hallo Stefan,

Danke, das war genau was ich wissen wollte.

Allerdings bin ich nicht genug in die Arbeitsweise/ den Aufbau des Frameworks eingeweiht. Daher könnte es natürlich auch möglich sein, daß da wirklich irgendwo was hakt..Das wäre auch denkbar. Man liest ja bei Fishcooking immer wieder was über merkwürdige Einzelergebnisse einzelner Testrechner.
Was ich mir auch noch vorstellen könnte: Besonders bei der kurzen Bedenkzeit (also 15 Sekunden) spielt es natürlich eine gewichtige Rolle, wie schnell die jeweilige CPU ist (die Rechengeschwindigkeit der CPU ist umso stärker Ergebnis beeinflussend, je kürzer die gewählte Bedenkzeit ist). Wenn deine Heim-PCs nun z.B. deutlich schneller sind, als die Testframeworkrechner, auf denen deine Patches getestet wurden, so könnte das auch leicht unterschiedliche Ergebnisse produzieren. Bei so geringen Differenzen, die man messen wil, könnten auch solche Effekte eine meßbare Rolle spielen.
Ein-Prozent-Differenzen und alles darunter ist im Computerschach einfach sehr schwierig zu messen und geringfügigste Abweichungen im Testaufbau (Hardware (s.o.)) können hier schon mehr Effekt haben, als der schöne neue Patch, den man eigentlich untersuchen will.

Stefan

By Stefan Pohl Date 2014-04-03 05:12

Thomas Zipproth schrieb:

Hallo Stefan,

Danke, das war genau was ich wissen wollte.

Also die Regression-Tests würde ich als OK bezeichnen. Da werden ja mehrere Patches in ihrer Gesamtheit gemessen und 40000 Partien ergeben eine Errorbar von ca. 3-4 Elo. Da ist also das, was man messen will, durchaus innerhalb der Errrobar. Nur bei den normalen Patch-Tests müßten es eben auch allerwenigstens 40000-50000 Partien sein. Und das eben leider nicht der Fall.

Stefan

By Stefan Pohl Date 2014-04-03 18:32

Habe heute den LS-Testlauf vom allerneusten Stockfish 140403 (mit Jörg Osters neuestem Patch) gestartet. Da ich allerdings kommende Woche wenig Zeit habe und ich meinen zweiten Laptop z.Zt. für etwas anderes benötige, wird das Ergebnis voraussichtlich erst am Freitag, den 11.4. online gehen. Es ist also etwas Geduld gefragt...

Der Patch von Jörg hat gut gescored (zumindest bei der LTC, die dem LS-Tempo rel. nahe kommt) und seit meinem letzten Stockfishtest gab es zudem 2 functional Patches von Stefan Geschwentner, die auch ganz ordentlich abgeschnitten haben.
Insgesamt 3 functional Patches rechtfertigen auf jeden Fall eine Testlauf. Mal sehen, ob der neue Stockfish endlich an Stockfish 140222 vorbeiziehen kann...Es fehlen Stockfish schließlich nur noch 15 Elo, um Houdini 4 einzuholen und nur 16 Elo, um die neue Nummer 1 der Welt zu werden. Das muß doch in absehbarer Zeit zu schaffen sein ?!?
Stay tuned!

Stefan

By Tom Paul Date 2014-04-03 18:39

Eigentlich zählt ja nur das H3 überholt wurde und somit ist Stockfish die Nr. 1.
H4 besteht ja zum Teil aus dem Stockfish Code und ist somit vor Stockfish, wenn wir von Fair Play reden, dann müsste man dem Stockfish Team auch die Möglichkeit geben sich den Houdini Code anzusehen und somit wäre Stockfish wieder vor H4.

By Stefan Pohl Date 2014-04-03 18:56 Edited 2014-04-03 18:58

Tom Paul schrieb:

Wer redet von Fair Play? "Chess is war" und der Kampf um die Weltspitze im Computerschach somit auch (wer das bezweifelt sollte sich an die legendären BrettcomputerWMs mit Mephisto und Fidelity erinnern...) Da gabs kein "Fair Play"...und heute sicher auch nicht.
Es geht darum, besser als die anderen zu sein, und sie auf dem Schachbrett zu besiegen.
Wem das zu amoralisch ist, sollte sich ein pazifistischeres Hobby suchen, indem es nicht darum geht, den Gegner matt zu setzen (sei es auf dem Brett oder mit dem Progammcode).
Nummer 1 ist die Engine, die in den Ranglisten oben steht. Und das ist z.Zt. Houdini 4.

Stefan

By Benno Hartwig Date 2014-04-04 16:24

> Eigentlich zählt ja nur das H3 überholt wurde und somit ist Stockfish die Nr. 1. H4 besteht ja zum Teil aus dem Stockfish Code und ist somit vor Stockfish

Deine höchstspezielle Privatmeinung sei dir natürlich herzlich gern gegönnt.

Und ich nehme mir die Freiheit, sie sehr "sehr speziell " zu finden.

Natürlich weißt du bei keiner Engine mit geschlossenen Sourcen, ob und wieviel aus Crafty, Fruit, Ippolit und Stockfish Logik übernommen wurde.
Seit vielen Jahren weißt du das schon nicht.
Ein Grund dafür, dass die Sourcen offen sind, ist ja gerade auch, dass Ideen übernommen werden dürfen.

Aber dieses "Da wurde nun aber Code übernommen" erschallt regelmäßig doch gar zu naiv.

Benno

By Jörg Oster Date 2014-04-03 18:45

Wir arbeiten dran ...

By Stefan Pohl Date 2014-04-03 19:02

Jörg Oster schrieb:

Wir arbeiten dran ...

Weiß ich doch. Ich bewundere jeden, der es schafft, bei einer so starken Engine wie Stockfish noch einen erfolgreichen Patch einzubauen. Nur leider ging es in letzter Zeit in meinen LS-Tests eher rückwärts als vorwärts.
Ich poste sicher irgendwann am Wochenende mal einen halbwegs fundierten Zwischenstand, aber nicht vor Partie 3000.

Stefan

By Stefan Pohl Date 2014-04-05 13:23

Stefan Pohl schrieb:

Habe mich aufgrund der diversen neuen Patches, die recht vielversprechend aussehen, entschlossen den Testrun neu zu starten mit der letzten Version von heute (140405). Das Ergebnis gibts daher erst kommenden Samstag.

Stefan

By Tom Paul Date 2014-04-05 13:34

Glaube nicht, dass es sich lohnt.
Ich würde andere Engines testen und wenn es keine anderen Engines gibt, dann Hardware für Stockfish stiften.
Und den letzten Bench erst testen, wenn Stockfish wieder anfängt zu stagnieren, dass erkennt man an den roten Tests.
Den letzten Test hast du abgebrochen, weil ein neuer Bench herauskam, somit Hardwarepower verschwendet, und heute wird wieder ein neuer Bench kommen und morgen auch.

By Benno Hartwig Date 2014-04-05 22:47

> Ich würde andere Engines testen und wenn es keine anderen Engines gibt, dann Hardware für Stockfish stiften.

Ich denke, die SF-Entwicklung guckt schon auch mit großem Interesse auf das, was Stefan in seinen Tests lefert.
Seine Rechenpower in den normalen SF-Test zu stopfen, würde ggf. deutlich weniger bringen.

Außerdem:
Stefan selbst interessiert vermutlich sein Tun.
Und viele andere (mich auch!) interessiert das auch. Gerade mit den vielen Dev-Versionen. Und auch wenn es Phasen der Stagnation gibt.
Gerade die verstehen wir doch erst dank dieser Tests.

Ne, Stefan soll bitte genau so weitermachen!

Benno

By Stefan Pohl Date 2014-04-06 06:18

Benno Hartwig schrieb:

Macht er.

Natürlich ist so ein Neustart eines Tests nach 1,5 Tagen nicht das Optimum. Allerdings waren 2 der neuen Patches speed-ups, was bei meinen kurzen Bedenkzeiten immer recht vielversprechend ist, und zum anderen muß ich die Tests auch immer ein bißchen mit meinem Arbeitsleben koordinieren. Der Test von Stockfish 140403 wäre zu einem Zeitpunkt zu Ende gewesen, an dem ich absolut keine Zeit habe, um meine Datenbanken und meine Website zu aktualisieren. Daher paßte mir der Neustart mit Stockfish 140405 ganz gut in meinen Terminkalender, denn am Samstag, wenn der neue Testrun durch sein sollte, habe ich frei und kann das Ergebnis in Ruhe einbauen.

Stefan

By Stefan Pohl Date 2014-04-07 08:47

Stefan Pohl schrieb:

Erster, früher Zwischenstand nach ca. 2600 Partien: Genau wie die letzte getestete Version (140326), also ebenfalls minimal schwächer als 140222. Sieht weiter nach Stagnation aus...Sollte es zum Ende hin noch abwärts gehen (was bei Stockfish nicht die Regel, aber auch nicht selten ist), könnte das Ganze sich zu einer echten Regression auswachsen.
Aber das ist noch ein sehr frühes Zwischenergebnis, also bitte nicht überbewerten.

Stefan