LS-Rangliste: Stockfish 140405

By Stefan Pohl Date 2014-04-12 08:24

Stockfish stagniert weiterhin. Bestenfalls. Eigentlich geht es sogar leicht abwärts, allerdings weit innerhalb der Errorbars.
Dennoch ist es bedenklich, daß im Testframework ein Fortschritt nach dem anderen vermeldet wird und sogar der letzte Regression-Test ein meßbares Plus erbrachte, aber in der LS-Rangliste, gegen andere Engines, dabei seit dem 22.2. nix zählbares herauskommt.
Seit dem Testrun der Version vom 22.2. sind mittlerweile 4 komplette Testruns (je 10000 Partien) mit neueren Stockfishen durchgelaufen. Keiner brachte ein Plus (im Gegenteil). Das kann keinesfalls noch mit der Errorbar erklärt werden. Das ist eine zweifelsfreie Stagnation.

Naja, aber ich teste natürlich weiter. Nächster Test von Stockfish wird morgen beginnen (mit der dann aktuellsten Version) und am Ostersonntag sollte das Ergebnis online gehen. Zeitangaben wie immer ohne Gewähr.
Stay tuned!

Stefan

By Michael Scheidl Date 2014-04-12 09:47

Ich bin immer skeptisch, wenn Wissen herausgenommen oder reduziert wird, wie es zuletzt mitunter stattfand. Mag sein, daß man dadurch im Selftest ein paar Elo hinzugewinnt, aber das überzeugt mich nicht. Eine Engine zu "verdummen", nur um sie schneller zu machen, kann einfach nicht richtig sein. Gegen sowas hab ich schon einen quasi genetisch programmierten Widerstand.

By Circular Date 2014-04-12 11:56

Da bin ich mit 100% deiner Meinung überein!

By Thomas Zipproth Date 2014-04-12 12:31

Vasik Rajlich hat dazu mal einen, wie ich finde, bemerkenswerten Satz gesagt:

Chess knowledge must make an engine play stronger. If it does not, it is no knowledge.
(Aus dem Gedächtnis zitiert)

Also sinngemäß ungefähr:

Schachwissen in einer Engine muß dazu führen, das die Engine stärker spielt.
Falls es daß nicht tut, dann handelt es sich nicht um Wissen.

Das stimmt natürlich nicht ganz, es handelt sich in einigen Fällen nur um Wissen, das die Engine so langsam macht das sie schwächer spielt, abgesehen von einigen Spezialfällen.
Aber es ist wohl der grundsätzliche pragmatische Ansatz, wie heuzutage in der Engine Entwicklung vorgegangen wird.

Thomas

By Benno Hartwig Date 2014-04-12 14:36

> es handelt sich in einigen Fällen nur um Wissen, das die Engine so langsam macht das sie schwächer spielt,

Wenn für die Implementierung solchen Wissens tatsächlich soviel Rechenzeit benötigt wird, dass die Engine spürbar schwächer wird, dann ist es wirklich zweifelhaft, ob das derart implementierte Wissen in einem Schachprogramm richtig aufgehoben ist. Es ist dann halt eine Abwägung "Analysefähigkeit vs. Wissen". Und da sollte die Analysefähigkeit eben auch als wichtiges Kriterium gesehen werden.
Allerdings: Es gab Fälle, wo absolutes Basiswissen geopfert wurde. Und wo der Grund hauptsächlich in einem "Ich habe keine Lust dazu!" des Entwicklers vermutet werden konnte. Das fand ich dann auch ärgerlich!

Benno

By Michael Scheidl Date 2014-04-12 14:49

Ja, ist mir auch dunkel in Erinnerung. Was wir einbeziehen können ist, daß Vasik Rajlich ein Internationaler Meister im Schach ist, zusätzlich zu seinem Abschluß am MIT. Also der redet garantiert keinen Bullshit, was Grundprinzien im Computerschach betrifft. Doch ich war nahezu verbittert, als ich erkennen mußte daß zwischen Version 2.2 und 2.3.2a das Falscher-Läufer-Wissen herausgenommen worden war.

Ungefähr zu der Zeit war ich in einem CCC-Thread mit Bob Hyatt, - aus bekannten Gründen nicht mein Lieblingsguru, aber - er sagte daß er niemals Schachwissen aus Crafty entfernt hat. Das ist mir sympathisch.

Engines zu "verblöden" um sie etwas schneller und eine Handvoll Elo stärker zu machen, das kann einfach nicht stimmen, und das will ich nicht haben!

By Benno Hartwig Date 2014-04-12 15:39

> Engines zu "verblöden" um sie etwas schneller und eine Handvoll Elo stärker zu machen, das kann einfach nicht stimmen, und das will ich nicht haben

Auch mit der Null-move-Heuristik gab es ja anfangs Probeme.
Grundsätzlich trug sie zur Stärkesteigerung bei, aber die Engines (ich erinnere mich an Fritz) waren in bestimmten Situation blind und doof.
Und da hat man ja vor einiger Zeit gut nachbessern können.

Ähnlich könnte ich es mir auch mit dem wissensbasierten Beschneiden vorstellen:
In der Tiefe des Suchbaumes muss ja ggf. nicht alles gesehen werden (Nicht die Chance durch eine eigene Unterverwandlung...), aber in den unteren Suchbaumschichten schon.
=> Bis Tiefe T-5 Suche mit vollem Wissen, in Tiefe T-4 bis T nur mit performance-unkritischem Wissen. Hier ist halt das Gros der Knoten, ob auf den untersten Ebenen getrödelt wird, ist eigentlich so was von Wurst.

Dann wird der eigentlich doofe Zug vielleicht ja doch nicht gemacht, zumindest nicht wenn denn lange genug gerechnet wurde.

Benno

By Tom Paul Date 2014-04-12 15:54

Ja dadurch gewinnt eine Engine ELO im Selftest.
Aber der Selftest wird mit ultrakurzer Bedenkzeit durchgeführt.

Stockfish dürfte bei langer Bedenkzeit (TCEC) durch die Entfernung des Wissens das 4 fache an ELO verlieren, von dem was die Engine im Selftest bei der Entfernung hinzugewinnt

Und ich weiß ganz genau wo ich lieber mehr ELO hätte.
Und für die Analyse braucht man das Wissen.

So weit ich weiß nutzen die meisten Menschen ihre Engines für die Analyse.
Und ich glaube kaum das einer dieser Menschen in der Lage ist seine Partien mit der Selftest Bedenkzeit zu analysieren.

Ein minimaler Standard muss sein.

By Eelco de Groot Date 2014-04-13 02:01 Edited 2014-04-13 02:04

Michael Scheidl schrieb:

Da gab es nur ein, (1), patch wobei etwas herausgenommen würde, nämlich https://github.com/mcostalba/Stockfish/commit/be641e881fdfdf3354453381f832fe7822e7c731 'Remove QueenOn7th and QueenOnPawn' code die schon vom Anfang an ein Bißchen zweifelhaft war und nur mit den Turmen "mitgefahren" ist. Also sind gerade die letzten Beitragen von Gary Linscott und Joerg Oster Evaluations Änderungen die wir seit einige Monaten schon gar nicht mehr in Fishtest hätten, nicht mit Erfolg meine Ich. Ich bin also nicht besorgt, auch wenn sich das im Rangliste von Stefan nicht gerade ausbezahlen wird. Wir werden es sehen. Natürlich ist es anders wenn neues Wissen gegen engines eingesetzt wird die darauf anders reagieren als Stockfish (weil sie anderes "Wissen" haben). Aber das haben wir noch nicht gemessen, Stockfish 20140405 hat sie noch nicht. Stefan sprach von einige Geschwindigkeitsänderungen in 140405 aber die bekommt man nur wenn man die auch mit neuen makefile kompiliert, was bei Abrok.eu vielleicht (noch) nicht passiert (wegen automatisches (Ruby or war's Python) script compiles).

Eelco

By Stefan Pohl Date 2014-04-13 08:14

Michael Scheidl schrieb:

Marco geht es mehr um Codevereinfachungen (so eine Art Fetisch von ihm), nicht so sehr um mehr Geschwindigkeit.

Generell muß man m.E. zunächst fragen, wie man Geschwindigkeit einer Engine und den Begriff Wissen überhaupt definiert. Das ist nämlich schwierig bis unmöglich:
Geschwindigkeit kann man auffassen als Knoten pro Sekunde oder auch als die benötigte Zeit, bestimmte Suchtiefen zu erreichen. Das sind 2 Paar Schuhe.
Wissen kann man auffassen als Schachwissen, um eine Position besser zu bewerten/zu verstehen oder aber auch als "Pruning"-Wissen, ob und wann man eine Suche an einer bestimmten Stelle des Suchbaumes abbricht oder vertieft. Auch das sind 2 Paar Schuhe. Allerdings 2 Paar Schuhe, die verknüpft sind, denn auch eine bessere Positionsbewertung kann mehr Suchbaumbeschneidungen ermöglichen. Hier ist eine Grauzone dabei.
Schachwissen macht eine Engine generell langsamer (nach beiden Definitionen von Geschwindigkeit (s.o.), abgesehen von der eben skizzierten Grauzone)
Pruning-Wissen hingegen macht eine Engine langsamer nach der "Knoten/Sekunde"-Geschwindigkeit aber schneller nach der "Suchtiefen-erreichen"-Geschwindigkeit, sofern man das Pruning-Wissen nicht nur zum Vertiefen der Suche an bestimmten Stellen des Suchbaumes benutzt, sondern auch zum Beschneiden des Baumes. (Die Suche wird dank des Pruning-Wissens "intelligenter" (also weniger komplett schwachsinnige Zugfolgen im Suchbaum), aber auch das Pruning-Wissen frisst CPU-Zyklen, also sinkt die Knotenzahl pro Sekunde...)

Generell ist es bei Stockfish so, daß Stockfish weniger Knoten pro Sekunde rechnet als Houdini, aber dennoch weit höhere Suchtiefen erreicht. Will man nun sagen, daß Stockfish schneller ist oder Houdini? Eben. Das geht gar nicht.
Was man sagen kann, ist, daß Stockfish definitiv mehr Pruning macht als Houdini, und somit über mehr Pruning-Wissen verfügt (=intelligentere Suche, schmalerer Suchbaum, höhere Iterationstiefe bei gleicher Zeit). Aber das ist auch so ziemlich alles, was man gesichert sagen kann.

Stefan

By sachista Date 2014-04-12 10:02

Stefan Pohl schrieb:

Wenn man sich die Regressionstest-Ergebnisse anschaut, dann hat sich das messbare Plus aber jeweils stark in Grenzen gehalten. Die builds, die für die Regressions-Tests und für die LS-Rangliste verwendet wurden stimmen nicht überein, aber wenn man für Mitte/Ende Februar 39 ELO ansetzt und für Ende März 44 ELO, so wären es 5 ELO im Selftest, der zumindest erfahrungsgemäß größere Unterschiede anzeigt, als es dann in anderen Ranglisten gemessen wird - also könnte man demnach u.U. eventuell 3-4 ELO erwarten. Vom 5. bis zum 8. April kam noch ein functional Patch, daher könnte man statt den aus den Regressionstests gemessenen ~8-9 ELO Unterschied für Ende Februar bis Anfang April eventuell ~6-8 ELO ansetzen (1-2 ELO weniger eben). Wir hatten vor ein paar Wochen glaube ich ca. 70-80% als ungefähren Wert für das Verhältnis Ranglisten-ELO zu Selftest-ELO ermittelt, dementsprechend erhält man ca. 3 ELO Unterschied bis Ende März und 4-6 ELO bis zum 5. April. Das sind bzw. wären zwar schöne Fortschritte, aber halt eben doch relativ kleine Unterschiede angesichts der Messungenaugkeiten - selbst bei der hohen Anzahl der Spiele der LS-Rangliste. Von daher wäre es schon gut vorstellbar, dass gegen andere Engines durchaus inzwischen wieder zählbares herauskommt, aber es in Ranglisten zumindest nicht immer auch in entsprechende Ergebnisse mündet.

Quelle für die obigen bzw. folgenden Zahlen ist Discoverers Post im Immortalchess-Forum.

14-04-08 ELO: 47.70 +-2.1   wins : losses = 2.164 : 1
14-03-25 ELO: 43.70 +-2.1   wins : losses = 2.024 : 1
14-03-14 ELO: 40.85 +-2.0   wins : losses = 1.950 : 1
14-03-01 ELO: 41.97 +-2.1   wins : losses = 1.932 : 1
14-02-27 ELO: 38.93 +-2.0   wins : losses = 1.902 : 1
14-02-27 ELO: 39.25 +-2.1   wins : losses = 1.871 : 1
14-02-11 ELO: 38.63 +-2.0   wins : losses = 1.894 : 1

Stefan Pohl schrieb:

Seit dem Testrun der Version vom 22.2. sind mittlerweile 4 komplette Testruns (je 10000 Partien) mit neueren Stockfishen durchgelaufen. Keiner brachte ein Plus (im Gegenteil). Das kann keinesfalls noch mit der Errorbar erklärt werden. Das ist eine zweifelsfreie Stagnation.

Das sehe ich anders, die Errorbars geben doch (wenn ich das richtig verstanden habe) nur an, dass die tatsächliche Spielstärke mit 95%iger Wahrscheinlichkeit im entsprechenden Intervall liegt. Es gibt also auch 5% Wahrscheinlichkeit, dass es tatsächlich außerhalb liegt und somit ist es dann ja auch möglich, dass das Ergebnis für den 22.2. (z.B.) um 10 ELO zu hoch ausgefallen ist. Die Wahrscheinlichkeit dafür ist gering, es ist aber eben durchaus möglich und somit absolut erklärbar. Die Fortschritte waren in den letzten zwei Monaten offensichtlich deutlich geringer als in den zwei Monaten davor und wenn man sich die Ergebnisse der Regressionstest UND der LS-Rangliste anschaut, dann gab es von Mitte/Ende Februar bis Mitte März tatsächlich Stagnation.

Stockfish 140405: 3162 Elo (10000 games)
Stockfish 140326: 3165 Elo (10000 games)
Stockfish 140314: 3164 Elo (10000 games)
Stockfish 140226: 3166 Elo (10000 games)
Stockfish 140222: 3170 Elo (10000 games)

Das Ergebnis vom 5. April finde ich jedoch auch enttäuschend und hoffe, dass sich die (bisher) vier funktionalen Patch, die seitdem eingeflossen sind beim nächsten Testlauf wieder messbar positiv bemerkbar machen. Ansonsten fände ich es nochmal interessant zu überprüfen, ob der in der LS-Rangliste bisher beste Stockfish vom 22. Februar bei einem erneuten Testlauf dieses Ergebnis bestätigen kann. Noch lieber wäre es mir natürlich wenn der nächste Testlauf noch besser abschneidet und 140222 einfach als möglicher statistischer Ausreißer eine Fußnote in der Geschichte wird.

By Stefan Pohl Date 2014-04-12 10:26

Das Ergebnis von Stockfish 140222 war keine Ausreißer nach oben. Der Elowert (ohne die 1000 Partien gegen Houdini 4 Contempt=2, die ja keine andere Stockfishversion in ihrem Ergebnis mit drin hat) war 3167. Und das Ergebnis der 4 Tage jüngeren Version 140226 war 3166 Elo.
Es ist kaum realistisch, anzunehmen, daß beide Resultate ein Errorbarausreißer waren, welche dann genau auf die gleiche Elozahl ausgerissen sind...

Stefan

By Tom Paul Date 2014-04-12 12:38

Wie haben eigentlich die Stockfishe in den den anderen Ranglisten abgeschnitten?

By Benno Hartwig Date 2014-04-16 08:17

> Es ist kaum realistisch, anzunehmen, daß beide Resultate ein Errorbarausreißer

Sorry habe ich nicht verstanden: welche beiden Resultate?
- dein regulärer Testlauf mit Stockfish-140222 gegen die entsprechende Gegnerschaft (10000 bzw 11000 Partien)
- und welches Resultat noch?

Benno

By Hauke Lutz Date 2014-04-16 08:32 Edited 2014-04-16 08:35

Stefan meinte die 140226-Version, welche mit 3166 Elo nur 1 Elo weniger als die 140222-Version (3167 Elo ohne H4-Contempt=0) erreichte.

By Kurt Utzinger Date 2014-04-15 21:50

Ob 3162 oder 3170 ELO spielt in praktischen Partien überhaupt
keine Rolle, zumindest wird kein Erdenmensch dabei irgendwelche
Verbesserungen/Verschlechterungen feststellen können. Die Statistik
gaukelt uns da etwas vor, was gar nicht vorhanden ist.
Mfg
Kurt

By Benno Hartwig Date 2014-04-16 09:03

> Die Statistik gaukelt uns da etwas vor, was gar nicht vorhanden ist.

Spielstärkeabschätzungen haben sicher immer Ungenauigkeit, die man bei der Bewertung beachten muss.

Dass wir direkt mit unseren Sinnen eine Größe nicht sehr genau erfassen können, hindert in anderen Bereichen des Lebens aber auch niemanden, genauere Messungen durchzuführen.
Die Länge des Schreibtisches, an dem ich gerade sitze, ist auf den Millimeter genau vermessen und dokumentiert.
Mein Augenmaß ist, auf wenn ich mich sehr anstrenge, aber sehr viel ungenauer.
Die reale Länge ist aber trotzdem 'vorhanden' und recht genau bekannt.
Und wenn jemand Lust hat, sie im Rahmen seiner Möglichkeiten genau zu bestimmen, warum nicht.

Benno

By Thomas Zipproth Date 2014-04-12 13:01

Eine Idee hätte ich dazu, die Frage hatte ich auch schon mal im Fishcooking Forum gestellt, aber keine Antwort erhalten:

Stockfish wird mit 15s und 60s Partien getestet.
Viele Patches, die mit 15s funktionieren, scheitern bei 60s, weil sie schlecht skalieren.
Die Frage ist, könnte das nicht auch beim Übergang von 60s auf 240s (was näher an den LS Bedingungen liegt), passieren?

Das ließe sich evtl. testen, indem man mal einen LS Testrun mit der neuesten Stockfish Version und 45 Sekunden ohne Zuschlag macht, was relativ schnell gehen müßte.
Wenn Stockfish dann wesentlich besser abschneidet, hat man den Grund gefunden.

Thomas

By Jörg Oster Date 2014-04-12 14:14

Thomas Zipproth schrieb:

Hallo Thomas,

bei den 60s Partien wird aber auch mit anderen SPRT-Grenzen getestet. Da muss ein Patch dann wirklich zeigen, was er bringt.

By Jörg Oster Date 2014-04-12 14:11

Für mich ein weiterer Hinweis darauf, dass man nicht alles in Selfmatches testen kann ...
Außerdem habe ich den Eindruck, dass letztens das statistische Rauschen im Framework zugenommen hat. Mag mich aber auch irren.

By Benno Hartwig Date 2014-04-12 15:15

> Stockfish stagniert weiterhin

Das trifft sicher zu.
Dass mal einer dieser Gruppe der "ziemlich Gleichstarken" (wie viele sind es jetzt?) rein zufallsbedingt die Nase ein wenig vorn hat, ist eigentlich zu erwarten.
Und ich vermute dieser besonders glückliche "Gleichstarke" ist eben Stockfish 140222 x64s.

Ich denke, die Errorbars widersprechen noch nicht solche einer Auslegung, oder?

Benno

By Tom Paul Date 2014-04-12 16:34

https://dl.dropboxusercontent.com/s/vr3ybnncc3b3xbb/index.html?token_hash=AAFKgy7pe6y4zM__aumYljp4C0XdLirEX_jTwjfc3l1FhA
Stockfish fast 100 ELO stärker als Komodo 6.
Und 31 ELO stärker als H4.
http://tests.stockfishchess.org/tests
Auf Regression klicken.

By Stefan Pohl Date 2014-04-13 08:18

Benno Hartwig schrieb:

Wie schon oben gepostet, war das Ergebnis der 4 Tage jüngeren Version praktisch identisch:
Eigenzitat:"Das Ergebnis von Stockfish 140222 war keine Ausreißer nach oben. Der Elowert (ohne die 1000 Partien gegen Houdini 4 Contempt=2, die ja keine andere Stockfishversion in ihrem Ergebnis mit drin hat) war 3167. Und das Ergebnis der 4 Tage jüngeren Version 140226 war 3166 Elo.
Es ist kaum realistisch, anzunehmen, daß beide Resultate ein Errorbarausreißer waren, welche dann genau auf die gleiche Elozahl ausgerissen sind..."

Seit gestern Abend läuft der Test von Stockfish 140412 (letzte Version von 13.52 Uhr). Schaun mer mal... Ergebnis aber erst am kommenden Sonntag (vorher hab ich keine Zeit und mein Zweit-Notebook macht z.Zt. was anderes, daher steht nur ein Notebook zur Verfügung).
Bisher (lächerliche 900 Partien) sieht es nach einem leichten Plus aus (+6 Elo).

Stefan

By Ludwig Buergin Date 2014-04-15 00:10

Hallo Stefan

Der neue 140414 geht aber ab wie Schmieds Katze.

Gruß Ludwig

By Horst Sikorsky Date 2014-04-15 19:16

auf schach.de ist es für mich wertlos

By Benno Hartwig Date 2014-04-15 19:54

Angesichts der doch sehr kleinen Spielstärkeunterschiede der Top-Engines und der SF-Varianten der letzten Monate:
Wovon hängt für dich denn der Wert einer Engine ab?
Benno

By Tom Paul Date 2014-04-15 21:36 Edited 2014-04-15 21:39

Von der richtigen Bewertung des falschen Läufer Endspiels.

Wenn Stockfish stagniert, dann liegt es unter anderem daran, dass nichts (Neues) in den Code eingefügt würde.

By Tom Paul Date 2014-04-15 22:46

Wurde eigentlich schon etwas wegen dem Patzer aus der Partie Komodo vs Stockfish unternommen?

By Benno Hartwig Date 2014-04-16 00:13

> Von der richtigen Bewertung des falschen Läufer Endspiels.

SF kennt es, aber bisweilen scheint er es zu 'vergessen'.

Vor einiger Zeit (in einem anderen Thread) hatte ich das auch gesehen.
Daran kann man sich stören. Klar, verstehe ich.

Aber gerade auf schach.de zählt doch die resultierende Spielstärke, oder?
Und die ist doch gut bei SF. Da ist es doch eigentlich egal, durch welchen Mix aus Stärken und Schwächen diese Stärke entsteht. (Darum wunderte ich mich so über deine Feststellung)

Dass die SF-Stärke eventuell weiter steigen könnte, wenn die Engine hier zuverlässiger arbeiten würde, ist ja eine ganz andere Sache.

Benno

By Horst Sikorsky Date 2014-04-16 23:13

ich meine nur, das der neue 140414 zum analysieren gut sein sollte.
... das ist er...ähnlich wie andere Versionen
Horst

By Hauke Lutz Date 2014-04-17 21:47 Edited 2014-04-17 21:50

Der von übermorgen Abend wäre entscheidend stärker, wenn man http://tests.stockfishchess.org/tests/view/534f8ac10ebc596e30914010 reinnimmt...