SPCC: Stockfish 140703 Testrun durch

By Stefan Pohl Date 2014-07-08 06:53

Stockfish tritt nun seit fast einem Monat auf der Stelle (von einem kleinen zwischenzeitlichen Einbruch abgesehen). Auch die letzten 2 Patches, die in Version 140703 eingebaut wurden (u.a. Jörg Osters trapped rook-Patch), konnten leider im Spiel gegen andere Engines keine Verbesserung erzielen, obwohl die Ergebnisse im Framework ganz gut waren.

Sobald neue functional changes kommen, teste ich natürlich weiter.

Stefan

By Tom Paul Date 2014-07-08 09:04

Das ist ja auch kein Wunder bei der Spielstärke die Stockfish hat.
Wir brauchen eben mehr Tester und wer nicht mithelfen will muss sich eben mit dem Ergebnis abfinden.
Nehmen wir einmal an es geht jetzt nach einem Monat mit einem ganz kleinen ELO + weiter, hätten wir doppelt so viele Tester, dann wären wir schon vor zwei Wochen weiter.

By Benno Hartwig Date 2014-07-09 11:14

> Nehmen wir einmal an es geht jetzt nach einem Monat mit einem ganz kleinen ELO + weiter, hätten wir doppelt so viele Tester, dann wären wir schon vor zwei Wochen weiter.

Ist es denn wirklich so, dass die supertollen engineverstärkenden Ideen Schlange stehen und nur auf den Test warten?
Oder braucht es nicht doch auch Zeit, dass diese Ideen reifen?
"Wiegen macht das Schwein nicht fett" und Testpower allein macht noch keine starke Engine.

Benno

By Tom Paul Date 2014-07-09 11:21

Benno Hartwig schrieb:

Ja die stehen schlange, manchmal hat das Framework aussetzer, dann steht alles still.
Aber man könnte deutlich mehr Tests in der selben Zeit schaffen nur fehlt die Hardware.
Stell dir nur mal vor wie viel Zeit du brauchen würdest um auf 3200 ELO zu kommen. Jetzt kannst du vielleicht besser schätzen wie viel Hardwarepower und Zeit nötig sind um +1 ELO zu gewinnen.
Die Ideen reifen im Forum. Wenn ein Test durchfällt, dann reift die Idee zu Hause oder im Forum weiter und wird dann später getestet.

By Stefan Pohl Date 2014-07-09 12:54

Benno Hartwig schrieb:

So isses. Die Zahl der Cores im Framework ist (bis auf die gelegentlichen Abstürze) doch seit rel. langer Zeit recht konstant. So was im Bereich von 170-220 ist eigentlich immer der angezeigte Wert.
Dennoch ist seit ungefähr Februar 2014 eine deutliche Abnahme der Elosteigerungskurve in meinem Meßdatendiagramm erkennbar. Die wirklich wirksamen Ideen/Patches werden einfach weniger, es ist halt schon vieles sehr gut optimiert worden.
Ich bin sowieso der Meinung, daß die Verbesserungsmethode der kleinen Patches/Schritte, nicht ad infinitum weiter Elozugewinn bringen wird, bzw. der Elozugewinn peu a peu immer weniger werden wird. Irgendwann muß mal irgendjemand eine völlig neue, geniale Idee einfallen (Singular Extensions, Nullmove, LMR-Pruning etc. etc.), deren Implementierung dann anschließend im Framework optimiert werden kann. Aber ob und wann das passiert, kann man natürlich nicht vorhersagen.

Immerhin ist Stockfish ja z.Zt. noch die Nummer 1, und somit sind ja momentan primär die anderen, starken (und kommerziellen) Engines in der Bringschuld.

Stefan

By Benno Hartwig Date 2014-07-09 13:34

> Immerhin ist Stockfish ja z.Zt. noch die Nummer 1, und somit sind ja momentan primär die anderen, starken (und kommerziellen) Engines in der Bringschuld.

Ich überlege, ob es nicht gut wäre, eine 'eigene' Konkurrenz zu züchten, und Gull ggf. mit einer ähnlichen Maschinerie zu unterstützen. Keine Ahnung, wie ausbaufähig diese Open-Source-Engine ist.

Benno

By Thomas Müller Date 2014-07-09 14:25

Ja sowas hatte ich mir auch schon mal gedacht.
Wenn sich jetzt "alles" auf SF stürzt ist das nicht gut.
Jetzt sind es 3(4) engines auf einem fast gleichen niveau und davon profitieren alle mehr als wenn es eine dominanz gibt wie seinerzeit R3&R4.
SF hat genug cores meiner meinung, da fehlt im moment eher was neues zündendes ?!?

gruß
thomas

By Benno Hartwig Date 2014-07-09 14:57

> SF hat genug cores meiner meinung, da fehlt im moment eher was neues zündendes ?!?

Cluster-Stockfish!

Oder idealerweise: ein schnöde über das Internet realisierter Stockfish-Schwarm.
Wäre sowas trotz der langsamen Leitungen z.B. im Schach bei durchschnittlich 3 Minuten pro Zug sinnvoll vorstellbar? Oder wäre das von vornherein Quark, so ohne große gemeinsame Datenbasis (Hashtable)?

Benno

By Joachim Rang Date 2014-07-09 18:25

Benno Hartwig schrieb:

In der Tat ist das nicht der Fall. Das Framework hat genügend Rechenpower für die Anzahl an Ideen, die getestet werden. Hin und wieder läuft es sogar leer... Meist ist es so, dass irgendwelche unsinnigen Tests gestartet werden, um die Computer beschäftigt zu halten.

Der limitierende Faktor ist derzeit die Kreativität der Community neue Ideen zu produzieren.

By Benno Hartwig Date 2014-07-09 19:41

Es ist ja auch nicht so, dass es die Power braucht, um überhaupt Fortschritte zu machen.
Meine diversen 'supergeilen' Ideen, die sämtlich(!) nicht zu einer SF-Verstärkung führten

habe ich zunächst mal durch einen 1000-Partien-Kurzzeitparcours getrieben, und dann war spätestens nach wenigen Tagen klar, dass sie nicht für einen großen Test taugen.
Ich denke daher: Erst wenn eine Idee als tatsächlich prinzipiell gut erkannt wurde, entsteht ein Nutzen der großen Rechenpower, weil dann getunt und z.B. optimale Schwellwerte bestimmt werden müssen.

Benno

By Jörg Oster Date 2014-07-09 21:25

Schade. Vielleicht war ja doch eine erfolgreiche Idee dabei?
1.000 Partien reichen nicht wirklich, um eine zuverlässige Aussage treffen zu können. Außerdem können selbst schlechte Patches gute Ideen enthalten. Teste deine Ideen doch im Framework.

By Tom Paul Date 2014-07-09 22:43

Jörg Oster schrieb:

Teste deine Ideen doch im Framework.

Und das ist doch der Sinn des Frameworks!

By Stefan Pohl Date 2014-07-10 09:00

Benno Hartwig schrieb:

Es ist ja auch nicht so, dass es die Power braucht, um überhaupt Fortschritte zu machen.
Meine diversen 'supergeilen' Ideen, die sämtlich(!) nicht zu einer SF-Verstärkung führten

Um kleine Modifikationen zu testen sind 1000 Partien zu wenig. Wenn aber schon so wenige Partien reichen sollen, dann würde ich dir dringend empfehlen, die 500 Vorgabestellungen, die ich für meine Stockfishtestruns nutze, von meiner Website downzuloaden. Denn Hauke Lutz hat mit viel Aufwand, Auswertungen und Rumprobieren die Stellungen über mehrere Zwischenschritte neu sortiert. Und jetzt ist es wirklich so, daß sich bei mir die Testergebnisse sehr viel eher als früher auf einen Ergebnis-Wert einpendeln, der dann auch bis zum Ende des 5000er Testruns meist bemerkenswert stabil bleibt. Damit sind 1000 Partien dann zumindest halbwegs aussagekräftig.

Stefan

By Joachim Rang Date 2014-07-11 17:38

Stimme den anderen zu. Besser gleich im Framwork testen und dann gleich etwas mehr Partien. Ein Test von 20.000 Partien in der Standardbedenkzeit (15 + 0.05s) dauert ca. 20 bis 30 Minuten und liefert selbst bei einem schlechten Abschneiden vielleicht wertvolle Hinweise für andere Tester.

Es gibt einige Tester, welche erst lokal testen und dann nur die vielversprechenden Tests ins Framework stellen. Das mag gut gemeint sein, ist aber eigentlich nicht so sinnvoll, weil auch gescheiterte Tests einen Erkenntnisgewinn bringen.

Da zur Zeit genügend Ressourcen da sind, kriegt man auch nicht gleich auf den Deckel, wenn man eine Idee in zig Varianten testet. Das war vor einem halben Jahr noch anders. Man sollte nur nicht gleich die lange Bedenkzeit wählen, wenn es auf der kurzen schon nicht funktioniert, das ist dann tatsächlich Verschwendung von Ressourcen.

By Jörg Oster Date 2014-07-08 10:52

Hallo Stefan,

erstmal danke fürs Testen.

Du testest ja mit Eröffnungsbuch, d. h. dieser spezielle Teil des Codes wird in den meisten Fällen gar nicht zum Tragen kommen. Weil entweder schon rochiert wurde, oder aber die Rochade in den allermeisten Fällen vorbereitet ist, und in der Suche entsprechend auftaucht und bewertet wird.
Von daher würde ich fast von einer Punktlandung sprechen.
Im Fishtest Framework wurde ja mit einem extrem kurzen Buch getestet, um genau das zu vermeiden. Oder anders ausgedrückt, um den Einfluss dieses Parameter-Tunings besser darzustellen.

Gruß, Jörg.

By Stefan Pohl Date 2014-07-08 12:22

Jörg Oster schrieb:

Ich spiele mit 500 Vorgabestellungen, alle 8 Vollzüge tief. Nicht mit einem Buch. Aber ich verstehe, was du meinst.

Gruß - Stefan

By Ernest Bonnem Date 2014-07-09 02:43

Solche Stabilität zeigt auch, wie gut dein Test ist!
Nochmal Danke!