SPCC: Stockfish 140606 Testrun durch

By Stefan Pohl Date 2014-06-13 07:23 Edited 2014-06-13 07:27

Auch mein Endless RoundRobin ist mittlerweile einen Blick wert, weil sich inzwischen auch mit den aktuellsten Engineversionen einige Partien angesammelt haben.
Bemerkenswert ist, daß Houdini 4, der lange Zeit unbezwingbar schien, unter den Bedingungen meines Turniers (4 Cores und rel. lange Bedenkzeit, nur sehr starke Gegner, sowie Eröffnungsvorgabe, die auch mit vertauschten Farben wiederholt wird) mittlerweile ganz klar auf Platz 3 abgerutscht ist und auch in beiden Einzelvergleichen gegen Stockfish 5 und Komodo 7a deutlich unter 50% liegt. Wer hätte das vor ein paar Monaten gedacht...
Und Stockfish 5 dominiert extrem klar (+9,4% höherer Erfolgsscore als der Zweite (Komodo 7a) - das sind Welten). Und in allen 3 Einzelvergleichen ebenfalls sehr klare Dominanz. Beeindruckend.

Stefan

By Benno Hartwig Date 2014-06-13 09:18 Edited 2014-06-13 09:26

Thanx.
Mal gucken, ob diese nun wieder etwas bessere SF-Ergebnis dem Rauschen zu verdanken ist, oder ob es echte Spielstärkeunterschiede beschreibt.

Bei deinen Testumfängen haben die Differenzen zweier ELO-Werte ja einen 95%-Radius von knapp 10 ELO.
Falls die Versionen 5 und 140606 tatsächlich gleich stark sind/wären, dann würde mit Wahrscheinlichkeit 5% irgendeiner der beiden mind. 10 berechnete ELO vor dem anderen liegen können.
Oder eben: durchschnittlich jeder 20te derartige Vergleich zweier gleichstarker Engines weist irgendeine der beiden als um mind. 10 ELO stärker aus.

Sooo schrecklich unwahrscheinlich erscheint mir das nicht.

Benno

PS:
Ich finde schön, dass du auch die alten Haudegin und ehemalige absolute Überfliegerin Rybka in der Gegnerliste hast.
Und es ist faszinierend, dass sie inzwischen mit weniger als 30%-Quote gegen SF herummickert.
Dasaeinsberechtigung so als Vertreterin der schwächeren Gegnerschaft.

By Dirk Triebel Date 2014-06-13 15:43

Benno Hartwig schrieb:

PS:
Ich finde schön, dass du auch die alten Haudegin und ehemalige absolute Überfliegerin Rybka in der Gegnerliste hast.
Und es ist faszinierend, dass sie inzwischen mit weniger als 30%-Quote gegen SF herummickert.
Dasaeinsberechtigung so als Vertreterin der schwächeren Gegnerschaft.

Rybka ist bei den kurzen Bedenkzeiten gegen den Gegner wohl chancenlos u weit abgeschlagen. Ehrlich gesagt weiß ich nicht, warum Stefan den hier mit in der Gegnerschaft drin hat, was immerhin 1/5 des Ergebnisses ausmacht. Ich hätte zu einer stärkeren engine tendiert, was vielleicht noch zu einer genaueren Ergebnisbewertung führen könnte.

Gruß,
Dirk

By Benno Hartwig Date 2014-06-13 16:18

> Ich hätte zu einer stärkeren engine tendiert...

Welche, wenn sie nicht zu nah verwandt mit einer anderen sein soll, fällt dir da so ein?

Mir missfällt nicht, dass Rybka mitspielt, auch wenn sie schwächer ist.
Sie gibt dem Ganzen irgendwie etwas "Bodenhaftung".

Benno

By Stefan Pohl Date 2014-06-13 16:50

Benno Hartwig schrieb:

Welche, wenn sie nicht zu nah verwandt mit einer anderen sein soll, fällt dir da so ein?

Das ist genau der Punkt. Rybka ist nach Fire die nächststärkste Engine, die nicht eng mit Fire (Bouquet, Mars, Saros, PanChess etc.) oder Stockfish selbst (Don) verwandt ist. Und Critter ist sehr eng mit Houdini 1.5a verwandt.
Deshalb habe ich mich für Rybka entschieden. Ich wollte 5 möglichst starke Gegner mit möglichst entfernten Verwandschaftsverhältnissen haben.
Und wenn Rybka das Bullettempo nicht liegt - so what? Stockfish liegt das Bullettempo auch nicht.
Muß jede Engine mit leben...Und ich will ja keine Rangliste, sondern Fortschritte bei Stockfish im Spiel gegen möglichst starke Gegner messen. Und da Stockfish mittlerweile so superstark ist, hat man gar nicht so viel Auswahl, wenn man halbwegs starke Gegner sucht.

Stefan

By Dirk Triebel Date 2014-06-13 18:00

Naja H1.5 ist auch nicht mehr sooooviel mit H4 verwandt. Ich hätte da sicher wohl Critter genommen u denke nicht, dass Du damit was falsch gemacht hättest.

Ich habe nur gedacht, wenn Du unter 30% kommst u Du ja nur gg 5 spielst wichtet das höher u eine ausgeglichenere engine wäre besser. Aber hast natürlich recht das Du keine rating list machst u für den vergleich passt es schon.

Gruß,
Dirk

By Benno Hartwig Date 2014-06-13 09:33

Natürlich möchte man ja irgendwie gern die ELO-Werte aus der alten Liste (mit Stockfish 140507 an der Spitze) vergleichen mit denen der neuen Liste (nun mit Stockfish 140606 vorn)
Ist das eigentlich wirklich möglich und sinnvoll?
Immerhin hat sich wohl die Berechnungsmethode geändert, und Komodo hat eine stärkere Version erhalten.

Benno

By Stefan Pohl Date 2014-06-13 12:15 Edited 2014-06-13 12:24

Benno Hartwig schrieb:

Sicherlich. Ich habe ja extra Stockfish 5 gegen beide Komodos spielen lassen, sodaß Stockfish 5 beide Testruns (alt und neu) mit je 5000 Partien komplett absolviert hat. Und dann habe ich das Eloergebnis in der alten Stockfishliste von Stockfish 5 (3173 Elo) als Offsetwert für bayeselo in der neuen Liste genommen. Dort wird Stockfish 5 deshalb für immer fixe 3173 Elo haben, und alle neuen Ergebnisse werden von bayeselo darauf geeicht (das ist das Gute an bayeselo, das geht mit Elostat nämlich nicht). Das habe ich ja extra so gemacht, damit eben die neuen Ergebnisse mit den alten verglichen werden können. Genauso habe ich es zu Beginn meiner neuen Website/meiner neuen reinen Stockfishtests auch mit Stockfish DD gemacht: Der Elowert von Stockfish DD in der LS-Rangliste wurde der Offsetwert von Stockfish DD für bayeselo in meiner neuen (jetzt alten) Stockfish-Rangliste. Auch dort hätte ich ja sonst die alten Ergebnisse nicht mit den neuen Ergebnissen vergleichen können. Und sonst wäre das Diagramm mit der fortlaufenden Stockfish-Entwicklungslinie gar nicht möglich...
Dank bayeselo und der Möglichkeit einen Engineelowert auf eine fixe Zahl festzuzurren ist das kein Problem.
Da ich also meine erste Stockfishliste über den Stockfish DD-Offset mit der LS-Rangliste verlinkt habe und die neue Stockfishliste über den Stockfish 5-Offset mit der ersten Stockfishliste verlinkt habe, sind gewissermassen selbst die ganz aktuellen Stockfishergebnisse noch mit den alten LS-Ergebnissen verlinkt. Dadurch ist eben das Diagramm auf meiner Website überhaupt möglich und alle Stockfishergebnisse sind mit allen vorigen und allen folgenden vergleichbar.

Gruß - Stefan

By Benno Hartwig Date 2014-06-13 12:50

Ah!
Gut, und Thanx für die Info.
Benno

By Stefan Pohl Date 2014-06-13 12:57

Kleiner Nachtrag zum Endless RoundRobin-Turnier: In der View Games Sektion sind 4 neue Partien zum Nachspielen bereit. Besonders die allererste (Schwarzsieg von Komodo 7a gegen Houdini 4) ist m.E. sehenswert, da hier Komodo mit Schwarz einen Königsangriff aufs Brett zaubert, wie ihn selbst Stockfish nicht schöner hinkriegt. Und Houdini ist in nur 47 Zügen Matt (davon sind 8 die Eröffnungsvorgabe). Das ist eine der kürzesten Partien des gesamten Turniers. Und das mit Schwarz.
Sieht man nicht alle Tage...

Stefan

By Dirk Triebel Date 2014-06-13 15:36

Hast recht. Vorallem hat H wohl den starken Königsangriff mit den Bauern unterschätzt und wurde immer mehr zugeschnürrt. Man sieht es ganz deutlich, dass H in den Zügen 15-17 Springer u Läufer zurück ins "Niemansland" setzt u sich selber zubaut. Wirklich schön gespielt von K.

Gruß,
Dirk

By Dirk Triebel Date 2014-06-13 16:03

Stefan Pohl schrieb:

Stockfish 140606 testrun ist durch. Sehr schönes Ergebnis. Die Regressionstendenz der letzten Versionen wurde beendet. Der Testrun von Stockfish 140611 läuft seit gestern und sollte Montag durch sein. Sieht bisher nach einem weiteren Plus aus. Geht also wieder vorwärts bei Stocki und nicht mehr rückwärts. Schon komisch, daß bei allen 3 der letzten offiziellen Releases eine Regression hin zum Release stattfand und es danach dann weiter bergauf ging (irgendwie schlechtes Timing - es wurde immer die schwächste Version released und zur offiziellen erklärt). Naja. Aber es waren ja immer nur recht kleine Elobeträge, um die es ging. Läßt sich also verschmerzen. Siehe dazu auch mein Endless RoundRobin-Turnier, wo Stockfish 5 alles in Grund und Boden spielt. Aber etwas seltsam ist es schon, wenn man sich mein Stockfish-Diagramm dieszgl. anschaut.

<a class='urs' href='http://spcc.beepworld.de'>http://spcc.beepworld.de</a>

Stefan

(Perhaps you have to clear your Browsercache or reload the website)

Diese Versionen kamen ja immer zum TCEC Turnier heraus. Vielleicht wurde kurzfrtistig versucht zu optimieren für das Turnier, was sich dann bei kürzeren Bedenkzeiten u mehr Spielen anders ausgewirkt hat.

Es ist auch anzumerken, das Stockfish diese Überlegenheit nicht im Ponderbetrieb hat. Da ist Stockfishe in etwa gleich auf wie H4.

Gruß,
Dirk

By Stefan Pohl Date 2014-06-13 16:59

Dirk Triebel schrieb:

Es ist auch anzumerken, das Stockfish diese Überlegenheit nicht im Ponderbetrieb hat. Da ist Stockfishe in etwa gleich auf wie H4.

Wie kommst du denn darauf?

Stockfish ist bei mir so stark, weil er mit 4 Cores 15'+3'' spielt. Was auf einem Core etwa 50'+10'' entsprechen sollte. Diese lange Bedenkzeit nutzt Stockfish einfach besser als Houdini und Stockfish scort gegen schwächerer Gegner nicht so gut wie Houdini, die es in meinem Turnier aber nicht gibt. Das sind die Gründe für Stockfishs gutes Abschneiden in meinem Endless RoundRobin.
Im IPON Testlauf ohne Ponder liegt Stockfish nach gut zwei Drittel des Testruns praktisch gleichauf mit dem Test von Stockfish mit Pondern. Die Abweichung liegt im Moment bei ganzen 0.05%...(75.47% zu 75.52% laut Ingos Post hier im Forum und seinem Live-Zwischenstand).

Stefan

By Dirk Triebel Date 2014-06-13 17:49

Den Eindruck habe ich einfach. Bei der CEGT Ponder = on liegt weiterhin H4 vorn/ bzw. gleich auf.

http://www.husvankempen.de/nunn/5Plus3Rating/Purelist/rangliste.html

Bei allen anderen Listen ohne Ponder liegt S5 deutlicher

http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_single/rangliste.html

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?tid=7348

Ich kann das auch bestätigen bei 10min+5s+P, wo H4 noch knapp vorn liegt in der rating list.

Daher die Schlußforgerung das S5 bei Ponder on Ratinglists nicht ganz so überlegen ist wie bei P=off.

Aber ich habe es mehr auf die rating lists u weniger auf dein round robin bezogen. Ist mir klar das das 2 verschiedene paar Schuhe sind.

Gruß,
Dirk

By Tom Paul Date 2014-06-13 18:05

Dann muss Stockfish eben noch bei Ponder = on getunt werden.