Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / LS-Rangliste: Stockfish 140118
- - By Stefan Pohl Date 2014-01-27 07:08
The result of Stockfish 140118 is now online.

http://ls-ratinglist.beepworld.de

Stefan

(Perhaps you have to clear your browsercache or reload the website)
Parent - - By Stefan Pohl Date 2014-01-27 07:22
So. Besser spät als nie...

Die gute Nachricht ist, daß das +5 Elo Ergebnis (zu Stockfish 140112) und ein excellenter Score gegen Houdini 4 (499-501) bis zum Ende gehalten wurden. Dieser Testrun war sehr stabil, so ab 1800 Partien passierte eigentlich praktisch nichts mehr. Marco hatte also Recht, als er mir empfahl, die Version 140118 zu testen.
Die schlechte Nachricht ist: Die Wahrscheinlichkeit, daß sich eine beträchtliche Regression in Version 140119 eingeschlichen hat, ist nun sehr hoch. Denn 140119 lag nach immerhin 3500 Partien -5 Elo zu Stockfish 140112 und liegt nun -10 Elo zu Stockfish 140118. Das ist zwar in beiden Fällen noch innerhalb der Gesamt-Vergleichs-Errorbar, aber es ist doch recht unwahrscheinlich, daß das noch als statistische Schwankung erklärt werden kann...möglich ist es allerdings. Es gab 2 Patches in Version 140119 (seit Version 140118) und einer wurde leider nur mit der ganz kurzen Bedekzeit des Frameworks gecheckt (15''+50ms). Vermute mal, daß dort das Problem liegt. Dank des Testruns von Version 140118 wissen wir aber nun, daß das Problem mit den 2 Patches der Version 140119 entstanden sein muß, zuvor hätte es ja noch irgendwo zwischen 140112 und 140119 liegen können. Wahrscheinlich war das auch der Grund, warum Marco mich um den Testrun von 140118 gebeten hat: Das grenzt das Problem zeitlich stark ein...Ich war gerne behilflich. Und Stockfish 140118 hat ja auch noch mal +5 Elo zugelegt und somit liegt Stockfish nun wirklich meßbar vor Houdini 3 (nicht mehr praktisch gleichauf).  Und die Niederlage gegen Houdini 4 (499-501) war spektakulär knapp, eigentlich ist dieses Ergebnis praktisch Augenhöhe (im Einzelvergleich).

Stefan
Parent - - By Patrick Götz Date 2014-01-27 09:29
Vielen Dank Stefan.
Nun bin ich auf die Reaktion in Form von Framework Tests gespannt. Eine 10 Elo Regression ist kaum vorstellbar, aber auch wenn nur die Hälfte davon übrigbleibt hättest Du mit der Aufdeckung einen sehr großen Beitrag zum Stockfish Projekt geleistet.
Parent - - By Tom Paul Date 2014-01-27 12:12
LS top10 tournament

Houdini holt aber spürbar mehr Punkte gegen die anderen Engines als Stockfish.
Parent - By Stefan Pohl Date 2014-01-27 14:03
Tom Paul schrieb:

LS top10 tournament

Houdini holt aber spürbar mehr Punkte gegen die anderen Engines als Stockfish.


Das ist ja nun wirklich nichts Neues...Aber dennoch ist ein 499-501 gegen Houdini 4 (das Bullet-Biest) bei der kurzen LS-Bedenkzeit ein absolutes Hammer-Ergebnis. Die nur 6 Tage ältere, letzte Version 140112 hat "nur" 482.5-517.5 gescored und als Houdini 4 rauskam, lag der damals aktuelle Stockfish so bei ca. 45% Erfolgsscore gegen Houdini 4.
Ergo sind Houdinis Tage an der Spitze der härtesten Rangliste der Welt (kürzeste Bedenkzeit, nur absolute Top-Gegner, wenig Hash, keine Endspieldatenbanken, mittelmäßige CPU-Leistung, kein Pondern, geringste Zufalls-Fluktuationen) gezählt, sollte kein neuer Houdini in absehbarer Zeit kommen (wovon ich nicht ausgehe)...

Stefan
Parent - By Stefan Pohl Date 2014-01-27 13:56
Patrick Götz schrieb:

Vielen Dank Stefan.
Nun bin ich auf die Reaktion in Form von Framework Tests gespannt. Eine 10 Elo Regression ist kaum vorstellbar,


Tja. Aber zu Stockfish 140112 fehlen der Version 140119 ja auch -5 Elo. Insofern kann man zumindest ausschließen, daß 140118 ein Ausreißer nach oben ist. Aber möglich wäre natürlich, daß der Testrun von 140119 ein Ausreißer nach unten war...

Stefan
Parent - - By Karl Müller Date 2014-01-27 13:27
danke Stefan,

insofern bestätigt sich auch mein Eindruck, dass die Ipmann180114IP, basierend auf der "normalen" 180114 die bisher stärkste ist . . .

Zur Zeit teste ich im statistisch unrelevanten "Bereich" die neuen Ipmann 260114IP gegen die o. a. 18er und die neue Rockwood 270114.
Bin gespannt ob die 18er nach wie vor vorne liegt.

Grüße
Parent - - By Stefan Pohl Date 2014-01-27 13:53
Karl Müller schrieb:

danke Stefan,

insofern bestätigt sich auch mein Eindruck, dass die Ipmann180114IP, basierend auf der "normalen" 180114 die bisher stärkste ist . . .

Zur Zeit teste ich im statistisch unrelevanten "Bereich" die neuen Ipmann 260114IP gegen die o. a. 18er und die neue Rockwood 270114.
Bin gespannt ob die 18er nach wie vor vorne liegt.

Grüße


Diese Stockfish-Ableger kann ich nicht auch noch testen - sorry. Zumal ich bei Rockwood das Problem habe, daß die Knotenzahlen, die mir die LittleBlitzerGUI anzeigt, gut 25-30% niedriger sind, als die vom "normalen" Stockfish. Irgendwie scheint Rockwood sich selber im Weg zu stehen, wenn drei Partien auf meinem Notebook parallel laufen. Merkwürdig.

Im Moment läuft der Test von Gull 2.8 (nach 3000 Partien ist diese Version 1-2 Elo schwächer als Gull R600 (also gleich stark)). Danach kommt dann voraussichtlich erst mal Firenzina 2.4.1 dran. Danach ist dann evt. wieder Zeit für Stockfish...
Das Gull-Ergebnis wie schon erwähnt erst am Samstag, da ich in der kommenden Woche beim besten Willen keine Zeit habe, meine Datenbanken und die Website zu aktualisieren (obwohl der Testrun wohl schon Donnerstag früh durch sein dürfte). Aber den nächsten Test (von Firenzina) werde ich wohl schon vor dem Wochenende starten, sodaß das Ergebnis evt. kommenden Montag vorliegen könnte...Zeitangaben ohne Gewähr.

Stefan

Stefan
Parent - By Karl Müller Date 2014-01-27 14:10
Stefan Pohl schrieb:


Diese Stockfish-Ableger kann ich nicht auch noch testen - sorry. Zumal ich bei Rockwood das Problem habe, daß die Knotenzahlen, die mir die LittleBlitzerGUI anzeigt, gut 25-30% niedriger sind, als die vom "normalen" Stockfish. Irgendwie scheint Rockwood sich selber im Weg zu stehen, wenn drei Partien auf meinem Notebook parallel laufen. Merkwürdig.

Stefan

Stefan


hallo,

musst Du ja auch nicht - ich teste die getunten Abgelger nur wegen der "für mich stärksten Version für den Schach-Server".
mit den Knotenzahlen, dass kann ich eigentlich so nicht bestätigen, eigentlich nehmen die sich alle nicht viel - gut, die letzten Rockwood zeigen tatsächlich etwas weniger Knoten an. Ich bin sowieso der Meinung, dass die Rockwood 030114 AVX Compilierung nach wie vor die stärkste Rockwood ist.
Der neue Ipmann 260114IP scheint, erste Tests, evtl. der stärkste Stockfish zu sein, gar besser als mein bisheriger Favorit der 180114IP, nur mal ein Zwischenstand am Rande
Grüße
Up Topic Hauptforen / CSS-Forum / LS-Rangliste: Stockfish 140118

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill