Die Stockfish Entwicklung läuft in letzter Zeit unglaublich

By Mythbuster Date 2015-02-03 11:51

Tom Paul schrieb:

In der SPCC haben wir innerhalb eines Monats einen 20 ELO zuwachs

Wir? Wusste gar nicht, daß Du programmieren kannst.

By Stefan Pohl Date 2015-02-03 13:06 Edited 2015-02-03 13:11

Tom Paul schrieb:

gut.

In der SPCC haben wir innerhalb eines Monats einen 20 ELO zuwachs

Schon. Allerdings ist die Verlgeichserrorbar dieser beiden Ergebnisse knapp 8 Elo (sqrt((6*6)+(5*5) = 7.81) groß. Zudem läuft Stockfish 6 wegen der schnelleren Compiles auf stockfishcess.org gut 5% schneller als die sonst von mir getesteten abrok.eu-Versionen. Das sollte auch noch mal 3-5 Elo bringen, insbesondere bei meinen kurzen Bedenkzeiten.
Also immer schön locker bleiben. Mal sehen, was der nächste Test einer abrok.eu-Version bringen wird.
Generell ist die Entwicklung von Stockfish allerdings wirklich unglaublich. Zumal, wenn man bedenkt, daß ausschließlich Selftests bei sehr, sehr kurzen Bedenkzeiten gemacht werden, um Stockfish weiterzuentwickeln.

Stefan

By sachista Date 2015-02-03 13:16

Stefan Pohl schrieb:

Allerdings ist die Vergleichserrorbar dieser beiden Ergebnisse knapp 8 Elo (sqrt((6*6)+(5*5) = 7.81) groß. Zudem läuft Stockfish 6 wegen der schnelleren Compiles auf stockfishchess.org gut 5% schneller als die sonst von mir getesteten abrok.eu-Versionen. Das sollte auch noch mal 3-5 Elo bringen, insbesondere bei meinen kurzen Bedenkzeiten.
Also immer schön locker bleiben. Mal sehen, was der nächste Test einer abrok.eu-Version bringen wird.

Stimmt schon, zumal der Zuwachs seit SF5 66 ELO beträgt, also ca. 15 ELO mehr als im fishnet-Selftest. Da werden Errorbars und die schnelleren Compiles wohl eine Rolle gespielt haben und es könnte eine Weile dauern, bis die abrok.eu-Compiles diesen Wert erreichen/übertreffen. Andererseits gab es ja zuletzt von Stefan Geschwentner und Nicklas Persson tolle Patch-Serien und Vince Negris Patch war zumindest bei STC auch äußerst vielversprechend, vielleicht geht da ja noch was. Jedenfalls könnte die aktuelle SF Dev. Version so in Kürze schon wieder 10 ELO seit SF zugelegt haben.

By Stefan Pohl Date 2015-02-03 15:08

sachista schrieb:

Stefan Pohl schrieb:

Mal sehen. Ich plane, den nächsten Stockfish-Testrun morgen zu starten. Das Ergebnis könnte dann frühestens Dienstag online gehen. 7000 Partien sind doch eine ganze Menge, wenn nur jeweils 3 Partien parallel laufen...
Alle Zeitangaben wie immer ohne Gewähr.

Stefan

By Benno Hartwig Date 2015-02-04 06:50

> zumal der Zuwachs seit SF5 66 ELO beträgt

Na, das ist üppig.
Andere Tests geben eher kleinere bis deutlich kleinere Fortschritte an.
Benno

By sachista Date 2015-02-04 08:14

Benno Hartwig schrieb:

Na, das ist üppig.
Andere Tests geben eher kleinere bis deutlich kleinere Fortschritte an.
Benno

Richtig, gemeint war der Zuwachs in der SPCC-Rangliste. Ich hab nochmal geschaut - es sind sogar 67 ELO

Stockfish 6 150128 : 3240
Stockfish 5 Elo-result: 3173 (official version on stockfishchess.org (2014/05/31))

By Benno Hartwig Date 2015-02-04 09:06 Edited 2015-02-04 09:12

> gemeint war der Zuwachs in der SPCC-Rangliste. Ich hab nochmal geschaut - es sind sogar 67 ELO

Ist ja auch ein sehr interessanter Wert, der dann zusammen mit anderen Werten und den jeweiligen Bedingungen betrachtet werden sollte.
CCRL 40/4 nennt bislang +81(!!!) für 1 Kern und +32 für 4 Kerne
CEGT40/4 sagt aktuell: +51(!) für 1 Kern, +31 für 4 Kerne.
Wobei SPCC natürlich eine Partienzahl bietet, die statistisch belastbarere Ergebnisse hervorbringt als CEGT und CCRL.
ELO-Werte, die man ein Stück genauer nehmen darf.

Ich bin gespannt, ob sich im Weiteren bestätigt, dass Stockfish vielleicht bei 1 Thread stark zugelegt hat, dass sich dies bei mehr Kernen aber weniger auswirkt. (Und wie SF6 im Vergleich zu SF5 dann bei 12 Kernen aussieht. Nun interessiert mich diese Threadzahl doch.

)

Benno

By Stefan Pohl Date 2015-02-04 10:11

Benno Hartwig schrieb:

)

Benno

Naja, da liege ich bei den 1-Core Ergebnissen doch in der goldenen Mitte. Sollte also ganz OK sein...

Mehrkernvergleiche sind natürlich was anderes. Da hat man auch noch das Problem, daß mit mehr Cores die Engines natürlich allesamt schneller laufen (also de facto mehr Bedenkzeit/durchgerechnete Stellungen pro Zug haben) und dadurch Ergebnisse in allen Einzelwettkämpfen in Richtung der 50%-Marke gedrückt werden, starke Engines wie Stockfish 6 dadurch also im Rating weniger zulegen (im Vergleich zu Stockfish 5 z.B.), bzw. alle Engines in einer Rangliste dadurch näher zusammenrücken (den von mir sogenannten Zieharmonikaeffekt). Diesen Effekt von einer möglicherweise nicht so guten Parallelisierung zu trennen (was drückt Stockfish mehr nach unten? oder wirkt eine gute Parallelisierung diesem Effekt sogar entgegen?) ist m.E. im Fall von Stockfish sehr schwierig.

Stefan

By Tom Paul Date 2015-02-04 10:36

Mich würde das verbesserte SMP von Stockfish 6 im Vergleich zu Stockfish 5, Komodo 8, Houdini 4, Gull 3 und Zappa Mexico II sehr interessieren.

By Benno Hartwig Date 2015-02-04 11:05

Welche Vergleiche genau?
Gerade CEGT bietet mit seinen Angaben für 1, 2, 4, 8 und 12 Kerne (OK, was für die Engine geboten wird, die dich interessiert, musst du gucken) ja eine Basis für Untersuchungen, die dich ggf. interessieren.
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_AllVersion/rangliste.html

Benno

By Tom Paul Date 2015-02-04 12:50

Dachte da eher an eine graphische Darstellung wie von Andreas Strangmüller.

By Benno Hartwig Date 2015-02-04 11:09

> da liege ich bei den 1-Core Ergebnissen doch in der goldenen Mitte

Stimmt. Den +81-Wert hatte ich zunächst nicht auf der Rechnung gehabt.

> de facto mehr Bedenkzeit/durchgerechnete Stellungen pro Zug

Tendenziell ist das sicher richtig. Allerdings erscheinen mir die Unterschiede der Fortschritte größer, als ich es erwartet hatte.
Aber es kommen sicher noch weitere Meldungen.
Mal gucken...

Benno

By Michael Scheidl Date 2015-02-04 13:05

Insgesamt ist das eine Dauersensation

Schön langsam sehe ich schwarz für Komodo 9...

P.S. CEGT 40/20 Singlecore: +54 Elo auf SF5.

By Benno Hartwig Date 2015-02-04 13:41 Edited 2015-02-04 13:48

Nana! Gegen die Version, die fast schon SF6 war, hat sich Komodo bei TCEC durchsetzen können.

Und in den Ratinglisten mit etwas längerer Zeit war in der Regel K8 deutlich vor SF5, bei 4 Kernen immerhin so 20 bis 30 ELO.
Hier soll SF6 erst mal praktisch zeigen, ob er überhaupt an K8 vorbeigekommen ist. OK, dies mag ja gelingen, aber ob da wirklich so viel Vorsprung rüberkommt?
Ggf. muss K9 gar nicht soo viel zulegen, um sich bei langen Zeiten und 'vielen' Kernen doch vor SF6 zu behaupten.

Man kann sich gern interessieren für die Spielstärke bei kleinen Ressourcen (1 Kern, kurze Zeit, wenig Speicher etc.).
Am meisten bestaune ich aber die Engine, die bei langen Zeiten (ideal: Turnierzeiten) und bei vollständiger Nutzung eines aktuellen, guten Rechners die größte Spielstärke entwickelt.

Benno

By Benno Hartwig Date 2015-02-08 21:52

CCRL hat jetzt erste Ergebnisse von SF6.
Bei 4 Kernen und 40/40 hat sich SF6 immerhin um satte 25 ELO vor K8 platziert.
Bislang übersichtliche 302 Partien.

Andererseits findet man etwas weiter unten in der Liste, dass SF6 bei einem Kern noch 3 ELO hinter SF5 sitzt und damit 18 ELO hinter K8.
Hier sind es aber sogar nur 130 SF6-Partien.

Die "Wer ist King bei reichlich Ressourcen"-Frage ist wohl noch nicht so recht zu beantworten.
Aber die Zeichen stehen gut für SF.

Benno

By Benno Hartwig Date 2015-02-11 10:41 Edited 2015-02-11 10:46

CEGT 40/20 hat sich jetzt mit SF6-Ergebnissen zu Wort gemeldet:
http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20All%20Versions/rangliste.html

Während die 1-core-Version ggü. SF5 gut zulegen konnte

   Stockfish 6.0 x64 1CPU   3182
   Stockfish 5.0 x64 1CPU   3130

sieht es bei 4 Kernen noch mau aus

   Stockfish 6.0 x64 4CPU   3239 (bislang 421 Partien)
   Stockfish 5.0 x64 4CPU   3237

mal gucken, wie es weitergeht.
Aber dieser gewisse "Bei 1 Kern hat SF prima dazugelegt, bei mehr Kernen sieht es aber schwieriger aus" -Eindruck konnte einem schon anderweitig kommen.

Während SF5 beim Übergang von 1 Kern auf 4 Kerne noch 93 ELO gewinnen konnte,
sind es bislang für SF6 nur 57 ELO.
Aber mal gucken, wenn wir wenigstens 3 mal so viele SF6-4Kern-Partien haben. So sieht es noch zu sonderbar aus.

Benno

By Tom Paul Date 2015-02-11 11:43

Das sieht aber sehr schlecht aus.
Da ist ja Komodo 8 schon 20 ELO stärker.
Und S6 hat nur 2 ELO mehr als S5.
Wie wird das Ergebnis bei 6, 8, 12, 16, 32, 64 Kernen aussehen?
Wird das SMP Problem im Stockfish Forum behandelt?
Die Entwickler sollten sich da mal zusammen setzen und jeder bekommt eine Woche Zeit sich eine Verbesserungsmöglichkeit auszudenken und dann kann auch gleich getestet werden.
Sonst haben wir wieder Bauern, Königssicherheit und andere Verbesserungen die sich bei einem Kern bemerkbar machen nur bei 4 und mehr Kernen eben nicht oder kaum und da hat man seinen Rechner mit vielen Kernen "umsonst" gekauft.

Ps. Könnte mir da durchaus vorstellen, das der neue Komodo 9 auf 64 Kernen 200 ELO mehr als Stockfish 6 hat.

By Benno Hartwig Date 2015-02-11 12:38 Edited 2015-02-11 12:43

> Und S6 hat nur 2 ELO mehr als S5.

Dass das so den realen Spielstärkeverhältnissen entspricht, kann ich mir nicht vorstellen.
Aber ggf. bestätigt sich schon der Eindruck, dass der SF6-Hinzugewinn bei mehr Kernen eher klein ist. (aber bitte nicht 2 ELO!)

> Könnte mir da durchaus vorstellen, das der neue Komodo 9 auf 64 Kernen 200 ELO mehr als Stockfish 6 hat.

"Zugelassen" für 64 Kerne ist Komodo ja.
Aber hat mal jemand den Burschen wirklich mit 32 oder gar 64 Kernen performen sehen?

Benno

By Andreas Strangmüller Date 2015-02-11 20:25 Upvotes 1

Ja, hier einer meiner Tests mit 32 Kernen von Anfang November 2014:

TC = 5' + 2"
T32 = 32 Kerne

     Program                 Elo    +   -   Games   Score   Av.Op.  Draws
  -------------------------------------------------------------------------
   1 Komodo 8 T32          : 3010   19  19   500    52.9 %   2990   61.4 %
   2 Stockfish 141102 T32  : 2990   19  19   500    47.1 %   3010   61.4 %

Wins   = 111
Draws  = 307
Losses = 82
Av.Op. Elo = 3000

Result     : 264.5/500 (+111,=307,-82)
Perf.      : 52.9 %
Margins    :
 68 %      : (+  1.4,-  1.4 %) -> [ 51.5, 54.3 %]
 95 %      : (+  2.7,-  2.7 %) -> [ 50.2, 55.6 %]
 99.7 %    : (+  4.1,-  4.1 %) -> [ 48.8, 57.0 %]

Elo        : 3020
Margins    :
 68 %      : (+ 10,- 10) -> [3011,3030]
 95 %      : (+ 19,- 19) -> [3001,3039]
 99.7 %    : (+ 29,- 29) -> [2992,3049]

Games        :    500 (finished)

White Wins   :    132 (26.4 %)
Black Wins   :     61 (12.2 %)
Draws        :    307 (61.4 %)

White Perf.  : 57.1 %
Black Perf.  : 42.9 %

Individual statistics:

1 Komodo 8 T32          : 3010  500 (+111,=307,- 82), 52.9 %
2 Stockfish 141102 T32  : 2990  500 (+ 82,=307,-111), 47.1 %

By Tom Paul Date 2015-02-12 10:20

Zu wenig Bedenkzeit.
Nehmen wir das 10 fache der Bedenkzeit, dann wird Komodo deutlich mehr aus den vielen Kernen herausholen als Stockfish.

By Andreas Strangmüller Date 2015-02-12 15:33

Denn rechne mal aus wie lange so ein Test mit 50 Minuten + 20 Sekunden bei 500 Partien im Schnitt 80 Züge dauern würde.
Bin auf das Ergebnis gespannt. Vielleicht geht Dir dann ein Licht auf?

By Wolfgang Battig Date 2015-02-12 17:37 Edited 2015-02-12 17:40

immerhin sagte er "wir". Das könnte bedeuten, dass ER mal etwas beitragen will außer dem üblichen, substanzlosen Geschreibsel...

Angesichts von Sätzen wie (Zitat): "Könnte mir da durchaus vorstellen, das der neue Komodo 9 auf 64 Kernen 200 ELO mehr als Stockfish 6 hat." fehlt mir da allerdings der Glaube...

By Frank Brenner Date 2015-02-11 14:10 Upvotes 2

> Wird das SMP Problem im Stockfish Forum behandelt? Die Entwickler sollten sich da mal zusammen setzen und jeder bekommt eine Woche Zeit sich eine Verbesserungsmöglichkeit auszudenken und dann kann auch gleich getestet werden.

Wo siehst du ein SMP Problem von Stockfish ?

Ich würde mir wünschen, du würdest dich einmal mehrere Jahre hinsetzen und über die Qualität deiner Beiträge nachdenken.

By Joachim Mueller Date 2015-02-11 20:59 Upvotes 2

Wenn der Herr Paul, statt mit Fragen zu nerven, die hier erschöpfend keiner beantworten kann, bzw. mit unsubstanzieller und ungebetener "Kritik" am SF-Entwicklerteam im CSS hausieren zu gehen, oft verbunden übrigens mit lächerlichen und quasi-persönlichen Appellen an die Arbeitsmoral bzw. die Herangehensweise der Programmierer:

Sich wenigstens dahin wenden könnte, wohin solcher Inhalt gehört: D.h. ans SF-Forum, um dann eventuell hier Bericht über das Gefundene zu erstatten --

Dann wäre insofern diesem Forum etwas gewonnen, als seine Beiträge mit etwas Gehalt aufwarten könnten. Und also möglicherweise von Interesse wären.

Z.B. weiß man, wenn man nachsieht: Zum Thema Parallelisierung gibt es einen eigenen Thread, angestoßen von Marco selbst.

Wir sehen nicht mehr als einen Fan, der erwartungsvoll die Löffel aufstellt und klagt, wenn Stocki nicht schnell genug Fortschritte erzielt, d.h. Elos hinzugewinnt.

Auf diese, oft wiederholte Kritik gab es aber noch nie irgendeine Reaktion.

By Ingo B. Date 2015-02-11 22:01

Joachim Mueller schrieb:

...
wir sehen nicht mehr als einen Fan,
...

Ich stimme inhaltlich voll zu, habe aber Zweifel das so etwas die Bezeichnung "Fan" verdient. Wie wäre es mit "Freak"!?

Gruß
Ingo

By Joachim Mueller Date 2015-02-12 14:28

Das Wort "Freak" ist mir zu unpräzise. Die Anwendung würde erfordern, den Betreffenden persönlich zu kennen. Das, was wirklich abnervt, ist, dass Tom Paul ständig Klagen erhebt, Forderungen stellt, Ratschläge erteilt – ohne selbst auch nur den Anschein eines Beitrages zur Sache zu leisten.

Kritik übrigens, die unfundiert, ungebeten, falsch adressiert, und im übrigen lächerlich ist, weil sie nur dadurch motiviert ist, dass Stocki derzeit (noch) nicht in der Lage ist, die Konkurrenz aus den USA nach Belieben platt zu machen.

By Benno Hartwig Date 2015-02-12 15:12

> ...weil sie nur dadurch motiviert ist, dass Stocki derzeit (noch) nicht in der Lage ist, die Konkurrenz aus den USA nach Belieben platt zu machen.

Wenn denn auch das gelänge, gebe es einen kurzen Moment des "Juchhu!" und "Mann, der SF ist aber auch saustark!"

Aber dann kehrte doch Langeweile ein, oder?
So ohne wenigstens einen direkten Gegner, einer der seine Chance hat, einer der vielleicht auch noch Stärken hat, die ihn auf manchen Feldern gleichwertig oder sogar überlegen sein lassen. Einer bei dem wenigstens noch unklar ist, ob er nicht diese besondere Stärke hat.

Ein unantastbarer Stockfish wäre nicht wirklich schön.

Ich vermute aber: es würde dann auch von irgendwo aus der Gruft eine Engine mit geschlossenen Sourcen auftauchen, die auf einmal dich dran ist am SF, oder (andere können ja auch mal eine gute Idee haben) auch ein kleines Stück davor!

Benno