SF-Jump bei Stefan

By Anonymous Date 2015-10-24 07:48

Yup, schön wäre es von Stefan noch, wenn er gleich (bzw. ab Dienstag nach dem Mars-Test) die Version vom 20.10.2015 testen könnte.
Aber diesmal ausnahmsweise nicht die jüngste vom Tage, denn ihn jehner wäre noch zusätzlich "Almost passed tuning attempts" enthalten.
Dann hätte man einen 'direkten Vergleich' "YBWC (Young Brothers Wait Concept)" <=> "Lazy SMP" auf einem Core!

By Jörg Oster Date 2015-10-24 10:16

Anonymous schrieb:

Und was für einen Sinn hätte das?

By Anonymous Date 2015-10-24 10:25

Meines Wissen (Du darst mich aber gern berichtigen) wurde "Lazy SMP" einzig auf bestandene "SMP"-Tests hin akzeptiert.
Der gewöhnliche 1-thread fand in dem Sinne gar nicht statt.
Und es gibt auch noch Leute, die weniger <= 3 CPUs haben

By Jörg Oster Date 2015-10-24 12:39

Anonymous schrieb:

Die Funktionsweise mit nur 1 Core ist gleich geblieben.
Deswegen ja auch Lazy SMP ...

By Anonymous Date 2015-10-24 17:28

Ok, wenn das so gehandhabt wird, dann erübrigt sich natürlich der Test.

Dachte an den Linux-smp-kernel, dort - wenn ich mich nicht schon wieder irre - verwendet man bei nur einem core auch smp.

NB:
Seit 22. sind die binaries größer geworden auf abrok.eu, vermutlich weil statt g++-4.9 jetzt die 5.2-version genommen wird.

By Benno Hartwig Date 2015-10-26 08:58

> Die Funktionsweise mit nur 1 Core ist gleich geblieben.

Wenn man tatsächlich völlig auf einen entsprechenden Test verzichtet, dann muss man sich der unveränderten 1-core-Funktionsweise ja sehr sicher sein!
Mutig!
Seiteneffekte sind schließlich nicht selten.

Benno

By Jörg Oster Date 2015-10-26 09:59

Benno Hartwig schrieb:

Der letzte Regression-Test vor dem Superfinale läuft gerade.
http://tests.stockfishchess.org/tests/view/562dd5f90ebc5964d3446094

By Thomas Plaschke Date 2015-10-24 12:41

Ich habe die Stockfish-Versionen vom 15.10. und 20.10. (Timestamp 1445317088), wie sie von Roman Korba veröffentlicht wurden, getestet. Diese Versionen unterscheiden sich nur in der Implementierung der Parallelsuche.

100 Partien auf i5-3570K mit 4.2 GHz, 4 Threads, 512 MB Hashtables bei tc /2'+1". Im single-Thread-Vergleich dürften sich die beiden Suchimplementierungen eben gerade nicht unterscheiden. Nach 10 Stunden ergibt sich dieses Bild (LSMP=Lazy-SMP (Wer hätte es gedacht!)):

Code:

   # PLAYER                   : RATING  ERROR   POINTS  PLAYED    (%)   CFS(next)
   1 Stockfish-151015         :   3200     15     55.0     100   55.0%      99
   2 Stockfish-151020-LSMP    :   3164     15     45.0     100   45.0%     ---

White advantage = 35.52 +/- 15.49
Draw rate (equal opponents) = 84.40 % +/- 4.56

TTD im Mittelspiel war bei dieser kurzen Bedenkzeit bei der "alten" Suchimplementierung grundsätzlich besser (1-4 Halbzüge).
Wegen des bekannten nichtdeterministischen Verhaltens von multi-threaded betriebenen Engines muss es bei nur 100 Partien nicht heißen, dass nach Error-Bars die "alte" Implementation besser ist, denke ich. Ich habe allerdings keine Ahnung, ab welcher Partienzahl man das eindeutig sagen könnte. Was sagen die Statistiker?

Nur ein erster Blick, aber das ungute Gefühl will nicht weichen.

Viele Grüße
Th. Plaschke

By Tom Paul Date 2015-10-24 07:57

Eigentlich ein ganz normaler Sprung von ~8 ELO pro Monat.
= ~100 Elo in ~13 Monaten.
Und da es mit immer mehr Spielstärke immer länger dauert die Engine zu verbessern, sollte das Stockfish Team damit anfangen eine deutlich einfachere Möglichkeit zu finden seine Hardwarepower zu stiften.
Z.B. über den Browser.

By Benno Hartwig Date 2015-10-25 09:20

> Eigentlich ein ganz normaler Sprung von ~8 ELO pro Monat.

Solche Sprünge zeigt Stefans Kurve immer mal wieder, neben vielen Ergebnisssen, die nur sehr kleine oder gar keine Fortschritte erklären.
Und dies ist eben mal wieder einer von den recht schönen Sprüngen, der nun eine Bestätigung braucht (die kam ja auch nicht immer).

Benno

By Stefan Pohl Date 2015-10-26 12:39

Benno Hartwig schrieb:

So isses. Entscheidend ist der Kurvenverlauf über einen längeren Zeitraum mit etlichen Testrun-Ergebnissen. Die Masse machts. Nicht nur im einzelnen Testrun.

Stefan