Wer gewinnt das nächste TCEC Finale?

By sachista Date 2015-02-14 23:07

Tom Paul schrieb:

Komodo oder Stockfish?
Denke dabei speziell an die Anzahl der Kerne in Kombination mit langer Bedenkzeit.

Der smp-Patch der zur Zeit getestet wird könnte bei diesem Thema hilfreich sein. Es sind zwar erst knappe 500 Partien gespielt worden, das Ergebnis schwankt aber schon seit längerem zwischen 35 und 40 ELO Spielstärkenzuwachs. Ist ein Weilchen her, dass ein einzelner Patch derart vielversprechend aussah, morgen wird man mehr wissen ob sich ein zweistelliger ELO-Zuwachs bestätigt oder doch noch der steile Sinkflug gekommen ist.

By Benno Hartwig Date 2015-02-16 08:21

Klar, finde ich toll, wenn man versucht, SF für viele Threads fit zu machen.
Wann für mich ein "> 8 Threads"-Rechner auf den Wunschzettel kommt, gehört aber zu den besonders unbeantworteten Fragen.
Obwohl: bereits 8 reale Kerne mit Hyperthreading könnten ggf. so schon sehr gut angesprochen werden...

was bedeutetn eigentlich konkret die Angaben

smp vs master diff 
ELO: 50.50 +-8.1 (95%) LOS: 100.0%
Total: 2591 W: 667 L: 293 D: 1631

Hat hier wirklich der Versuchskandidat +50,5 ELO erspielt gegenüber "master"?
AFAIK heißt master ja nicht SF5 sondern ist die "aktuelle" Master-Version, richtig?
Dass man zu "100,0%" sicher ist, stärker geworden zu sein, will ich bei den Ergebnissen dann gern auch glauben.

Benno

By Andreas Strangmüller Date 2015-02-16 23:02

Hallo Benno,

Zitat:

was bedeuten eigentlich konkret die Angaben
smp vs master diff
ELO: 50.50 +-8.1 (95%) LOS: 100.0%
Total: 2591 W: 667 L: 293 D: 1631

Dies ist der besagte Test:
http://tests.stockfishchess.org/tests/view/54dfb5a50ebc593e9fac133b

Master ist die aktuelle Stockfish-Version des Frameworks und SMP die aktuelle Version + die Veränderung am Sourcecode.
Bei einer Bedenkzeit von 15 Sekunden + 0.05 Sekunden bei 16 Kernen ergab der Test ein Plus von 50,5 Elo zugunsten der Testversion.

------------------------------------------------------------------------------------------------------------------------------------------------------

Habe diesen Test bei mehr Bedenkzeit, bei 60 Sekunden + 0.05 Sekunden wiederholt.

Es sind zwar nur 250 Partien, aber dennoch zeichnet sich wiederum eine deutliche Verbesserung bei 16 Kernen ab.

Bedenkzeit = 60 Sekunden + 0.05 Sekunden

SF6SMP = SMP improvement attempt for >8 threads (https://github.com/zamar/Stockfish/commit/942d67ab0ef17b145f3760db34d9f9394031c963)
SF6    = Stockfish 160215 64 BMI2

Intel E5-2666 v3 @ 2.9 GHz
T16 = 16 threads
128 MB Hash

    Program       Elo    +   -   Games   Score   Av.Op.  Draws
 ---------------------------------------------------------------
  1 SF6SMP T16  : 3022   20  19   250    56.4 %   2978   78.4 %
  2 SF6 T16     : 2978   19  20   250    43.6 %   3022   78.4 %

Wins   = 43
Draws  = 196
Losses = 11
Av.Op. Elo = 3000

Result     : 141.0/250 (+43,=196,-11)
Perf.      : 56.4 %
Margins    :
 68 %      : (+  1.4,-  1.4 %) -> [ 55.0, 57.8 %]
 95 %      : (+  2.8,-  2.7 %) -> [ 53.7, 59.2 %]
 99.7 %    : (+  4.4,-  4.0 %) -> [ 52.4, 60.8 %]

Elo        : 3045
Margins    :
 68 %      : (+ 10,- 10) -> [3035,3055]
 95 %      : (+ 20,- 19) -> [3026,3065]
 99.7 %    : (+ 31,- 28) -> [3016,3076]

Games        :    250 (finished)

White Wins   :     37 (14.8 %)
Black Wins   :     17 ( 6.8 %)
Draws        :    196 (78.4 %)

White Perf.  : 54.0 %
Black Perf.  : 46.0 %

Individual statistics:

1 SF6SMP T16  : 3022  250 (+ 43,=196,- 11), 56.4 %
2 SF6 T16     : 2978  250 (+ 11,=196,- 43), 43.6 %

By Jörg Oster Date 2015-02-16 23:31

Hi Andreas,

das ist ja wirklich sehr vielversprechend.
Danke für den Test.

Was mich natürlich interessiert, woher diese Steigerung der Spielstärke herrührt.
Konntest du sehen, ob Joona's SMP-Version schneller auf Tiefe kommt?
Siehst du eine Steigerung der Knotenzahlen?

Mit 8 Kernen konnte ich beides nicht beobachten.
Das könnte nämlich bedeuten, dass die vermehrte Anzahl an Splits und der damit einhergehende search overhead, hauptsächlich für die Spielstärkesteigerung verantwortlich zeichnet. Könnte . . .
Ich muss mir aber Joona's Patch nochmal in aller Ruhe zu Gemüte führen. Bis jetzt habe ich ihn nur teilweise verstanden.

By Andreas Strangmüller Date 2015-02-17 15:38 Edited 2015-02-17 15:42

Hallo Jörg,

ja, der Patch ist wirklich sehr interessant.
Mittlerweile wurde er sogar bereits als „Master“ übernommen.
Das ging mir fast zu schnell, ein paar mehr Tests im Framework hätte ich mir schon noch gewünscht.

Eine Steigerung der Knotenzahlen konnte ich nicht feststellen, bezüglich der Tiefe sind weitere Tests notwendig.

Mir fehlt das notwendige Fachwissen um zu verstehen was dieser Patch genau bewirkt. Im Talkchess-Forum gibt’s dazu einen aktuellen Thread:
http://talkchess.com/forum/viewtopic.php?topic_view=threads&p=609647&t=55368

Was mich jedoch etwas überrascht ist die Tatsache, dass der Elozuwachs so unterschiedlich ausfällt.
Bei zwei Rechnern sind es 50 Elo, bei einem nur 20 und beim anderen war überhaupt keine Steigerung zu verzeichnen.

Woran liegts? AMD, Intel, Numa, Linux, Windows?
Es sieht fast so aus, als würden nur aktuelle Intel-Prozessoren so außerordentlich davon profitieren.

Sogar bereits bei 8 Kernen auf gleicher Hardware konnte ich eine Steigerung feststellen. Bedenkzeit wiederum 60 + 0.05 Sekunden.

     Program      Elo    +   -   Games   Score   Av.Op.  Draws
  --------------------------------------------------------------
   1 SF6SMP T8  : 3011   18  18   351    53.1 %   2989   74.9 %
   2 SF6 T8    : 2989   18  18   351    46.9 %   3011   74.9 %

Wins   = 55
Draws  = 263
Losses = 33
Av.Op. Elo = 3000

Result     : 186.5/351 (+55,=263,-33)
Perf.      : 53.1 %
Margins    :
 68 %      : (+  1.3,-  1.3 %) -> [ 51.8, 54.5 %]
 95 %      : (+  2.6,-  2.6 %) -> [ 50.5, 55.7 %]
 99.7 %    : (+  4.0,-  3.9 %) -> [ 49.2, 57.1 %]

Elo        : 3022
Margins    :
 68 %      : (+  9,-  9) -> [3013,3031]
 95 %      : (+ 18,- 18) -> [3004,3040]
 99.7 %    : (+ 28,- 27) -> [2995,3050]

Games        :    351 (finished)

White Wins   :     57 (16.2 %)
Black Wins   :     31 ( 8.8 %)
Draws        :    263 (74.9 %)

White Perf.  : 53.7 %
Black Perf.  : 46.3 %

Individual statistics:

1 SF6SMP T8  : 3011  351 (+ 55,=263,- 33), 53.1 %
2 SF6 T8     : 2989  351 (+ 33,=263,- 55), 46.9 %

Aktuell laufen Tests auf meinem im Vergleich zu Intel wesentlich langsameren AMD 32 Core Rechner. Bin schon auf die Ergebnisse gespannt, besonders auf den direkten Vergleich mit Komodo.

Auf dem Gebiet der Parallelisierung bleibt es also derzeit besonders spannend. Das wird ja auch die Zukunft sein.
Komodo scheint bisher als einzige Engine ein besonders effektives Verfahren der Aufgabenverteilung zu besitzen, ja vielleicht sogar einen ganz neuen Weg gefunden zu haben.
Mal sehen ob Stockfish mit diesem Patch ein wenig aufholen kann.

Grüße,
Andreas

By Stefan Pohl Date 2015-02-17 16:04

Super, Andreas. Auf das 32 Core Ergebnis bin ich sehr gespannt.
Schön wäre es, wenn du auch mit 4 Cores das Ganze mal durchlaufen lassen würdest, für unsereinen mit kleinem Geldbeutel und Normalo-Quadcore-CPUs. Am allersupersten wäre es, wenn du es auf deinem i7-4700mq Notebook machen würdest, falls dir da das Hyperthreading nicht in die Quere kommt...

Gruß - Stefan

By Jörg Oster Date 2015-02-17 19:05

Andreas Strangmüller schrieb:

Ja, das verstehe ich auch nicht. Die Resourcen sind vorhanden, werden aber nicht genutzt.
Selbst wenn ein Test mit 60+0.05 sec 1 - 2 Tage gedauert hätte, was soll's?
Wenigstens einen Test mit 8 Kernen hätte noch gemacht werden können.

Andreas Strangmüller schrieb:

Eine Steigerung der Knotenzahlen konnte ich nicht feststellen, bezüglich der Tiefe sind weitere Tests notwendig.

Wenn dein Test mit 32 Kernen durch ist, kannst du mir ja mal die Partien mailen. Dann lasse ich ein Tool drüber laufen, welches die durchschnittliche Rechentiefe ermittelt.
Falls du das nicht eh selbst machst.

Andreas Strangmüller schrieb:

Mir fehlt das notwendige Fachwissen um zu verstehen was dieser Patch genau bewirkt. Im Talkchess-Forum gibt’s dazu einen aktuellen Thread:
<a class='urs' href='http://talkchess.com/forum/viewtopic.php?topic_view=threads&p=609647&t=55368'>http://talkchess.com/forum/viewtopic.php?topic_view=threads&p=609647&t=55368</a>

Was mich jedoch etwas überrascht ist die Tatsache, dass der Elozuwachs so unterschiedlich ausfällt.
Bei zwei Rechnern sind es 50 Elo, bei einem nur 20 und beim anderen war überhaupt keine Steigerung zu verzeichnen.

Woran liegts? AMD, Intel, Numa, Linux, Windows?
Es sieht fast so aus, als würden nur aktuelle Intel-Prozessoren so außerordentlich davon profitieren.

Sogar bereits bei 8 Kernen auf gleicher Hardware konnte ich eine Steigerung feststellen. Bedenkzeit wiederum 60 + 0.05 Sekunden.

<code>    Program Elo +   -   Games   Score   Av.Op. Draws
--------------------------------------------------------------
   1 SF6SMP T8 : 3011   18 18   351 53.1 %   2989   74.9 %
   2 SF6 T8 : 2989   18 18   351 46.9 %   3011   74.9 %

Wins   = 55
Draws = 263
Losses = 33
Av.Op. Elo = 3000

Result    : 186.5/351 (+55,=263,-33)
Perf. : 53.1 %
Margins :
68 % : (+ 1.3,- 1.3 %) -> [ 51.8, 54.5 %]
95 % : (+ 2.6,- 2.6 %) -> [ 50.5, 55.7 %]
99.7 % : (+ 4.0,- 3.9 %) -> [ 49.2, 57.1 %]

Elo : 3022
Margins :
68 % : (+ 9,- 9) -> [3013,3031]
95 % : (+ 18,- 18) -> [3004,3040]
99.7 % : (+ 28,- 27) -> [2995,3050]

Games : 351 (finished)

White Wins   :    57 (16.2 %)
Black Wins   :    31 ( 8.8 %)
Draws : 263 (74.9 %)

White Perf. : 53.7 %
Black Perf. : 46.3 %

Individual statistics:

1 SF6SMP T8 : 3011 351 (+ 55,=263,- 33), 53.1 %
2 SF6 T8    : 2989 351 (+ 33,=263,- 55), 46.9 %</code>

Aktuell laufen Tests auf meinem im Vergleich zu Intel wesentlich langsameren AMD 32 Core Rechner. Bin schon auf die Ergebnisse gespannt, besonders auf den direkten Vergleich mit Komodo.

Auf dem Gebiet der Parallelisierung bleibt es also derzeit besonders spannend. Das wird ja auch die Zukunft sein.
Komodo scheint bisher als einzige Engine ein besonders effektives Verfahren der Aufgabenverteilung zu besitzen, ja vielleicht sogar einen ganz neuen Weg gefunden zu haben.
Mal sehen ob Stockfish mit diesem Patch ein wenig aufholen kann.

Grüße,
Andreas

Im Framework zeigte der Test mit 8 Kernen 6 elo. Bei dir sind es bei längerer BZ merklich mehr.
Es scheint wirklich sehr hardwareabhängig zu sein, ob und wieviel dieser Patch bewirkt.
Auf den direkten Vergleich mit Komodo bin ich auch gespannt.

Gruß, Jörg.

By Gysi Date 2015-02-17 12:25

Ich habe für Komodo gestimmt, nach dieser Änderung würde ich für Stockfish stimmen. Was für ein Erfolg.

Komodo	6	35%
Stockfish	11	65%