Sind solche Schwankungen eigentlich normal?

By Chess Player Date 2022-03-05 18:06 Edited 2022-03-05 18:47

[quote="Chess Player"]

Windows 10 Prof / AMD Athlon II / 4 Kerne / MV=1

Jeweils den Hash gelöscht und Engine neu gestartet und dann jeweils ein Testlauf durchgeführt.

Stockfish 11 modern originale Version

<code>Zeit Tiefe
46:05 51/73+
13:43 46/86+
05:17 43/78+
15:05 45/94+
05:09 42/79+

</code>
Stockfish 11 von mir compiliert mit Clang Compiler

<code>Zeit Tiefe

07:53 43/87+
06:30 41/59+
07:19 42/63+
05:55 40/77+
33:09 46/69+</code>

Welche engine ist denn jetzt nach statischen Aspekten besser? Bin zur Zeit völlig ratlos.

[/quote]

By Kurt Utzinger Date 2022-03-05 20:17 Upvotes 1

Auch ich verstehe dieses Zahlen-Durcheinander nicht.
Da werden weder gleiche Suchtiefen noch gleiche Zeiten
verglichen. Was soll denn da überhaupt verglichen werden?
Mfg
Kurt

By Peter Martan Date 2022-03-05 20:47

So wie ich das sehe, handelt es sich um Lösungszeiten.

Robert Bauer hat die vom Diagramm als eine von 2 Stellungen zum Vergleichen einer einzelnen time to solution vorgeschlagen:

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=152935#pid152935

Die Stellung kommt z.B. in verschiedenen Hard Talkchess- Sammlungen von Vincent Lejeune vor, zu vorletzt war's die Nr. 147 in der HTC 2020, in der verkleinerten HTC108 ist sie jetzt auch noch drin als Nr.79.

Der Lösungszug ist Td8, im CCC ist sie öfter mal diskutiert worden, dort hat sie George Tsavdaris mal hingebracht, wie mir scheint, eine andere Quelle hab' ich keine gespeichert. 2018 ging's z.B. mal hier um sie:

http://talkchess.com/forum3/viewtopic.php?p=761476#p761476

Nur so zur Hintergrundinformation dazu, dass die Stellung eine nicht selten aus ähnlichen Gründen diskutierte war und ist. Nun könnte man sich natürlich all das, was es dazu schon so in verschiedenen Foren dazu gab, neuerlich vergegenwärtigen, hingegen würde ich auch ohne das, mir die Stellung nur mal wieder kurz in Erinnerung gerufen habend, auf die Frage des Threads, ob solche Schwankungen eigentlich normal sind, einfach ja sagen, nämlich ja, bei solchen Stellungen (genauer: dieser Stellung) sind solche Schwankungen durchaus normal, nämlich für bestimmte (eine bestimmte) Engine(s).
Und nein, das gilt nicht für alle Stellungen und nicht für alle Engines.

By Benno Hartwig Date 2022-03-05 18:36

Vielleicht bin ich zu dusselig,
aber ich verstehe nicht, durch welches konkrete Vorgehen deine Zahlenkolonnen entstanden sind.

By Chess Player Date 2022-03-05 18:45

In der ersten Spalte stehen die Lösungszeiten für den jeweiligen Durchlauf. insgesamt habe ich für jede Version 5 Durchläufe gemacht.

In der zweiten Spalte stehen die erreichten bw. benötigten Rechentiefen.

By Benno Hartwig Date 2022-03-05 20:20 Upvotes 1

"erreichten bw. benötigten Rechentiefen" bis was denn eigentlich ganz konkret erreicht oder angezeigt wurde?
Hattest du mehr als 1 Thread eingestellt? Dann wären drastischen Zeitunterschiede und auch gewählte Züge und deren Bewertung bei mehreren Starts nicht ungewöhnlich.
Und AFAIK ist das nicht nur bei SF so.

By Chess Player Date 2022-03-05 21:52 Edited 2022-03-05 22:00

Benno Hartwig schrieb:

Bis der angegebene Lösungszug: Td8 erscheint.

Mich irritiert das mein selbst compilierter anscheinend bessr abschneidet. Wenige Durchläufe, bei den Lösungszeiten bei mir mit nur einem Kern, daher auf allen 4ren durchgeführt. Nicht optimal.
Originale Version Zeit Originale Version Tiefe selber compiliert Zeit selber compiliert Tiefe
2765s 51 473s 43
0823s 46 390s 41
0317s 43 439s 42
0905s 45 355s 40
0309s 42 1989s 46
Durchschnitt Durchschnitt Durchschnitt Durchschnitt
1023,8s 45,4 729,2s 42,4

By Benno Hartwig Date 2022-03-06 07:27

Und als Zeitvorgabe hattest du die Analysen vermutlich "unendlich" genommen, richtig?
Und wirklich nur mit einem Kern!

Hmmm!
Dann hätte ich schon erwartet
- dass ein Kompilat in der Stellung immer wieder dasselbe Verhalten zeigt (gleiche Lösung, gleiche Wertung, ungefähr gleiche Zeit)
- dass verschiedene Kompilate derselben Source sich nur in der Knotengeschwindigkeit unterscheiden.
und ich wundere mich einfach mal mit.

By Peter Martan Date 2022-03-06 09:48 Edited 2022-03-06 10:03

Chess Player schrieb:

Wenige Durchläufe, bei den Lösungszeiten bei mir mit nur einem Kern, daher auf allen 4ren durchgeführt. Nicht optimal.

Soll heißen, du hast gleichzeitig die 4 Kerne mit je einer Engine rechnen lassen? Wohl hoffentlich wenigstens ohne Hyperthreading, ja?
Wieviel Hash pro Engine, wenn ich fragen darf?
Nur wegen anderer Threads von dir, bei denen du dich auch schon mal hin und wieder gewundert hast über unerklärliche Instabilitäten deines Systems. Erinnert sich dunkel

By Chess Player Date 2022-03-06 10:38 Edited 2022-03-06 10:51

Peter Martan schrieb:

Chess Player schrieb:

Wenige Durchläufe, bei den Lösungszeiten bei mir mit nur einem Kern, daher auf allen 4ren durchgeführt. Nicht optimal.

Soll heißen, du hast gleichzeitig die 4 Kerne mit je einer Engine rechnen lassen? ---> Ja
Wohl hoffentlich wenigstens ohne Hyperthreading, ja? ---> Stimmt
Wieviel Hash pro Engine, wenn ich fragen darf? ---> Oh, keine Ahnung
Nur wegen anderer Threads von dir, bei denen du dich auch schon mal hin und wieder gewundert hast über unerklärliche Instabilitäten deines Systems. Erinnert sich dunkel

An alle Beteiligten:

https://ibb.co/VYdL1Zn

Zusatzbemerkung: beide Compilate liefen exakt unter den gleichen Bedingungen!

Leider mußte ich wegen der langen Lösungszeit, die ich vorher auf nur einem Kern gemessen hatte, meinen Test mit 4 Kernen durchführen lassen, obwohl wissend das er dann nicht mehr deterministisch ist. Leider.

Vielleicht gibt es für meinen Test eine etwas leichtere Problemstellung für die Verwendung nur eines Kernes. Optimal wäre eine Stellung die dabei auf meinem Athlon II ca. fünf Minuten bräuchte.

By Peter Martan Date 2022-03-06 11:20 Edited 2022-03-06 12:13

Chess Player schrieb:

An alle Beteiligten:

<a class='urs' href='https://ibb.co/VYdL1Zn'>https://ibb.co/VYdL1Zn</a>

Auf dem Bild erkennt man überhaupt nichts, zumindest leserlich bekommt man die Schrift mit noch soviel Vergrößern nicht.
Ich sag's nur, sagt nur...

P.S. Aber wenn man so begriffsstutzig ist wie ich, tut man sich natürlich mit dem Lesen schlecht leserlicher Schrift auch oft schwerer als Andere.

P.P.S. Für genau deine Anforderungen von (höchstens, wozu willst du dir mit Gewalt Hardware- Zeitverschwendung antun? Wenn du Stellungen nimmst, die SF gar nicht lösen kann, wird's auch nicht genauer, dauert nur noch länger

) 5 Minuten auf einem Thread (einer 16x3.5GHz CPU mit dem avx2- Compile der abrok- Site) wäre die Stellung, die dir Robert vorgeschlagen hat, für SF dev. gar nicht schlecht geeignet, (wahrscheinlich hat er die Stellung auch deshalb vorgeschlagen) wenn du halt einen der jüngeren Stockfishes kompiliertest.

Analysis by Stockfish 200222:

1.axb4 Lxb4 2.c3 Lc5 3.h5 a3
+/= (0.66)   Tiefe: 7/8   00:00:00 3kN
...
1.axb4 Le7 2.Dd2 Ta6 3.Kb1 Kg8 4.Th3 h6 5.Tg3 a3 6.b3 a2+ 7.Ka1 c5 8.bxc5 Lxc5 9.Sgh3 Ta7 10.Td3 Lb6 11.h5 Tff7 12.Sg6 Tfd7 13.Shf4 Txd3 14.Sxd3 Td7 15.Db4 Lb7 16.f3 Td4 17.De7 Dxe7 18.Sxe7+ Kf7 19.Sg6 La5 20.Kxa2 Lc3 21.Kb1 Td8 22.Sb2 Ld5 23.Sf4 Lxe5
+/= (0.64)   Tiefe: 35/49   00:01:04 114MN
1.Td8
+/- (0.79 ++)   Tiefe: 36/57   00:01:07 121MN
1.Td8
+/- (0.87 ++)   Tiefe: 36/57   00:01:08 121MN
...
1.Td8
+- (6.47 ++)   Tiefe: 36/57   00:01:10 126MN
1.Td8
+- (8.07 ++)   Tiefe: 36/57   00:01:11 127MN
1.Td8 Ld7 2.Txe8 Lxe8 3.Sfxe6 Le7 4.axb4 c6 5.Df3 Tg8 6.Dxf5 Lg6 7.Df3 Lxg5+ 8.hxg5 a3 9.bxa3
+- (8.84)   Tiefe: 36/57   00:01:12 129MN
1.Td8
+- (9.17 ++)   Tiefe: 37/27   00:01:15 136MN

Das war der erste von 3 Versuchen, ein anderer war

r1b1qr1k/2p3pp/4p3/1pb1PpN1/pn3N1P/P7/1PP1QPP1/2KR3R w - - 0 1

Analysis by Stockfish 200222:

1.axb4 Lxb4 2.c3 Lc5 3.h5 a3
+/= (0.66)   Tiefe: 7/8   00:00:00 3kN
...
1.axb4 Le7 2.Dd2 Ta6 3.Kb1 Kg8 4.Th3 h6 5.Tg3 a3 6.b3 a2+ 7.Ka1 c5 8.bxc5 Lxc5 9.Sgh3 Ta7 10.Td3 Lb6 11.h5 Tff7 12.Sg6 Tfd7 13.Shf4 Txd3 14.Sxd3 Td7 15.Db4 Lb7 16.f3 Td4 17.De7 Dxe7 18.Sxe7+ Kf7 19.Sg6 La5 20.Kxa2 Lc3 21.Kb1 Td8 22.Sb2 Ld5 23.Sf4 Lxe5
+/= (0.64)   Tiefe: 35/49   00:01:04 114MN
1.Td8
+/- (0.79 ++)   Tiefe: 36/57   00:01:08 121MN
...
1.Td8 Ld7 2.Txe8 Lxe8 3.Sfxe6 Le7 4.axb4 c6 5.Df3 Tg8 6.Dxf5 Lg6 7.Df3 Lxg5+ 8.hxg5 a3 9.bxa3
+- (8.84)   Tiefe: 36/57   00:01:12 129MN
1.Td8
+- (9.17 ++)   Tiefe: 37/27   00:01:15 136MN
1.Td8
+- (10.00 ++)   Tiefe: 37/31   00:01:23 155MN

und ein dritter

r1b1qr1k/2p3pp/4p3/1pb1PpN1/pn3N1P/P7/1PP1QPP1/2KR3R w - - 0 1

Analysis by Stockfish 200222:

1.axb4 Lxb4 2.c3 Lc5 3.h5 a3
+/= (0.66)   Tiefe: 7/8   00:00:00 3kN
...
1.axb4 Le7 2.Dd2 Ta6 3.Kb1 Kg8 4.Th3 h6 5.Tg3 a3 6.b3 a2+ 7.Ka1 c5 8.bxc5 Lxc5 9.Sgh3 Ta7 10.Td3 Lb6 11.h5 Tff7 12.Sg6 Tfd7 13.Shf4 Txd3 14.Sxd3 Td7 15.Db4 Lb7 16.f3 Td4 17.De7 Dxe7 18.Sxe7+ Kf7 19.Sg6 La5 20.Kxa2 Lc3 21.Kb1 Td8 22.Sb2 Ld5 23.Sf4 Lxe5
+/= (0.64)   Tiefe: 35/49   00:01:05 114MN
1.Td8
+/- (0.79 ++)   Tiefe: 36/57   00:01:08 121MN
...
1.Td8
+- (8.07 ++)   Tiefe: 36/57   00:01:12 127MN
1.Td8 Ld7 2.Txe8 Lxe8 3.Sfxe6 Le7 4.axb4 c6 5.Df3 Tg8 6.Dxf5 Lg6 7.Df3 Lxg5+ 8.hxg5 a3 9.bxa3
+- (8.84)   Tiefe: 36/57   00:01:13 129MN
1.Td8
+- (9.17 ++)   Tiefe: 37/27   00:01:16 136MN

Hash war jeweils 8G eingestellt und SyzygyProbeLimit war 0, um nicht noch zusätzlich zu bremsen.
Und, oh Wunder, 3 mal in einer Varianz zwischen 1' 7" und 1' 8", sind so geringe Schwankungen auf einem Thread beim selben Kompilat, auf demselben Rechner, der nicht gerade mit Hash und oder CPU überfordert ist und derselben Stellung normal?

Und nein, mit irgendeinem Uralt- SF, nur weil du den kompiliert hast, probiere ich das jetzt sicher nicht auch noch 3x, hier hab' ich's sicherheitshalber ohnehin auch noch weitere 3 Mal probiert, es war nie unter 1'7" und nie über 1'8".

Tut kund (kündigt auf und an)

By Chess Player Date 2022-03-06 12:13

Huhu, ein Thread war doch nicht das Thema, die damit ermittelten Werte sind "Reproduzierbar"!

Mein Test lief mit 4 Kernen weil mein PC zu langsam ist.

By Peter Martan Date 2022-03-06 12:18 Edited 2022-03-06 12:26

Und ich dachte, du suchtest jetzt hier

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=153172#pid153172

, (ich zitier' dich daraus jetzt nicht wieder wörtlich, das wirkt immer so begriffsstutzig),
nach einer Stellung, die deinen Rechner auch auf einem Thread nicht überfordert?
Ich bot dir daher diejenige an, die du schon für dein eigenwilliges Kompilat SMP benutzt hattest und schlug dir vor, eine der SF dev- Versionen zu kompilieren, die irgendwen außer dir derzeit auch noch interessieren könnten.
Mit einem solchen, wenn dein Kompilat irgendwas taugt, solltest es mit der position of interest, um die's jetzt hier dauernd ging, unter 5 Minuten single thread machbar sein, es sei denn, du überforderst ihn (den Rechner) mit zu viel Hash für den einzelnen thread, und oder indem du gleichzeitig mit dem Test alle möglichen anderen Anwendungen laufen lässt.

Aber mach ruhig weiter Tests deines persönlichen maximalen Verwunderungsgrades, weil was du offenbar ja sowieso hauptsächlich willst, ist dich selbst (vielleicht auch Andere) verwundern, mutmaßt

By Chess Player Date 2022-03-06 13:26

Aus Spaß an der Freude mache ich weiter mit diesem Test.

By Peter Martan Date 2022-03-06 13:32 Edited 2022-03-06 13:39

Aus Spaß an der Freude ignoriere ich in diesem Fall dann jetzt wieder deine weiteren Kundtaten in der Sache, habe aber bis hierher gerne im Rahmen meiner (begriffsstutzigen) Möglichkeiten geholfen.

By Benno Hartwig Date 2022-03-06 17:55 Edited 2022-03-06 18:03 Upvotes 1

> Mein Test lief mit 4 Kernen weil mein PC zu langsam ist

Mehr als 1 Thread pro Engine liefert bei wiederholten Läufen ein und desselben Kompilats bei vermeintlich identischen Bedingungen unterschiedliche Ergebnisse
- deutlich unterschiedliche Zeiten
- unterschiedliche Suchtiefen
- unterschiedliche Bewertungen
- und ggf. auch unterschiedliche Züge
Das ist bekannt.
Ich habe den Eindruck, dies hast du jetzt erlebt, nur dass du hier sogar verschiedene Kompilate eingesetzt hast.

BTW:
Und wenn du verschiedene Anzahlen von Lösungszügen anzeigen lässt (Multivariantenmodus),
dann bekommt dabei ein und derselbe(!) Lösungszug durchaus auch unterschiedliche Bewertungen.
Und ggf. resultiert das dann in unterschiedlichen Reihenfolgen der jeweils erkannten besten Züge.

Man mag sich über all dies wundern, aber es ist so.

By Chess Player Date 2022-03-06 19:31

Stimmt, das habe ich auch bemerkt.

By Peter Martan Date 2022-03-05 22:39 Edited 2022-03-05 23:02

Benno Hartwig schrieb:

Und AFAIK ist das nicht nur bei SF so.

Nein, natürlich nicht.
Der Witz an der Stellung aber: das ist eine wirklich ausnehmend selten schöne Form eines SF- blind spots. So ziemlich alle anderen mehr oder weniger modernen Engines außer Dragon, der sich hier die Ausnahms- Blindheit mit SF teilt, lösen das blitzschnell. Unter den SF- Branches sind nicht so selektiv blind Crystal und ShashChess. Und mit den jüngsten SF- Versionen ist's auch nicht mehr so ein Problem wie früher.