Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Stockfish 10 und ERET
- - By Achim Müller Date 2018-12-03 08:08
Beim ERET mit Stockfish 10 habe ich folgende Merkwürdigkeit festgestellt:

Code:
                                  Total time:    Total solved:
CorChess 2.5 210818 64 BMI2-2CPU-5sec  00:04:15  75
Stockfish-140818-2CPU-5sec             00:04:29  75
asmFishW_2018-07-23_bmi2-2CPU-5sec     00:04:34  74
Stockfish-9-2CPU-5sec                  00:04:53  74
Stockfish 10 64-2CPU-5sec              00:04:44  72
Stockfish 10 64 BMI2-2CPU-5sec         00:04:49  69
Komodo-12.1.1-2CPU-5sec                00:05:00  68
Houdini-6.03-2CPU-5sec                 00:05:25  67
Stockfish-8-2CPU-5sec                  00:05:31  66
Lc0 v0.19-20-256-11258-15sec           00:13:12  66
Lc0 v0.19-20-256-11248-15sec           00:13:24  66
Lc0-0.17-PR#305-20-256-962             00:05:10  65
Lc0-0.18.1-20-256-11248-15sec          00:13:31  65
Lc0-0.17-20-256-962                    00:05:30  63
Stockfish-7-2CPU-5sec                  00:05:57  62
Lc0 v0.19-20-256-11258-5sec            00:05:17  61
Lc0-0.17-PR#305-20-256-11250           00:05:19  59


Nicht nur, dass SF10 schlechter als SF9 abschneidet, auch die eigentlich schnellere bmi2-Version löst weniger als die exe ohne CPU-Optimierungen. Kann das jemand bestätigen?

Hardware: i7-8700k, getestet auf 2 CPU mit 5 Sekunden Bedenkzeit (wenn nicht anders angegeben).

Ciao

Achim
Parent - - By Horst Sikorsky Date 2018-12-03 08:50
Teste Bitte mal als Vergleich Stockfish vom 24.11.18, der macht einen guten taktischen Eindruck auf mich.
Vielen Dank
Grüße Horst
Parent - - By Achim Müller Date 2018-12-03 18:31
Horst Sikorsky schrieb:

Teste Bitte mal als Vergleich Stockfish vom 24.11.18, der macht einen guten taktischen Eindruck auf mich.
Vielen Dank
Grüße Horst


Das ist interessant. 24.11.18 und 2.12.18, hier heruntergeladen

241118-64-BMI2 = 74
021218-64-BMI2 = 72

@Roland: Danke für den Hinweis, dann liegt es ja anscheinend nicht an meinen Einstellungen oder einem lokalen Bug auf meinem Rechner.

Ciao

Achim
Parent - By Horst Sikorsky Date 2018-12-04 08:21
Achim Müller schrieb:

Horst Sikorsky schrieb:

Teste Bitte mal als Vergleich Stockfish vom 24.11.18, der macht einen guten taktischen Eindruck auf mich.
Vielen Dank
Grüße Horst


Das ist interessant. 24.11.18 und 2.12.18, [url]hier[/url] heruntergeladen

241118-64-BMI2 = 74
021218-64-BMI2 = 72

@Roland: Danke für den Hinweis, dann liegt es ja anscheinend nicht an meinen Einstellungen oder einem lokalen Bug auf meinem Rechner.

Ciao

Achim

Stockfish 10- Nov 24, Blitz 2m+10s  2018 und 4 Halbzuge Vorgaben i5 3cpu im Analyse Modus.

                                     
1   Stockfish 241118 64 POPCNT   +17  +13/=79/-8 52.50%   52.5/100
2   Stockfish 10 64 POPCNT       -17  +8/=79/-13 47.50%   47.5/100


Stockfish 10 = 63
241118-64- = 66
011218-64- = 69
CorrChess 2.6 24.11.18 =73
LcO v19 11250 GTX 1080 = 61
i7 4930 2 CPU 1024 MB 3.6 GHz mit 5s
Parent - - By Roland Riener Date 2018-12-03 11:27 Upvotes 1
Unter etwas anderen Bedingungen kann ich die Beobachtung, daß SF 10 bei diesem Test nicht besonders gut abschneidet, bestätigen.

Auf i5, 2 CPU, 512 MB Hash, 10 Sekunden:

Stockfish 10 BMI                      gelöst 72
Stockfish 9 BMI                        gelöst 75
Stockfish 100918 BMI              gelöst 75

Gruß, Roland
Parent - - By Benno Hartwig Date 2018-12-04 07:37
Aber wohl eine Erkenntnis, die den Test und nicht SF in kritischem Licht erscheinen lässt, oder?
Parent - - By Achim Müller Date 2018-12-04 07:53 Upvotes 1
Benno Hartwig schrieb:

Aber wohl eine Erkenntnis, die den Test und nicht SF in kritischem Licht erscheinen lässt, oder?

Hmmm, wenn etwa 30 Engines (darunter auch die Stockfishversionen 1-9) in ihrer Rangfolge der Spielstärke korrekt bemessen werden, und dann nur SF10-BMI2 mit 69 gelösten Stellungen ein echter Ausreißer ist, sogar SF10 ohne CPU-Optimierung oder zeitlich in der Nähe liegende Daily Compiles besser abschneiden, wo sollte man dann eher die Ursache vermuten? Wirklich beim Test und nicht bei genau dieser Engineversion?

Ciao

Achim
Parent - - By Horst Sikorsky Date 2018-12-04 08:26
Längste Partie
Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board
Parent - - By Achim Müller Date 2018-12-04 09:11
Auch wenn das alles statistisch nicht wirklich aussagekräftig ist, es sieht trotzdem danach aus, als ob man mit der Version vom 24.11. nicht viel verkehrt machen kann.

Ciao

Achim
Parent - By Roland Riener Date 2018-12-04 11:33
Zitat:
statistisch nicht wirklich aussagekräftig

Version vom 10.09. detto

Stockfische
                                    1234567890
1   Stockfish 100918 64 BMI2   +35  ½½½1½½½½½½   5.5/10
2   Stockfish 10 64 BMI2       -35  ½½½0½½½½½½   4.5/10

Parent - By Horst Sikorsky Date 2018-12-08 17:05
Achim Müller schrieb:

Auch wenn das alles statistisch nicht wirklich aussagekräftig ist, es sieht trotzdem danach aus, als ob man mit der Version vom 24.11. nicht viel verkehrt machen kann.

Ciao

Achim

ein Meisterwerk der Lavier - Kunst
Parent - - By Benno Hartwig Date 2018-12-04 12:49

>Wirklich beim Test und nicht bei genau dieser Engineversion?


Die überzeugenden Resultate in richtig großen Partienmengen einer Engine empfinde ich immer noch als deutlich(!) aussagefähiger als die Ergebnisse eines Stellungstests, der sich ja nur bemüht, mit wenig Aufwand Ergebnisse zu präsentieren, die möglichst den Spielergebnissen nahekommen.
Respekt, wenn dies wenigstens näherungsweise gelingt. Ja! Aber im Zweifelsfall wird immer das Ausspielungsergebnis "Recht" behalten, wenn es denn ausreichend viele Partien umfasst.

Darum für mich ganz eindeutig:
Ja, die Ungenauigkeit oder gar den Fehler(!) erwarte ich auf jeden Fall beim Test und nicht bei der Engine, deren Spielstärke durch viele tausende Partien abgeschätzt wurde.

Benno
Parent - - By Achim Müller Date 2018-12-04 13:32
Benno Hartwig schrieb:

...Ja! Aber im Zweifelsfall wird immer das Ausspielungsergebnis "Recht" behalten, wenn es denn ausreichend viele Partien umfasst.
...
Ja, die Ungenauigkeit oder gar den Fehler(!) erwarte ich auf jeden Fall beim Test und nicht bei der Engine, deren Spielstärke durch viele tausende Partien abgeschätzt wurde.

Dann sind wir ja doch einer Meinung, auch wenn der zweite Teil Deiner zitierten Aussage dem widerspricht: Zu SF10 kann man (noch) keine aussagekräftige Einschätzung der Spielstärke treffen, zum ERET sehr wohl. Schließlich ist SF10 noch nirgendwo mit einer größeren Anzahl gespielter Partien gelistet.

Ciao

Achim
Parent - - By guest171218 Date 2018-12-04 13:39
Hallo,

die cegt hat immerhin 2400 partien für ihre 3und1 mit ponder liste:
http://cegt.forumieren.com/t1053-testing-stockfish-10-0-x64

Gruß MiKa.
Parent - - By Achim Müller Date 2018-12-04 13:56
MiKa schrieb:

die cegt hat immerhin 2400 partien für ihre 3und1 mit ponder liste:
<a class='ura' href='http://cegt.forumieren.com/t1053-testing-stockfish-10-0-x64'>http://cegt.forumieren.com/t1053-testing-stockfish-10-0-x64</a>

Nicht offiziell, das ist ein Forenbeitrag. Und ich frage mich gerade auch, wie man am 26.11.2018 schon das Ergebnis von 2400 Partien SF10 veröffentlichen kann, wenn das offizielle Release erst am 1.12.2018 veröffentlicht wurde.

Ich stelle ja nicht in Abrede, dass bestimmte daily compiles, die SF10 codetechnisch und zeitlich sehr nahe sind, gleich gut oder besser als SF9 sind. Ich spreche von dem offiziellen Release SF10-64-BMI2. Und mein Verdacht wird durch drei Tatsachen genährt:

1) dass die SF10-Version ohne CPU-Optimierung etwas besser abschneidet als die mit (wie schon im Ursprungsposting erwähnt)
2) diverse daily compiles im ERET deutlich besser abschneiden als das offizielle Release
3) dass andere meine Beobachtung bestätigen bzw. nicht widerlegen, also die Ursache eher nicht bei einer erkälteten CPU meines Rechner zu suchen ist.

Ciao

Achim
Parent - - By guest171218 Date 2018-12-04 14:38
Hallo,

doch, ich denke das ist offiziell. sie schreiben das
auf talkchess, z.B. hier: http://talkchess.com/forum3/viewtopic.php?f=6&t=69089
die cegt erstellt immer ein posting für die komplette
testreihe und schreibt dann nach und nach die erzielten
resultate hinein. deshalb ist das posting wohl auch
schon so alt, und die tests dauern ja auch noch an.

Gruß MiKa.
Parent - - By Achim Müller Date 2018-12-04 14:43
Also sind Testversion (die mit den 2400 Partien) und die downloadbare SF10-64-BMI identisch?

Ciao

Achim
Parent - - By guest171218 Date 2018-12-04 14:53
Hallo,

ob die cegt diese bmi-version verwendet
kann ich nicht sagen. es steht bei dem
3und1 mit ponder und 40/4 test:
"stockfish 10.0 x64 1cpu"
oder
"stockfish 10.0 x64".

aber wenn sie dev-versionen testen schreiben
sie es immer dazu. dies kann man erkennen unter:
http://cegt.forumieren.com/t1044-testing-stockfish-20181025-dev

Gruß MiKa.
Parent - - By Achim Müller Date 2018-12-04 15:02
Danke für die Erklärung, aber dann hilft der Hinweis auf die 2400 3+1 Partien nicht wirklich weiter. Wenn es schon - wie jetzt zum dritten Mal erwähnt - einen deutlichen Unterschied zwischen SF10-64 und SF10-64-BMI2 gbt... und beide Versionen unter den Ergebnissen der alten Version oder der aktuellen daily compiles bleiben...

Ciao

Achim
Parent - - By guest171218 Date 2018-12-04 15:17
Hallo,

Teilzitat:
"... einen deutlichen Unterschied zwischen SF10-64 und SF10-64-BMI2 gbt
... und beide Versionen unter den Ergebnissen der alten Version oder der
aktuellen daily compiles bleiben..."

wenn ich alles richtig verstanden habe
handelt es sich bei diesem deutlichen
unterschied um ergebnisse aus einem
set von schachpositionen, bei welchen
der richtige zug gefunden wurden, korrekt?
falls ja, so kann das nichts aussagen bei
solch einer geringen anzahl an positionen!
das erinnert doch sehr stark an würfeln.

Gruß MiKa.
Parent - - By Achim Müller Date 2018-12-04 15:28
MiKa schrieb:

falls ja, so kann das nichts aussagen bei
solch einer geringen anzahl an positionen!
das erinnert doch sehr stark an würfeln.

Dann wäre ja alles geklärt.

Ciao

Achim
Parent - By guest171218 Date 2018-12-05 08:53
Hallo,

da es mir gerade auffällt:
sie nutzen immer zwei cores für ihre tests.
löst stockfish-version 10 bmi mit einem core
ebenfalls weniger positionen als die standard-
version mit einem core?

Gruß MiKa.
Parent - - By Benno Hartwig Date 2018-12-04 22:10

> Wenn es schon - wie jetzt zum dritten Mal erwähnt - einen deutlichen Unterschied zwischen SF10-64 und SF10-64-BMI2


Unterschied?
Die SF10-64-BMI2-Version sollte sehr geringfügig schneller sein.
Falls es dir gelingt, tatsächlich etwas anderes zu belegen, dann wäre das natürlich ein wertvoller Hinweis.

BTW:
Das Engines nach gut gewählten Zügen wieder zu schlechteren kommen, gibt es immer wieder.
So hantierten vor Jahrzehnten die viel schwächeren, und so passiert es auch den heutigen Boliden.

Immer im Ohr bleiben wird mit der Kommentar eines enttäuschten Betreuers eines aufwändig getunten Mephisto-III:
"Er macht dieselben Fehler wie immer, nur eben viel schneller!"

Benno
Parent - - By Achim Müller Date 2018-12-04 23:16 Edited 2018-12-04 23:25
Benno Hartwig schrieb:

Unterschied?
Die SF10-64-BMI2-Version sollte sehr geringfügig schneller sein.
Falls es dir gelingt, tatsächlich etwas anderes zu belegen, dann wäre das natürlich ein wertvoller Hinweis.


Eben. Die SF10-64-BMI2 löst 3 Stellungen weniger als die nicht CPU optimierte SF-10-64. Und 5 weniger als Stockfish 9. (edit:) Und 6 weniger als der daily compile vom 14. August.

Ist das ein typisches Verhalten für optimierte EXE-Dateien oder neuere Versionen? Ich denke nicht. Aber was weiß ich schon von der Sinnhaftigkeit diverser Updates...

Ciao

Achim
Parent - By Benno Hartwig Date 2018-12-05 00:10
Stimmt, insbesondere wenn die BMI-Version weniger löst als die nicht-optimierte Version, die ja aber dieselbe Logik implementiert haben sollte, irritiert das.

Was passiert, wenn die nicht optimierte Version einfach etwas länger rechnet? Kommt sie dann doch zu denselben Ergebnissen wie die BMI-Version? (sucht sie sich eben doch noch die schlechteren Züge aus?) Dann hätte sie einfach eine sehr unglückliche Auswahl von Stellungen und Maximalzeiten angeboten bekommen.
Oder lässt sich wirklich belegen, dass sie auch bei angemessen längeren Zeiten zu tatsächlich anderen Ergebnissen kommt (1 Thread bitte, denn sonst ist es mit Reproduzierbarkeit hinüber)

Ein reproduzierbarer Beleg dafür, dass diese Versionen eine tatsächlich unterschiedliche Logik verfolgen (z.B. unterschiedliche Folge der präsentierten Hauptvarianten, die könnte man ja mal abfischen), wäre natürlich sehr interessant.

Gelingt dieser wirklich, Achim?

Benno
Parent - - By Roland Riener Date 2018-12-05 12:09
Die Diskutanten könnten ja auch Testläufe mit Spezifikationen eigener Wahl beisteuern.

Ich selbst schrieb:

Zitat:
Unter etwas anderen Bedingungen kann ich die Beobachtung, daß SF 10 bei diesem Test nicht besonders gut abschneidet, bestätigen.

Auf i5, 2 CPU, 512 MB Hash, 10 Sekunden:

Stockfish 10 BMI                      gelöst 72
Stockfish 9 BMI                        gelöst 75
Stockfish 100918 BMI              gelöst 75


Obige Läufe habe ich auf der Fritz 13 GUI gemacht. Heute habe ich auf der F 15 bei sonst gleichen Bedingungen die zwei in Diskussion stehenden Versionen verglichen:

SF 10-64 ("nicht optimiert")        gelöst 75
SF 10-64 BMI                             gelöst 78

Leider widerspricht das Achims These, der auch ich bisher zugeneigt war. Weitere Mutmaßungen?
Parent - - By guest171218 Date 2018-12-05 12:17
Hallo,

ja, mal mit einem core probieren.
u.u. hat ja "nur" die mp-implementierung
etwas mit dieser sache zu tun? oder aber
die unwegbarkeiten bei tests mit mehr als
einem core haben hier zugeschlagen?

Gruß MiKa.
Parent - - By Roland Riener Date 2018-12-05 17:27
MiKa schrieb:

Zitat:
ja, mal mit einem core probieren.

Also gut, dann reicht es aber:

i5, 1 CPU, 512 MB Hash, 10 Sekunden, auf Fritz 15 GUI

Total solved:   69  68    (Das ist das magere Resultat, wenn man auf "in Zwischenablage kopieren" drückt)

Der erste Wert sind die Lösungen von SF 10 BMI, der zweite von SF 10
Parent - - By guest171218 Date 2018-12-05 19:20
Hallo,

das sieht doch vollkommen richtig aus, die leicht schnellere
bmi-version hat einen treffer mehr als die standard-version!
ich verlasse mich bei solchen vergleichen lieber auf gespielte
partien gegen unterschiedliche gegnerschaft. die cegt hat nach
nun bereits deren 2600 ein plus von 64 im vergleich zur
version 9 gemessen und dies sieht genau nach der prognose
der autoren von stockfish aus! aber wie gesagt, ich weiß nicht
ob dort die bmi-version zum einsatz kommt.

Gruß MiKa.
Parent - By Michael Scheidl Date 2018-12-05 20:02
Bei so einem Test sind Lösungsdifferenzen von +/- 3 nicht signifikant, das ist total dieselbe Liga.
Zitat:
ich weiß nicht ob dort die bmi-version zum einsatz kommt.

Ich bin sicher daß die CEGT-Experten optimal konfigurieren.
Parent - - By Klaus S. Date 2018-12-05 12:21
Dein erster Testlauf:

Auf i5, 2 CPU, 512 MB Hash, 10 Sekunden:

Stockfish 10 BMI                      gelöst 72  <<<
Stockfish 9 BMI                        gelöst 75
Stockfish 100918 BMI              gelöst 75

Dein zweiter TL (auf der F 15 bei sonst gleichen Bedingungen)

SF 10-64 ("nicht optimiert")        gelöst 75
SF 10-64 BMI                             gelöst 78 <<<

Wurde im ersten Test die 32-bit Version benutzt? (Stockfish 10 BMI    gelöst 72)

Ansonsten ist der Unterschied (72 zu 78 gelösten) kaum zu erklären ?!
Parent - - By Roland Riener Date 2018-12-05 14:40
Klaus S. fragt:

Zitat:
Wurde im ersten Test die 32-bit Version benutzt?

Die Fritz 13 GUI scheint von Haus aus nur eine 32 bit Version zu sein. Auf der Hülle ist jedenfalls nicht von 64 bit die Rede, im Gegensatz zur Hülle von Fritz 15. War mir nicht (mehr) bewußt.
Parent - - By Achim Müller Date 2018-12-05 15:43
Roland Riener schrieb:

Die Fritz 13 GUI scheint von Haus aus nur eine 32 bit Version zu sein. Auf der Hülle ist jedenfalls nicht von 64 bit die Rede, im Gegensatz zur Hülle von Fritz 15. War mir nicht (mehr) bewußt.

Die GUI tut normalerweise nichts zur Sache, bzw. ihr ist es egal, ob unter ihr eine 32bit- oder 64bit-UCI-Exe läuft. Arena ist ja auch 32bit. Ich benutze übrigens auch Fritz13 für die Tests, weil die Fritz16-GUI regelmäßig frühere Engineergebnisse aus den Testsuites gelöscht oder zerschossen hat.

Ich habe nochmal mit unterschiedlichen CPU-Zahlen getestet:

SF10-64 1 CPU = 65
SF10-64-BMI2 1 CPU = 67
(SF10-64 2 CPU = 72)
(SF10-64-BMI2 2 CPU = 69)
SF10-64 4 CPU = 79
SF10-64-BMI2 4 CPU = 77 

Die Tests 1CPU u. 4CPU habe ich jeweils dreimal durchlaufen lassen (zwischendurch Hash geleert, GUI geschlossen etc), immer mit den gleichen Ergebnissen.

Es bleibt dabei, dass die »offizielle« SF10-Version etwa 6 Stellungen weniger als SF9 löst, außerdem 5 weniger als diverse daily compiles von August bis September.

Ciao

Achim
Parent - By guest171218 Date 2018-12-05 16:52
Hallo,

Teilzitat:
"Es bleibt dabei, dass die »offizielle« SF10-Version etwa 6 Stellungen weniger als SF9 löst, außerdem 5 weniger als diverse daily compiles von August bis September."

aber nun ist auch klar, daß die ein core bmi2 version
mehr positionen löst als die standard-version!
und dies war bei ihren tests mit zwei cores nicht so.
ich vermute weiterhin, daß dieser positionstest einfach
nichts taugt diesbezüglich bzw. daß die resultate
daraus ziemlich zufälliger natur sind.

Gruß MiKa.
Parent - - By Benno Hartwig Date 2018-12-04 22:01
Na, SF10 beamte ja nun nicht aus dem Nichts zu uns, es konnte die Entstehung dieser Engine anhand der sehr umfangreichen Fishtest-Partien-Serien sehr eingehend beobachtet werden.

Und:
Du hast ggf. Recht: Ja, ich sehe SF  in einer Linie mit diesen umfangreich getesteten Engines. Du nicht?
"Kann trotzdem plötzlich viel schlechter sein, und daher glaube ich dem Test!" halte ich für reichlich abenteuerlich. Aber jeder, wie er mag.

Benno
Parent - - By Achim Müller Date 2018-12-04 23:49
Benno Hartwig schrieb:

"Kann trotzdem plötzlich viel schlechter sein, und daher glaube ich dem Test!" halte ich für reichlich abenteuerlich. Aber jeder, wie er mag.

Falls das ein Zitat ist (und es schaut danach aus, auch wenn ich den kursiv geschriebenen Text in Hochkommata in diesem Thread nirgendwo, auch nicht sinngemäß gefunden habe) und falls Du mir so eine Aussage unterjubeln willst:

das habe ich an keiner Stelle behauptet. Ich habe auf eine Inkonsistenz zwischen verschiedenen Versionen und verschiedenen Compiles der gleichen Version hingewiesen. Und zwar eine ziemlich unlogische Inkonsistenz, wenn man sich all die Ergebnisse inklusive der daily compiles vor und nach der Veröffentlichung des offiziellen Releases anschaut. Falls ich mich zu unrecht angesprochen fühlte, sorry.

Ciao

Achim
Parent - By Horst Sikorsky Date 2018-12-05 07:59
Stockfish ist so gut! Er hat keine Offizielle Version nötig!
vor allen, wenn er gegen sich selbst verliert (was normal ist)
und schon gäbe es nichts zu meckern
Parent - By Roland Kanz Date 2018-12-06 00:49 Upvotes 1
Guten Tag Liebe Schachfreunde und Computerschachfans!

Hier noch zur Ergänzung:
Version: 18. Oktober 2018
Meine ermittelten Lösungszeiten
Windows 10-64 / Fritz 16 /Hash 512 MB/ Liste / Lösungszeit pro Stellung 15 Sekunden

Komodo 11.01.     76  gelöst 12 Cores
Stockfish 10          81 gelöst 12 Cores
Stockfish 021218  77 gelöst 12 Cores
Stockfish 021218  76 gelöst   8 Cores
Stockfish 021218  78 gelöst 4 Cpu
Stockfish 10          78 gelöst 4 Cpu
Stockfish 271118  78 gelöst  4 Cpu
Houdini 5.01/        76 gelöst  4 Cpu
Komodo 11.01.     75 gelöst  4 Cpu


Vergleich: Eigenmann Walter 
Engine Lösungen
Stockfish 9           77 gelöst
Houdini 6.03        76  gelöst
Komodo 12.1.1    75  gelöst

Herzliche Grüße RK
Up Topic Hauptforen / CSS-Forum / Stockfish 10 und ERET

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill