Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Stockfish möglicherweise sehr stark bei längeren Bedenkzeiten verbessert
- - By Frank Brenner Date 2022-02-20 18:45 Upvotes 1
Vor wenigen Tagen ist eine neue Stockfish Version herausgekommen die für lange Bedenkzeiten optimiert wurde.

Im Stockfish Framework habe ich heute entdeckt, daß diese neue Version bei einer Bedenkzeit von 3 Minuten / Partie + 1.8s/Zug gegenüber Stockfish 14  mehr als 80 ELO zugewinnt.

Ich konnte meinen Augen nicht trauen, liegt hier ein systematischer Testfehler vor ?

Aktuell bin ich dabei das zu überprüfen mit einer Bedenkzeit von 5 Min/Partie + 5s/Zug mit der Drawkiller_V5 Eröffnung von Stefan Pohl.

Hierzu spielt dieses neue Patch gegen den letzen Stokfisch.Beta ende Dezember 2021.

Aktuell steht es nach 52 Spielen:  31-21, d.h.  +68 ELO

Danach probiere ich das auch mit "normaleren" Eröffnungen aus: HEART500

Ich finde das ist jetzt aktuell sehr spannend ob da Niveau so gehalten wird.

Aktuell noch ist es die sensationellste Entwicklung seit Einführung von NNUE
Parent - - By Andreas Mader Date 2022-02-20 19:07
Frank Brenner schrieb:

Vor wenigen Tagen ist eine neue Stockfish Version herausgekommen die für lange Bedenkzeiten optimiert wurde.

Im Stockfish Framework habe ich heute entdeckt, daß diese neue Version bei einer Bedenkzeit von 3 Minuten / Partie + 1.8s/Zug gegenüber Stockfish 14  mehr als 80 ELO zugewinnt.


Also was nun - lange Bedenkzeiten oder 3 Minuten pro Partie?
Parent - - By Frank Brenner Date 2022-02-20 19:23
"Lange Bedenkzeit" ist ein relativer Begriff.

in den letzten Jahren wurden Stockfish Patches aktzeptiert und in den Master eingebaut, wenn sowohl bei 20s/Partie als auch bei 60s/Partie die Spielstärke besser wurde.

Bei wirklich hohen Bedenkzeiten z.B. 2 Std/Partie sind die Vorteile dann gegen  0 konvergiert.
Für Fernschachspieler sind 2Std/Partie ultrakurz. Sie lieben 2 Tage/Zug.

Der neue Patch ist für höhere Bedenkzeiten optimiert, d.h. konkret in Zahlen:

bei 20s/Partie ergibt sich eine große Spielstärke Verschlechterung
bei 60s/Partie ergibt sich eine minimale Verbesserung
aber bereits ab 180s/Partie ergibt sich eine große Verbesserung.

Der Fokus  sollte nicht an der unterschiedlichen Interpretationen von "langer Bedenkzeit" liegen, sondern in der sehr starken Spielstärkesteigerung bei
Bedenkzeiten ab 180s/Partie.

Aktuell steht es: 46.5  vs 33.5    --> + 57 ELO

Ich hoffe es fällt im weiteren Verlauf nicht ständig weiter nach unten.
Parent - - By Peter Martan Date 2022-02-20 22:33
Frank Brenner schrieb:

Aktuell steht es: 46.5  vs 33.5    --> + 57 ELO

Wieviele Partien hast du vor und wieviele sind's jetzt?
Danke für den Test.
Parent - - By Frank Brenner Date 2022-02-20 22:50 Upvotes 1
Aktuell steht es: 123.5  vs 92.5  --> +50 ELO

gespielt wird mit der Banksia GUI

Eröffnungsbuch ist:

Stefan Pohls Draw.Killer V5

dk_+0.0-+0.99_human_6mvs.pgn

Leider weiß ich nicht ob die Stellungen in dem pgn der Reihe nach durchgespielt werden (a)
oder per zufall ausgewählt werden (b)
und ich weiß auch nicht Positionen in dem pgn  "geordnet" sind nach Zügen (1)
oder ob die Positionen in der Datei per Zufall permutiert vorliegen. (2)

Das beste  für eine schnelle  Konvergenz der ELO Performance und für einen Zuverlässigen Elo Wert bei nur 400 Partien wäre (b) oder (2)

Nach spätestens 400  Partien hört das Turnier auf.

Auch wenn es jetzt "nur " noch 50 ELO sind, finde ich das eine SENSATION - (bis jetzt),  denn bei 5Min/Partie + 5s/Zug beginnt auch schon der Effekt des "Stauchen der Spielstärke", der bei Fernschach Bedenkzeit den Zenith erzielt (alle Engines spielen fast nur Remis), und 50 ELO sind echt eine gewaltige Größe. Für 50 ELO hat Stockfish m.E. sonst rund 1 Jahr für benötigt oder mehr.
Parent - - By Peter Martan Date 2022-02-20 23:14 Edited 2022-02-20 23:43
Frank Brenner schrieb:

Aktuell steht es: 123.5  vs 92.5  --> +50 ELO

Bei wievielen Partien (Remis)?
Frank Brenner schrieb:


Nach spätestens 400  Partien hört das Turnier auf.

Auch wenn es jetzt "nur " noch 50 ELO sind, finde ich das eine SENSATION - (bis jetzt),  denn bei 5Min/Partie + 5s/Zug beginnt auch schon der Effekt des "Stauchen der Spielstärke", der bei Fernschach Bedenkzeit den Zenith erzielt (alle Engines spielen fast nur Remis), und 50 ELO sind echt eine gewaltige Größe. Für 50 ELO hat Stockfish m.E. sonst rund 1 Jahr für benötigt oder mehr.

Mal sehen, wieviele Remis es nach 400 Partien sind.
Dass sich bei 5'+5" schon viel Fernschach- Stauchen einstellt, glaube ich weniger, da würde ich schon eher noch auf die Spreizung durch die Draw Killer setzen, und je nachdem, wieviele 1:1- Paare da dann bei genau diesem Match am Ende rauskommen, davon wird abhängen, was die 400 Partien wirklich an statistischer Aussage hergeben, aber genau das meinst du ja vermutlich eh auch mit den Überlegungen über die Reihenfolge, in der die Eröffnungen abgebarbeitet werden.
Insgesamt sollte nach den 400 halt jedenfalls ein 1:1 Farbwechsel herauskommen, sonst ist das mit Draw Killer ein Fairness- Killer.
Parent - - By Frank Brenner Date 2022-02-20 23:47
Aktueller Zwischenstand + 43 ELO

48.1% Remis.

Die Elo Zahl die von der Banksia GUI berechnet wird ist immer fehlerhaft. Aber ich hab noch die älter 0.52 Version

Es tut schon weh, wie im Laufe des Turniers der Spielstärkeunterschied streng monoton sinkt.
Wenn das so weiter geht, steckt irgendwo im Setup der Wurm drin.

Result:
------------------------------------------------------------------------------
  #  name              games   wins%  draws% losses%  score%    elo    +    -
  1. Stockfish 170222    258    32.2    48.1    19.8    56.2     19   17   17
  2. Stockfish 271221    258    19.8    48.1    32.2    43.8    -19   17   17

Cross table:
------------------------------------------------------------------------------
  #  name                score%   games         1         2
  1. Stockfish 170222      56.2     258         x     145.0
  2. Stockfish 271221      43.8     258     113.0         x
Parent - - By Peter Martan Date 2022-02-20 23:57 Edited 2022-02-21 00:08
Frank Brenner schrieb:

Es tut schon weh, wie im Laufe des Turniers der Spielstärkeunterschied streng monoton sinkt.
Wenn das so weiter geht, steckt irgendwo im Setup der Wurm drin.

Na, dass tatsächlich die Eröffnungen, wie sie ablaufen, zuerst die eine Seite bevorteilen und sich das dann erst ausgleicht, wenn alle durch sind?
Das müsstest du halt zum Schluss spätestens kontrollieren, ob wirklich kompletter Farbwechsel gespielt wurde.
Bis morgen (uups, schon wieder zu spät dafür)
Parent - - By Frank Brenner Date 2022-02-21 19:43
Hier die Ergebnisse von 3x 400 Partien:

Stockfish 170222  gegen Stockfish 271221, 1 Core
AMD ZEN 3

DrawKiller.V5  dk_+0.90_+0.99_human_6mvs.pgn von Stefan Pohl

SO wie es aussieht wählt die Banksia GUI per Zufall eine der (gesschätzt 6500) Partien (6 Vollzüge)
aus dem PGN und spielt die dann aus. Dabei wird eine einzelne Stellung nicht mit vertauschten Farben gespielt.
Von den 400 Partien, hat 200 mal zufällig Stockfish 170222 und 200 mal Stockfish 271221 Weiß gehabt.

5m+5s: + 37 ELO
3m+3s: + 43 ELO
1m+1s: + 23 ELO

Result:  5m+5s + 37 ELO
------------------------------------------------------------------------------
  #  name              games   wins%  draws% losses%  score%   
  1. Stockfish 170222    400    30.5    49.8    19.8    55.4    
  2. Stockfish 271221    400    19.8    49.8    30.5    44.6  

Cross table:
------------------------------------------------------------------------------
  #  name                score%   games         1         2
  1. Stockfish 170222      55.4     400         x     221.5
  2. Stockfish 271221      44.6     400     178.5         x

Result: 3m+3s + 43 ELO
------------------------------------------------------------------------------
  #  name              games   wins%  draws% losses%  score%   
  1. Stockfish 170222    400    31.3    49.5    19.3    56.0   
  2. Stockfish 271221    400    19.3    49.5    31.3    44.0   

Cross table:
------------------------------------------------------------------------------
  #  name                score%   games         1         2
  1. Stockfish 170222      56.0     400         x     224.0
  2. Stockfish 271221      44.0     400     176.0         x

Result: 1m+1s + 23 ELO
------------------------------------------------------------------------------
  #  name              games   wins%  draws% losses%  score%   
  1. Stockfish 170222    400    30.5    45.5    24.0    53.3    
  2. Stockfish 271221    400    24.0    45.5    30.5    46.8   

Cross table:
------------------------------------------------------------------------------
  #  name                score%   games         1         2
  1. Stockfish 170222      53.3     400         x     213.0
  2. Stockfish 271221      46.8     400     187.0         x
Parent - - By dkappe Date 2022-02-21 19:50 Upvotes 1
Ich weiß das bei uho man die elo durch zwei teilt um Standard (normale Eröffnungen) elo zu bekommen. Ich nehme an das das bei Drawkiller ähnlich ist? Also, 20 Standard elo?
Parent - - By Frank Brenner Date 2022-02-21 20:12
Die Elo Differenz  aus einem prozentualen Score wird stets gleich berechnet: 

Elodifferenz = 400 * lg (1/score - 1)

wobei lg der 10er Logarithmus ist und Score der erzielte Score ist, zb 0.121  entspricht 12.1%
Parent - By Frank Brenner Date 2022-02-21 20:16
Also zb. bei 5m+5s beträgt der score 55.4 %

also

Elodifferenz = 400 * lg (1/0.554 -1) = -37.69

Die Elodifferenz in meinem Ergebnis hatte ich mit Elostat berechnet der das dann auf 37 (statt auf 38) gerundet hat.
Parent - By dkappe Date 2022-02-21 21:50
Frank Brenner schrieb:

Die Elo Differenz  aus einem prozentualen Score wird stets gleich berechnet: 

Elodifferenz = 400 * lg (1/score - 1)

wobei lg der 10er Logarithmus ist und Score der erzielte Score ist, zb 0.121  entspricht 12.1%


Richtig, aber wenn man unter den selben Bedingungen mit Perfect 2021 Eröffnungsbuch spielt kommt das wahrscheinlich auf 20 elo.
Parent - By Frank Brenner Date 2022-02-21 19:50
Als nächstes 400 Partien,  5m+5s mit HEART500.pgn
Parent - - By Peter Martan Date 2022-02-21 20:13 Edited 2022-02-21 20:22
Danke!
Ich hab mir mal nur den 5'+5"- Run mit EloStat angeschaut, die Kommastellen der Prozent gerundet:

Wins   = 120
Draws  = 200
Losses = 80
Av.Op. Elo = 3500

Result     : 220.0/400 (+120,=200,-80)
Perf.      : 55.0 %
Margins    :
68 %      : (+  1.7,-  1.7 %) -> [ 53.3, 56.7 %]
95 %      : (+  3.4,-  3.4 %) -> [ 51.6, 58.4 %]
99.7 %    : (+  5.2,-  5.2 %) -> [ 49.8, 60.2 %]

Elo        : 3535
Margins    :
68 %      : (+ 12,- 12) -> [3523,3547]
95 %      : (+ 24,- 24) -> [3511,3559]
99.7 %    : (+ 37,- 36) -> [3498,3572]

Die error bar ist halt selbst bei den immerhin 400 Partien schon  mit 24 Elo+- im 95%- Intervall noch beachtlich (bei einem Ergebnis von 37 Elo Unterschied).
Das kommt natürlich auch von der geringen Remisrate, also den Draw Killer Openings. Ich persönlich würde ja gerade bei solchen Teststellungen direkten Farbwechsel besser finden, vor allem, weil ja von den insgesamt, wie du schreibst, 6500 Stellungen ein Großteil gar nicht zum Ausspielen kommt bei 400 Partien, und wenn so ein Set in Summe ausgewogen ist, dann halt vermutlich doch nur insgesamt.

Weil es wirkt sich die zufällige Auswahl der Stellungen ev. doch in mehr ganzen Punkten aus, die einander aufheben, als wenn der dosierte einseitige Vorteil von mehr einzelnen Stellungen für den ganzen Punkt nicht bei beiden reicht, sondern nur bei einem. Sind die Stellungen als Set ausgewogen, würde sich das bei mehr Partien vielleicht auch, was die Vorteile der Stellungen angeht, mehr ausgleichen in Summe.

So werden Remis vielleicht doch auch mehr durch sozusagen- 1:1-Paare ersetzt (auch wenn's keine Paare im eigentlichen Sinn sind, weil's keine direkten Hin- und Rückpartien sind), und das hebt die error bar halt mehr, als wenn das gleich lauter Remis wären. Natürlich ist das auch sowieso der Preis, den man für die Draw- Killer zahlt.
Aber immerhin, doch deutlicher, als ich gedacht hätte, wie hoch der Anteil der neuen Netzarchitektur daran ist, bleibt ein zusätzliches Fragezeichen.
Parent - - By Frank Brenner Date 2022-02-21 20:33
Hallo Peter,

richtig ist
Wins   = 122
Draws  = 199
Losses = 79

Exakte Turnier-Elo-Differenz aufgrund dieses Ergebnis: 400 * lg(1/0,554 -1) = 37,67 ELO

Bei der Streuung, mus man releativierend sagen, daß nur in 5% der Fälle das reale Ergebnis um mehr als das angegebene Intervall von der Turnier-Elo-Differenz abweicht.

aktuell läuft das Turnier mit der HEART500 pgn Eröffnungsbibliothek und nach bisher 22 Partien sieht das Zwischenergebnis sehr viel ausgeglichener aus. (100% Remis ...)

Es gibt also eine extrem starke Abhängigkeit von der Eröffnungsbilbliothek, wobei ich befürchte daß Schach aus der Standard-Startstellung (ohne Vorgabezüge) bereits von Stockfish nahezu  verlustlos gespielt wird ....

Wenn sich das mit den massiven Remis bei HEART500.pgn so fortsetzt, möchte ich danach ein Turnier spielen mit 4m+4s   vs 6m+6s  und schauen ob die  1.5 fache Bedenkzeit hier bei HEART ebenfalls in der
Nähe von 0 ELO liegt

Grüße
Frank
Parent - - By Peter Martan Date 2022-02-21 20:56
Frank Brenner schrieb:

richtig ist
Wins   = 122
Draws  = 199
Losses = 79

Exakte Turnier-Elo-Differenz aufgrund dieses Ergebnis: 400 * lg(1/0,554 -1) = 37,67 ELO

Bei der Streuung, mus man releativierend sagen, daß nur in 5% der Fälle das reale Ergebnis um mehr als das angegebene Intervall von der Turnier-Elo-Differenz abweicht.

aktuell läuft das Turnier mit der HEART500 pgn Eröffnungsbibliothek und nach bisher 22 Partien sieht das Zwischenergebnis sehr viel ausgeglichener aus. (100% Remis ...)

Es gibt also eine extrem starke Abhängigkeit von der Eröffnungsbilbliothek, wobei ich befürchte daß Schach aus der Standard-Startstellung (ohne Vorgabezüge) bereits von Stockfish nahezu  verlustlos gespielt wird ....

Hallo Frank, ich weiß schon, dass ich ein bisschen stark gerundet habe, es ging mir nur um die Größenordnung der error bar.
Und ja, natürlich wird die mit weniger Remis nicht kleiner sondern größer bei gleichem Performance- Unterschied und gleicher Partiezahl, man könnte auch sagen, die Spreizung der Elo spreizt auch die error bar. Buchlos von der Grundstellung hat vielleicht sogar eine nicht einmal ganz so hohe Remisrate wie 5 oder 8 oder mehr Züge in den menschlich viel gespielten (den wirklich viel gespielten, also den) main lines der Theorie, weil in denen eben der Anzugsvorteil, den die Grundstellung noch hat, auch bereits mehr ausgeglichen ist. Buchlos hat man Dubletten, mit wirklich ausgeglichenen Stellungen aus der GM- Praxis, da ist wirklich ab Hardware- TCs wie deinen jetzt, der Remistod im Computerschach in seinem vollen Ausmaß zu sehen.

Mit welchem Eröffnungsset man testet, macht mittlerweile wirklich viel Unterschied aus.
Parent - - By Lothar Jung Date 2022-02-21 21:02
Ja, Peter,

über die Eröffnung verläuft die Partie grundlegend anders.
Mal in die eine, mal in die andere Richtung.
Hier werden die Weichen gestellt, jedoch oft in Richtung Remis.

Lothar
Parent - By Peter Martan Date 2022-02-21 22:12
Und wenn man die Remis durch unausgeglichene Eröffnungsstellungen reduziert, spreizt man um das, was man die Elo spreizt, auch die error bar.
Genau so gut könnte man die Remis in Kauf nehmen und dafür Centielo messen, wenn man sich bei annähnernd gleich starken Engines nicht mit annähernd gleichstark als Ergebnis zufrieden geben kann oder darf, weil man sie (die Ergebnisse) für eine Entwicklungskontrolle braucht.
Parent - - By Max Siegfried Date 2022-02-21 00:34
Frank Brenner schrieb:

"Lange Bedenkzeit" ist ein relativer Begriff.

in den letzten Jahren wurden Stockfish Patches aktzeptiert und in den Master eingebaut, wenn sowohl bei 20s/Partie als auch bei 60s/Partie die Spielstärke besser wurde.

Bei wirklich hohen Bedenkzeiten z.B. 2 Std/Partie sind die Vorteile dann gegen  0 konvergiert.
Für Fernschachspieler sind 2Std/Partie ultrakurz. Sie lieben 2 Tage/Zug.

Der neue Patch ist für höhere Bedenkzeiten optimiert, d.h. konkret in Zahlen:

bei 20s/Partie ergibt sich eine große Spielstärke Verschlechterung
bei 60s/Partie ergibt sich eine minimale Verbesserung
aber bereits ab 180s/Partie ergibt sich eine große Verbesserung.

Der Fokus  sollte nicht an der unterschiedlichen Interpretationen von "langer Bedenkzeit" liegen, sondern in der sehr starken Spielstärkesteigerung bei
Bedenkzeiten ab 180s/Partie.

Aktuell steht es: 46.5  vs 33.5    --> + 57 ELO

Ich hoffe es fällt im weiteren Verlauf nicht ständig weiter nach unten.


Kann ich die Nachteile der kurzen Bedenkzeit durch Monsterhardware aufheben?
Das würde die Spielstärke bei noch längerer Bedenkzeit steigern, während die Spielstärke bei langer Bedenkzeit sich in den Bereich der kurzen Bedenkzeit verschiebt.
Parent - By Frank Brenner Date 2022-02-21 19:48 Edited 2022-02-21 19:50 Upvotes 1
Ich hab mit 4,2 GHZ und 5m+5s gespielt (alle 16 cores gleichzeitig je eine Partie).

Mit 21 GHZ  könntest du das gleiche dann auch mit 1m+1s erzielen.

21 GHZ Wäre eine Monsterhardware !
Parent - - By Heiko Bruns Date 2022-02-20 20:00
Welche Version ist das?

Gruß Heiko
Parent - - By Frank Brenner Date 2022-02-20 20:36
Die neuste Version von Stockfish mit dieser großen Verbesserung lautet: Stockfish 170222
und diese Version spielt aktuell mit 5 min/Partie + 5s/Zug gegen Stockfish 271221 (letzte Version von 2021)

Aktuell steht es: 76 - 55   --> +56 ELO
Parent - - By Ernest Bonnem Date 2022-02-21 02:27 Upvotes 1
Aber für Next Chess Move  https://nextchessmove.com/dev-builds hat dieses Stockfish ein 30 Elo Abfall !!!

Ist "Time controls are set to 30+0.3" die einzige Erklärung ?
Parent - By Frank Brenner Date 2022-02-21 23:21 Edited 2022-02-21 23:23
Code:
Ist "Time controls are set to 30+0.3" die einzige Erklärung ?


Ja, so sieht es aktuell aus.

Ab 60s/Partie + 1s/Zug  erzielt die neue Version durchweg über alle Eröffnungsbücher bessere Ergebnisse.

Problematisch ist es für Listenbetreiber die mit diesen Kurzen Bedenkzeiten spielen oder mit schwachen 2.5 GHZ CPUs mit nur  2 Min/Partie+2s/Zug.
Parent - - By Hauke Lutz Date 2022-02-20 22:23
Author: Michael Chaly
Date: Thu Feb 17 20:45:21 2022 +0100
Timestamp: 1645127121

Tune search at very long time control

This patch is a result of tuning done by user @candirufish after 150k games.

Since the tuned values were really interesting and touched heuristics
that are known for their non-linear scaling I decided to run limited
games LTC match, even if the STC test was really bad (which was expected).
After seeing the results of the LTC match, I also run a VLTC (very long
time control) SPRTtest, which passed.

The main difference is in extensions: this patch allows much more
singular/double extensions, both in terms of allowing them at lower
depths and with lesser margins.

Failed STC:
https://tests.stockfishchess.org/tests/view/620d66643ec80158c0cd3b46
LLR: -2.94 (-2.94,2.94) <0.00,2.50>
Total: 4968 W: 1194 L: 1398 D: 2376 Elo -14.27
Ptnml(0-2): 47, 633, 1294, 497, 13

Performed well at LTC in a fixed-length match:
https://tests.stockfishchess.org/tests/view/620d66823ec80158c0cd3b4a
ELO: 3.36 +-1.8 (95%) LOS: 100.0%
Total: 30000 W: 7966 L: 7676 D: 14358 Elo +3.36
Ptnml(0-2): 36, 2936, 8755, 3248, 25

Passed VLTC SPRT test:
https://tests.stockfishchess.org/tests/view/620da11a26f5b17ec884f939
LLR: 2.96 (-2.94,2.94) <0.50,3.00>
Total: 4400 W: 1326 L: 1127 D: 1947 Elo +15.72
Ptnml(0-2): 13, 309, 1348, 526, 4

closes https://github.com/official-stockfish/Stockfish/pull/3937

Bench: 6318903

https://www.abrok.eu/stockfish/

Die Änderung war echt gut. Seit 14 ist aber auch beim Netz extrem viel passiert.
Im Code habe ich bis auf diese Änderung nicht so viel wahrgenommen.
Parent - - By Frank Brenner Date 2022-02-20 22:55 Upvotes 1
Besonders hervorzuheben ist dieser Test im Stockfish Framework:

22-02-20  vdv  master^  diff 

ELO: 81.22 +-3.1 (95%) LOS: 100.0%
Total: 10000 W: 3740 L: 1444 D: 4816
Ptnml(0-2): 1, 263, 2211, 2489, 36

10000 @ 180+1.8 th 1
VLTC of master^ (previous commit) vs SF14

Hier erzielt also diese Version 81.22 ELO mehr als der Stockfish 14   (also 14.0) bei einer Bedenkzeit von 180s/Partie + 1.8s/Zug
Parent - By Max Siegfried Date 2022-02-21 00:36
Frank Brenner schrieb:

Besonders hervorzuheben ist dieser Test im Stockfish Framework:

22-02-20  vdv  master^  diff 

ELO: 81.22 +-3.1 (95%) LOS: 100.0%
Total: 10000 W: 3740 L: 1444 D: 4816
Ptnml(0-2): 1, 263, 2211, 2489, 36

10000 @ 180+1.8 th 1
VLTC of master^ (previous commit) vs SF14

Hier erzielt also diese Version 81.22 ELO mehr als der Stockfish 14   (also 14.0) bei einer Bedenkzeit von 180s/Partie + 1.8s/Zug


Liegt es vielleicht daran das die Engine breiter sucht, anstatt sich wie früher auf Tiefe 100+ festzubeißen, obwohl massig Bedenkzeit vorhanden ist?
Parent - - By Andreas Matthies Date 2022-02-21 07:43 Edited 2022-02-21 07:55 Upvotes 1
Hallo Frank.

Der von dir zitierte Test ist der SF-Master vor dem fraglichen Patch https://github.com/official-stockfish/Stockfish/commit/84b1940fcae95bb0a641dda9e85cb96f8c21cd22 mit der besonders guten VLTC-Performance. Zu erkennen an dem ^ hinter dem Branchnamen. Siehe auch https://git-scm.com/docs/git-rev-parse

Der entsprechende Test inkl. des Patches ist dieser hier https://tests.stockfishchess.org/tests/view/62120c34b1792e8985f89b1a
ELO: 86.00 +-3.0 (95%) LOS: 100.0%
Total: 10000 W: 3799 L: 1373 D: 4828
Ptnml(0-2): 0, 203, 2213, 2539, 45

Also nochmal 5 Elo besser.

Die besonders gute Performance beider Tests im Vergleich zu den normalen Regression Tests gegen SF14 (< 40Elo) lässt sich vermutlich durch das verwendete Buch UHO_XXL_+0.90_+1.19.epd erklären.

Der Patch wurde sehr kontrovers diskutiert, da er eben einerseits die VLTC-Performance stark verbessert aber eben auch die STC-Performance und die gegen schwächere Gegner herunterzieht, z.B. bei https://nextchessmove.com/dev-builds zu sehen.
Inzwischen hat der Maintainer entschieden, ihn zu behalten. Mal schauen, ob zukünftige Weiterentwicklungen die gute VLTC-Performance erhalten können, denn man wird es sich trotz riesiger Testressourcen vermutlich nicht leisten, jeden Patch jetzt auch bei 180+1.8 zu testen.
Parent - - By Max Siegfried Date 2022-02-21 09:05
Es ist doch so das wenn man anfängt den Stockfish mit kurzer Bedenkzeit zu testen und die Bedenkzeit dann schrittweise erhöht, dann stellt man fest das die - elo in Richtung 0 elo und dann in Richtung + elo gehen.
Wenn man Monsterhardware verwendet, dann sollte es den - elo Bereich gar nicht geben, da dürfte man wahrscheinlich im 0 elo Bereich starten und je länger man die Engine rechnen lässt desto höher steigt die elo.

Außerdem hat der Stockfish bei längerer Bedenkzeit deutlich mehr an elo dazu gewonnen als er bei kurzer Bedenkzeit auf schwacher Hardware verloren hat.
Parent - By Andreas Matthies Date 2022-02-21 11:56
Ich verstehe nicht wirklich, was du sagen willst.
Max Siegfried schrieb:

Es ist doch so das wenn man anfängt den Stockfish mit kurzer Bedenkzeit zu testen und die Bedenkzeit dann schrittweise erhöht, dann stellt man fest das die - elo in Richtung 0 elo und dann in Richtung + elo gehen.

Ist das eine allgemeine Aussage (hört sich so an)? Dann ist sie falsch. Oder du verstehst nicht, wie Fishtest funktioniert.

Max Siegfried schrieb:

Wenn man Monsterhardware verwendet, dann sollte es den - elo Bereich gar nicht geben, da dürfte man wahrscheinlich im 0 elo Bereich starten und je länger man die Engine rechnen lässt desto höher steigt die elo.

Die Tests beim Fishtest und auch bei NCM sind üblicherweise normiert in dem Sinne, dass die tatsächlich verwendete Zeit immer skaliert wird mit der Stärke der Hardware.
Also: Superschnelle CPU => STC-Test läuft nicht mit 10.0+0.1 sondern mit (beispielsweise) 6.0+0.06
Die eingesetzte Hardware sollte also keine (große) Rolle beim Testen spielen.

Max Siegfried schrieb:

Außerdem hat der Stockfish bei längerer Bedenkzeit deutlich mehr an elo dazu gewonnen als er bei kurzer Bedenkzeit auf schwacher Hardware verloren hat.

Tja, mag sein. Aber die Leute mögen es halt trotzdem nicht, wenn in wichtigen Rankinglisten, die halt häufig auch mit ziemlich kurzer Zeitkontrolle testen, die Kurve plötzlich einen bösen Knick nach unten bekommt, z.B. https://www.sp-cc.de/stockfish-regression.htm

Grüße, Andreas
Parent - - By Frank Brenner Date 2022-02-21 22:36
Solange die Spielstärke lediglich bei Spielen in der Zeitronkrolle 30s/Partie (oder weniger) geringer ausfällt, aber bei
Bedenkzeiten ab 1-2 Min/Partie ansteigt, so ist mir dieser Patch sehr lieb.

Aktuell sehe ich aber bei meinen eigenen Tests bisher nur bei extrem unausgewogenen Startstellungen ein sehr deutlich  messbaren Elo Fortschritt, während
bei normalen Startstellungen zb (HEart500.pgn) kaum ein Elogewinn messbar ist.

Ob dies nun eine besondere Eigenschaft dieses Patches ist, oder ob bei Heart500.pgn auf dem aktuellen Niveau von Stockfish ohnehin kaum mehr messbare Fortschritte erzielbar sind werde ich jetzt noch durch eigene Tests hier bei mir zuhause versuchen zu beantworten.
Parent - - By Wolfgang Battig Date 2022-02-22 10:40
Unter "Ranglistenbedingungen", also gegen mehr als einen Gegner, sieht es hier nicht gut aus.

1200 Partien gespielt (es fehlen noch ein paar Matches)
100 Partien je Match
Ryzen 9 3950x
Banksia GUI
8-Züge Testset (ausgewogene Eröffnungen)
Bedenkzeit: 4+2, also etwas länger als das, was dort als "very long time control" bezeichnet wird.

Aktuell -28 (3646) zu Stockfish 14.1 (3674)
Lediglich in 3 Matches erreichte der VLTC Patch bisher eine über dem Rating von SF 14.1 liegende Performance. Gegen Ethereal 13.50 (+9) und Houdini 6 (+11) sowie im direkten Match mit +7.
Parent - - By Frank Brenner Date 2022-02-22 14:03
Code:
Aktuell -28 (3646) zu Stockfish 14.1 (3674)


Das klingt schon wie ein KO Kriterium für das Patch.

Gibt es eine frei herunterladbare Engine mit der ich den Rückgang der Spielstärke bei mir zuhause auch einmal nachspielen kann ?

Eventuell auch ein Link zu eurem Buch.
Parent - - By Wolfgang Battig Date 2022-02-22 17:45
Frank Brenner schrieb:

Code:
Aktuell -28 (3646) zu Stockfish 14.1 (3674)


Das klingt schon wie ein KO Kriterium für das Patch.

Für mich ist es das auf jeden Fall. Die Engine wird nicht in unseren Listen erscheinen. Den Test habe ich abgebrochen

Zitat:
Gibt es eine frei herunterladbare Engine mit der ich den Rückgang der Spielstärke bei mir zuhause auch einmal nachspielen kann ?

Im absoluten Spitzenbereich gibt es nicht sooo viele freie Engines (Komodo, Ethereal, Revenge alle kommerziell).

Ich würde an Deiner Stelle nehmen:

- LCZero 0.28.2 mit einem starken Netz sofern Du eine gute Grafikkarte hast und damit halbwegs gleiche Bedingungen hinbekommst
- Fire 8.NN.1
- Berserk 8.5.1
- SlowChess Blitz 2.8
- Koivisto 7.0
- RubiChess 2021

Bei letzteren beiden ist der Abstand zu Stockfish 14.1 aber schon bei ca. 230-260 Punkten, da wird es dann grenzwertig.

Zitat:
Eventuell auch ein Link zu eurem Buch.

Es gibt kein CEGT-Buch. Jeder Tester nutzt eigene/unterschiedliche Testsuites oder Bücher
Parent - - By Frank Brenner Date 2022-02-22 20:38
Danke für den Tipp mit Fire 8 NNUE, den werde ich mir herunterladen, ebenso Komodo 12 welches ebenfalls kostenlos ist.

Mit diesen beiden Engines werde ich  das neue SF  Patch sowie die letzte Version von 2021 vergleichen ob ich hier auch bei höheren Bedenkzeiten und verschiedenen Eröffnungssets  ein Abstieg der Spielstärke messe. Bin schon sehr gespannt.
Parent - - By Peter Martan Date 2022-02-22 20:52 Edited 2022-02-22 21:00
Frank Brenner schrieb:

Danke für den Tipp mit Fire 8 NNUE, den werde ich mir herunterladen, ebenso Komodo 12 welches ebenfalls kostenlos ist.

Mit diesen beiden Engines werde ich  das neue SF  Patch sowie die letzte Version von 2021 vergleichen ob ich hier auch bei höheren Bedenkzeiten und verschiedenen Eröffnungssets  ein Abstieg der Spielstärke messe. Bin schon sehr gespannt.

Warum vergleichst du nicht mit der Version vom 10.2., die schon die neue Netzarchitektur hatte, dann würdest du den einen Patch, um den's dir geht, gegen die Version mit dem gleichen Netz, also das direkte Vorher- Nachher vergleichen.
Sonst weißt du erst nicht, wie groß der Anteil vom neuen Netz ist und wie groß der vom Patch.
Parent - By Frank Brenner Date 2022-02-22 21:11 Edited 2022-02-22 21:14 Upvotes 1
Joa, das könnte ich auch machen.

Aktuell hat gerade SF 17.02.22 gegen Komodo 12.1.1. 64 Bit 400 Partien gespielt mit S.Pohls  Draw.Killer V5 dk_+0.0-+0.99_human_6mvs.pgn,  3 Min + 3 s
Als nächstes kommt dann jetzt SF 10.02.22 dran ....
Danach dann das gleiche nochmal mit t Fire 8 NNUE  und dann ..  evt noch mit HEAR500.pgn (normale Eröffnungen)

Laut Eloformel: +375 ELO

Code:
Result:
----------------------------------------------------------------------------------
  #  name                  games   wins%  draws% losses%  score%    elo    +    -
  1. Stockfish 170222        400    79.8    19.8     0.5    89.6   
  2. Komodo 12.1.1 64-bit    400     0.5    19.8    79.8    10.4  

Cross table:
----------------------------------------------------------------------------------
  #  name                    score%   games         1         2
  1. Stockfish 170222          89.6     400         x     358.5
  2. Komodo 12.1.1 64-bit      10.4     400      41.5         x
Parent - - By Frank Brenner Date 2022-02-23 11:06 Upvotes 1
Hier das Ergebnis mit SF vom 10.02.22 vs Komodo 12 ---> + 375 ELO

Exakt identisch wie SF 17.02.22 vs Komodo 12

Als nächste ist Fire dran, und dann mal gucken .... ggf mit 8m/Partie + 8s/Zug um das Patch mit noch größeren Bedenkzeiten zu testen.

Ich hoffe bei Fire ist der Elo-Abstand nicht so groß, denn bei so großen Absständen ist die Streuung sehr groß.

Sehr stark sieht man auch den Einfluss der Drawkiller.V5 Eröffnung: Mit diesen Startstellungen egibt sich ein Elo Unterschied von 375 ELO.
Bei CEGT wird mit eher ausgeglicheneren Eröffnungen gespielt und hier erzielt SF nur etwa 200 ELO  mehr als Komodo 12.

Code:

Result:  3m + 3s
----------------------------------------------------------------------------------
  #  name                  games   wins%  draws% losses%  score%    elo    +    -
  1. Stockfish 100222        400    80.0    19.3     0.8    89.6  
  2. Komodo 12.1.1 64-bit    400     0.8    19.3    80.0    10.4 

Cross table:
----------------------------------------------------------------------------------
  #  name                    score%   games         1         2
  1. Stockfish 100222          89.6     400         x     358.5
  2. Komodo 12.1.1 64-bit      10.4     400      41.5         x

Tech:
----------------------------------------------------------------------------------

Tech (average nodes, depths, time/m per move, others per game), counted for computing moves only, ignored moves with zero nodes:
  #  name                    nodes/m         NPS  depth/m   time/m    moves     time
  1. Stockfish 100222          8592K     1651071     44.3      5.2     69.4    361.1
  2. Komodo 12.1.1 64-bit     11640K     2247924     27.5      5.2     69.0    357.2
     all ---                   9874K     1947881     35.9      5.2     69.2    359.2
Parent - - By Wolfgang Battig Date 2022-02-23 12:26 Edited 2022-02-23 13:13
Zitat:
Ich hoffe bei Fire ist der Elo-Abstand nicht so groß, denn bei so großen Absständen ist die Streuung sehr groß.

Nein, bei uns sind es ca. 150 Punkte zwischen SF14.1 und Fire 8.NN.1

Ich frage mich allerdings woher Du folgendes hast:
Zitat:
Bei CEGT wird mit eher ausgeglicheneren Eröffnungen gespielt und hier erzielt SF nur etwa 200 ELO mehr als Komodo 12.

Das mit den Eröffnungen stimmt, aber die Differenz?
Stockfish 14.1 = 3670
Komodo 12.1.1 = 3332
Differenz 338 Punkte

beide 64bit, 1Core
Parent - By Frank Brenner Date 2022-02-23 20:25
Wolfgang Battig schrieb:

Zitat:
Ich hoffe bei Fire ist der Elo-Abstand nicht so groß, denn bei so großen Absständen ist die Streuung sehr groß.

Nein, bei uns sind es ca. 150 Punkte zwischen SF14.1 und Fire 8.NN.1

Ich frage mich allerdings woher Du folgendes hast:
Zitat:
Bei CEGT wird mit eher ausgeglicheneren Eröffnungen gespielt und hier erzielt SF nur etwa 200 ELO mehr als Komodo 12.

Das mit den Eröffnungen stimmt, aber die Differenz?
[url]Stockfish 14.1 = 3670[/url]
[url]Komodo 12.1.1 = 3332[/url]
Differenz 338 Punkte

beide 64bit, 1Core


okay, ich schau immer in die 40/20 Liste bei euch, das ist für mich die Wikipedia der Ranglisten, und da steht

Zitat:
Stockfish 14.1NNUE x64 4CPU  3602
Komodo 12.1.1 x64 4CPU  3398  11  11  2494


Die Details, also daß ihr mit 4 core getestet habt und mit längerer Bedenkzeit,  hab ich nicht berücksichtigt, weil für meine Zwecke unwesentlich.

Eine Frage: Spielt ihr 40/20 auf der jeweils verfügbaren Hardware, oder wird die Bedenkzeit mit Benchmarks im Vergleich zu einer Eich-Hardware für jedn Test-PC justiert ?
Parent - By dkappe Date 2022-02-21 21:57
Wieder mal mit einem Standard Eröffnungsbuch wird das wohl bloß 40 elo.
Parent - - By Dominik Tonert Date 2022-02-21 09:28 Upvotes 1
Code:
Ryzen Threadripper PRO 3995WX
cutechess cli
Hert500.pgn
60s + 0.6s
1 thread for all engines
128 MB Hash
Ordo-calculation is fixed to Stockfish 14.1 = 3780 Elo

------------------------------------------------------------------------------------------

Games        : 1000 (finished)

White Wins   : 86 (8.6 %)
Black Wins   : 20 (2.0 %)
Draws        : 894 (89.4 %)
Unfinished   : 0

White Score  : 53.3 %
Black Score  : 46.7 %

     Program               Elo    +    -   Games   Score   Av.Op.  Draws

   1 Stockfish 200222    : 3792    7    7  1000    51.7 %   3780   89.4 %
   2 Stockfish 14.1      : 3780    7    7  1000    48.3 %   3792   89.4 %
Individual statistics:

1 Stockfish 200222 : 3792 1000 (+ 70,=894,- 36), 51.7 %

Stockfish 14.1     : 1000 (+ 70,=894,- 36), 51.7 %

2 Stockfish 14.1   : 3780 1000 (+ 36,=894,- 70), 48.3 %

Stockfish 200222   : 1000 (+ 36,=894,- 70), 48.3 %
Parent - By Max Siegfried Date 2022-02-21 22:51
Hauptsache die Entwickler vergessen jetzt nicht entsprechend Netze zu entwickeln.
Up Topic Hauptforen / CSS-Forum / Stockfish möglicherweise sehr stark bei längeren Bedenkzeiten verbessert

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill