Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Kleiner Ersteindruck der neuen Tests
- - By Stefan Pohl Date 2014-04-27 07:57 Upvotes 1
Hallo zusammen,

nach dem Ende der LS-Rangliste laufen nun die neuen Tests von mir. Nämlich auf Notebook  1 der Test der Stockfish-Devs. Da läuft noch der allererste Testrun von Stockfish 140212, als Referenztest (diese Version ist in der FastGM-Bulletliste verzeichnet). Ab voraussichtlich Dienstag geht es dann mit der dann neuesten Stockfish-Dev weiter.
Auf Notebook 2 läuft seit knapp 4 Tagen mein neues Endlos-RoundRobin der absoluten Engine-Spitze mit z.Zt. 4 Engines (Stockfish 140423, Houdini 4, Komodo TCECr und Gull 3), wobei diese Zahl nicht festgezurrt ist. Je nachdem wie sich die Spitze der Enginelandschaft in Zukunft entwickelt, könnten es 3-5 Engines werden. Es geht bei diesem Test darum, eine hohe Zahl von Partien der Spitzenengines gegeneinander zu generieren und zwar mit hohem schachlichen Niveau. Daher habe ich mich für das Tempo 15'+3'' entschieden (Shredder Classic GUI, Ponder off, no bases, 512 MB Hash), jede Engine hat eine identische Kopie eines neutralen 8moves-Book, in das sie lernen kann), wobei die Engines jeweils mit allen 4 Cores rechnen dürfen. Damit dauert jede Partie ca. 35-40 Minuten und die Engines können bei vollem Brett ca. knapp 30 Sekunden pro Zug (mit 4 cores, wie gesagt!) rechnen, sodaß pro Zug/Brettstellung von einer Engine so um die 150-200 Millionen Knoten durchgerechnet werden. Das bedeutet allerdings auch, daß ich nur ca. 40 Partien pro Tag schaffe.
Bisher sind erst knapp 160 Partien absolviert, sodaß man noch nicht viel sagen kann. Bisher spielt Stockfish alles in Grund und Boden, man muß beinahe hoffen, daß das nur ein statistischer Ausreißer ist...Interessant ist aber jetzt schon, was die Engines so in ihrer Buchkopie lernen. Stockfish z.B. spielt mit Schwarz bisher sehr erfolgreich holländisch und spielt nach 1.d4 deshalb im Moment immer 1...f5. Mit Weiß spielt Houdini gerne und erfolgreich 1.c4. Es wird sicher sehr interessant zu sehen, wie sich diese Lerneffekte mit weit mehr Partien in Zukunft entwickeln werden und ob und welche (evt. verschiedenen) Vorlieben die Egines für bestimmte Systeme entwickeln werden.

Für das Buch habe ich die gut 37000 Stellungen des aktuellen Stockfish-Framework Buchs genommen und die gut 100000 8moves von Adam Hair. Dann habe ich in den ersten 3 Halbzügen ein paar ganz komische Züge rausgejätet (1.a4 etc..). Ansonsten ist das Buch total neutral, d.h. die Züge sind in keinster Weise gewichtet und alle Züge des Buches haben die gleiche Ausspielwahrscheinlichkeit (bis eben die Engines anfangen zu lernen).

In einigen Wochen gehe ich dann mit einer neuen Website online und werde erste Ergebnisse dort posten. Auch von meinen Stockfish-Dev-Tests.

Stefan
Parent - - By Tom Paul Date 2014-04-27 09:30
Seit dem 12.04 gab es bis jetzt ganze 7% speed up bei Stockfish.
Laut MC soll 1% speed up ~1,5 ELO Spielstärkezuwachs geben.
Dann wären 7% x 1,5 = 10,5 ELO Spielstärkezuwachs nur durch speed up.
Wie sich das wohl im Endspiel auf die Tiefe (50 Züge) auswirkt?
Parent - - By Ernest Bonnem Date 2014-04-27 18:52
Wer ist MC ???

1% speed up => ~1 ELO
(basiert auf speed x2  => +70 Elo)
Parent - - By Thomas Müller Date 2014-04-27 21:01
Marco ....... ein versuch hast du noch

gruß
thomas
Parent - - By Benno Hartwig Date 2014-04-27 21:32
Wenn wir von +70 ELO ausgehen für jede Geschwindigkeitsverdopplung, ist der Zusammenhang:

     70*log2(ZEITFAKTOR)`= ELODIFFERENZ

oder eben

     70*log2(1,01)`= 1 (ziemlich genau)

"Ein Prozent Geschwindigkeitssteigerung bringt 1 ELO"
Diese Näherung sollte man aber nur für recht kleine Prozentzahlen nutzen.

Benno
Parent - By Ernest Bonnem Date 2014-04-28 17:06
Benno Hartwig schrieb:
Diese Näherung sollte man aber nur für recht kleine Prozentzahlen nutzen.

Sagen wir, bis ungef. 25-30%...
Es ist ja eine Kurve, für 100%   +70 Elo (die Annahme)
Parent - - By Clemens Keck Date 2014-04-29 23:41
nix gwis weis mer ja net. Aber mal mein Senf hierzu:

Ich schätze das man nicht endlos verdoppeln kann und immer +70 ELO rausholt.
Ich schätze den Zuwachs eher auf 50 Punkte bei der ersten verdopplung der Geschwindigkeit.
Und mit 1% schneller 1 ELO das glaube ich nie und nimmer. Ist viel zu viel ...

Aber:
Mit schätzen und glauben erntet man hier keinen Blumentopf
Parent - - By Benno Hartwig Date 2014-04-30 00:10
Es mag sein, dass bei längeren Zeiten für die Verdopplung nur 50 ELO herausspringen.
Der Zeitfaktor für den Gewinn von 1 ELO wäre dann 2^(1/50)=1,014
"Du musst um 1,4% schneller werden, damit du 1 ELO dazugewinnst."
oder eben "1% Geschwindigkeitssteigerung gibt dir 50*log2(1,01)=0,72 ELO dazu."

Aber die Annahme von "70 ELO für die Zeitverdopplung" führt zu so schön übersichtlichen Rechnungen.

Benno
Parent - By Ernest Bonnem Date 2014-04-30 18:09
+1  
Parent - By Stefan Pohl Date 2014-04-28 08:39
Tom Paul schrieb:

Seit dem 12.04 gab es bis jetzt ganze 7% speed up bei Stockfish.
Laut MC soll 1% speed up ~1,5 ELO Spielstärkezuwachs geben.
Dann wären 7% x 1,5 = 10,5 ELO Spielstärkezuwachs nur durch speed up.
Wie sich das wohl im Endspiel auf die Tiefe (50 Züge) auswirkt?


Ich teste zunächst die Version vom 12.02. nicht 12.04. weil die vom 12.02. in der FastGM-Bulletliste verzeichnet ist und ich einen Referenzpunkt brauche.

Stefan
Parent - - By Benno Hartwig Date 2014-04-27 20:41

> In einigen Wochen gehe ich dann mit einer neuen Website online und werde erste Ergebnisse dort posten. Auch von meinen Stockfish-Dev-Tests.


Ich bin gespannt, wie es dann aussieht.
Und ich vermute, du wirst uns wieder was sehr Interessantes präsentieren können, sodass du wieder deinen Platz in der Favoritenleiste sicher haben wirst.

Benno
Parent - By Stefan Pohl Date 2014-04-28 09:03
Benno Hartwig schrieb:

Ich bin gespannt, wie es dann aussieht.
Und ich vermute, du wirst uns wieder was sehr Interessantes präsentieren können, sodass du wieder deinen Platz in der Favoritenleiste sicher haben wirst.

Benno


Das hoffe ich doch!

Alle Leute interessieren sich für die Stockfish-Dev-Tests gegen andere Engines. Daher geht das Testen derselben mit hohem "Takt" weiter. Morgen sollte der erste Test der Version von 12.2. durch sein, dann geht es sofort mit der dann aktuellsten Version weiter und das Ergebnis sollte dann am kommenden Wochenende vorliegen. Bei dem gewählten Tempo (70''+700ms (umgerechnet von der FastGM-Bulletliste auf meine Hardware)) und den zu spielenden 5000 Partien dauert ein Test auf 3 (von 4) Cores auf einem meiner Notebooks gut 4 Tage (knapp 100 Stunden).
Wann meine neue Website online geht, kann ich noch nicht so genau sagen, aber bis dahin poste ich alles Wissenswerte hier und auf talkchess.

Stefan
Parent - By Stefan Pohl Date 2014-05-02 07:29
Stefan Pohl schrieb:

Hallo zusammen,

nach dem Ende der LS-Rangliste laufen nun die neuen Tests von mir. Nämlich auf Notebook  1 der Test der Stockfish-Devs. Da läuft noch der allererste Testrun von Stockfish 140212, als Referenztest (diese Version ist in der FastGM-Bulletliste verzeichnet). Ab voraussichtlich Dienstag geht es dann mit der dann neuesten Stockfish-Dev weiter.
Auf Notebook 2 läuft seit knapp 4 Tagen mein neues Endlos-RoundRobin der absoluten Engine-Spitze mit z.Zt. 4 Engines (Stockfish 140423, Houdini 4, Komodo TCECr und Gull 3), wobei diese Zahl nicht festgezurrt ist. Je nachdem wie sich die Spitze der Enginelandschaft in Zukunft entwickelt, könnten es 3-5 Engines werden. Es geht bei diesem Test darum, eine hohe Zahl von Partien der Spitzenengines gegeneinander zu generieren und zwar mit hohem schachlichen Niveau. Daher habe ich mich für das Tempo 15'+3'' entschieden (Shredder Classic GUI, Ponder off, no bases, 512 MB Hash), jede Engine hat eine identische Kopie eines neutralen 8moves-Book, in das sie lernen kann), wobei die Engines jeweils mit allen 4 Cores rechnen dürfen. Damit dauert jede Partie ca. 35-40 Minuten und die Engines können bei vollem Brett ca. knapp 30 Sekunden pro Zug (mit 4 cores, wie gesagt!) rechnen, sodaß pro Zug/Brettstellung von einer Engine so um die 150-200 Millionen Knoten durchgerechnet werden. Das bedeutet allerdings auch, daß ich nur ca. 40 Partien pro Tag schaffe.
Bisher sind erst knapp 160 Partien absolviert, sodaß man noch nicht viel sagen kann. Bisher spielt Stockfish alles in Grund und Boden, man muß beinahe hoffen, daß das nur ein statistischer Ausreißer ist...Interessant ist aber jetzt schon, was die Engines so in ihrer Buchkopie lernen. Stockfish z.B. spielt mit Schwarz bisher sehr erfolgreich holländisch und spielt nach 1.d4 deshalb im Moment immer 1...f5. Mit Weiß spielt Houdini gerne und erfolgreich 1.c4. Es wird sicher sehr interessant zu sehen, wie sich diese Lerneffekte mit weit mehr Partien in Zukunft entwickeln werden und ob und welche (evt. verschiedenen) Vorlieben die Egines für bestimmte Systeme entwickeln werden.

Für das Buch habe ich die gut 37000 Stellungen des aktuellen Stockfish-Framework Buchs genommen und die gut 100000 8moves von Adam Hair. Dann habe ich in den ersten 3 Halbzügen ein paar ganz komische Züge rausgejätet (1.a4 etc..). Ansonsten ist das Buch total neutral, d.h. die Züge sind in keinster Weise gewichtet und alle Züge des Buches haben die gleiche Ausspielwahrscheinlichkeit (bis eben die Engines anfangen zu lernen).

In einigen Wochen gehe ich dann mit einer neuen Website online und werde erste Ergebnisse dort posten. Auch von meinen Stockfish-Dev-Tests.

Stefan


Leider mußte ich festellen, daß es keine gute Idee war, mit lernenden Büchern zu spielen, da die Engines zu oft in die immergleichen Varianten reinrutschten. Daher müßte ich mein Endlos-RoundRobin neu starten und spiele nun ganz klassich mit Vorgabestellungen (37400v3 (die aktuellen Vorgabestellungen des Stockfish-Frameworks)) und auch mit Wiederholung mit vertauschten Farben. Wird eine Engine in dem RoundRobin ersetzt (neue Version z.B.), dann werden die "abgespielten" Stellungen aus dem Vorgabefile entfernt und das RoundRobin geht dann weiter. Da es über 37000 Stellungen sind, reichen diese (theoretisch) für etliche Jahre non-stop-Betrieb...also in jedem Fall bis zum Neutstart bei Hardware-Neukauf.

Stefan
Up Topic Hauptforen / CSS-Forum / Kleiner Ersteindruck der neuen Tests

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill