Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / LS-Rangliste (Sammelthread)
1 2 Previous Next  
Parent - By Thomas Zipproth Date 2013-08-08 10:27
LLR bedeutet wohl "Log-likelihood ratio"
Dieser Wert wiederum ist das Ergebnis eines statistisches Tests, nämlich diesem:
http://de.wikipedia.org/wiki/Likelihood-Quotienten-Test

Letztendlich bekommt man damit eine Aussage, mit welcher Wahrscheinlichkeit die neue Version besser als die alte ist.
Parent - - By Tom Paul Date 2013-08-08 15:30
Diese Version hat aber einen schönen Spielstil und scheint auch etwas stärker zu sein.
Parent - - By Patrick Götz (Mod.) Date 2013-08-08 15:55
Ein erster kurzer Test von mir bestätigt das.

Games Completed = 1000 of 1000 (Avg game length = 29.992 sec)
Settings = Gauntlet/32MB/15000ms+50ms/M 600cp for 12 moves, D 150 moves/PGN:J:\Downloads\LittleBlitzer\fq500.pgn(500)
Time = 15435 sec elapsed, 0 sec remaining

1.  Stockfish 080813 64        508.0/1000  221-205-574    (L: m=10 t=0 i=0 a=195)  (D: r=455 i=77 f=34 s=0 a=8)  (tpm=240.6 d=15.18 nps=1591913)
2.  Stockfish 290713 64        492.0/1000  205-221-574    (L: m=13 t=0 i=0 a=208)  (D: r=455 i=77 f=34 s=0 a=8)  (tpm=240.5 d=15.11 nps=1588214)
Parent - By Stefan Pohl Date 2013-08-08 18:32
[quote="Patrick Götz"]
Ein erster kurzer Test von mir bestätigt das.

Games Completed = 1000 of 1000 (Avg game length = 29.992 sec)
Settings = Gauntlet/32MB/15000ms+50ms/M 600cp for 12 moves, D 150 moves/PGN:J:\Downloads\LittleBlitzer\fq500.pgn(500)
Time = 15435 sec elapsed, 0 sec remaining

1.  Stockfish 080813 64        508.0/1000  221-205-574    (L: m=10 t=0 i=0 a=195)  (D: r=455 i=77 f=34 s=0 a=8)  (tpm=240.6 d=15.18 nps=1591913)
2.  Stockfish 290713 64        492.0/1000  205-221-574    (L: m=13 t=0 i=0 a=208)  (D: r=455 i=77 f=34 s=0 a=8)  (tpm=240.5 d=15.11 nps=1588214)
[/quote]

Ich teste die Version auch für die LS-Rangliste. Dann wissen wir es genau. Ich lasse den Test auf beiden Rechnern mit je 3 Cores laufen, sodaß das Ergebnis hoffentlich schon Montag vorliegen wird, falls alles glattgeht.
Übrigens sehe ich hier, daß du wohl noch mein altes Vorgabestellungsfile verwendest. Dieses enthält zwei Stellungen mit en passant, wo durch einen Bug der LittleBlitzerGUI der geschlagene Bauer wieder auftaucht! Lade dir bitte für weitere Tests das neue FiLe von meiner Website. Es heißt fq500n.pgn und in diesem sind die zwei Stellungen durch zwei andere ohne en passant ersetzt worden.

Stefan
Parent - - By Tom Paul Date 2013-08-09 07:57
Vielleicht solltest du lieber die Version von heute testen?
Der nächste Bench kommt wahrscheinlich erst in 3 Tagen raus.
Author: Marco Costalba
Date: Fri Aug 9 08:21:55 2013 +0200
Timestamp: 1376029315

Fix 'improving' condition

Because VALUE_NONE is 30002, it happens that
after a check the next move is never an improving
one.

After this patch bench signature is independent from
VALUE_NONE actual value.

bench: 4303194
Parent - - By Stefan Pohl Date 2013-08-09 09:51
[quote="Tom Paul"]
Vielleicht solltest du lieber die Version von heute testen?
Der nächste Bench kommt wahrscheinlich erst in 3 Tagen raus.
Author: Marco Costalba
Date: Fri Aug 9 08:21:55 2013 +0200
Timestamp: 1376029315

Fix 'improving' condition

Because VALUE_NONE is 30002, it happens that
after a check the next move is never an improving
one.

After this patch bench signature is independent from
VALUE_NONE actual value.

bench: 4303194
[/quote]

Danke für den Hinweis. Der Test der Version vom 0808 verläuft bisher ohne meßbare Steigerung (nach ca. 3000 Partien +2 Elo). Da starte ich gerne nochmal neu.
Dauert dann natürlich entsprechend länger. Ergebnis dann hoffentlich Dienstag...

Stefan
Parent - - By Tom Paul Date 2013-08-09 12:26
Übrigens könntest du Stockfish in der nächsten Zeit nach dem Test, etwas seltener Testen, wegen der wenigen Kerne die zurzeit zu Verfügung stehen, kann man auch nur eine minimale Steigerung 1ELO wenn überhaupt erwarten. Da könntest du dir die Zeit sparen.
Statt dessen wäre es viel spannender mal eine andere Engine zu testen falls eine neue Version vorhanden ist, vielleicht bekommst du eine neue Nr. 10, oder Stockfish gegen Houdini oder Komodo mit längeren Bedenkzeiten testen.

Ps. weiter so und viel Erfolg mit der LS, gefällt mir sehr gut.
Parent - By Stefan Pohl Date 2013-08-09 13:25
[quote="Tom Paul"]
Übrigens könntest du Stockfish in der nächsten Zeit nach dem Test, etwas seltener Testen, wegen der wenigen Kerne die zurzeit zu Verfügung stehen, kann man auch nur eine minimale Steigerung 1ELO wenn überhaupt erwarten. Da könntest du dir die Zeit sparen.
Statt dessen wäre es viel spannender mal eine andere Engine zu testen falls eine neue Version vorhanden ist, vielleicht bekommst du eine neue Nr. 10, oder Stockfish gegen Houdini oder Komodo mit längeren Bedenkzeiten testen.

Ps. weiter so und viel Erfolg mit der LS, gefällt mir sehr gut.
[/quote]

Ich teste immer im LS-Tempo, Tests mit mehr Zeit können andere machen, ich bevorzuge es möglichst viele Partien zu generieren, weil man nur so statistisch stabile Ergebnisse bekommt.
Und andere Engines, die interessant sind, werden natürlich (an)getestet. Gerade habe ich ja PanChess 00.537 getestet. Und mit Arrester Eagle einen zweiten Versuch gestartet, der leider gescheitert ist, weil auch die neuere Version noch zuviele Crashes produziert, auch wenn es besser geworden ist. Sonst gibt es im Moment im Spitzenbereich nix Neues. Da bleibt also durchaus Zeit für Stockfish-Tests.

Stefan
Parent - - By Stefan Pohl Date 2013-08-10 09:48
[quote="Stefan Pohl"]
[quote="Tom Paul"]
Vielleicht solltest du lieber die Version von heute testen?
Der nächste Bench kommt wahrscheinlich erst in 3 Tagen raus.
Author: Marco Costalba
Date: Fri Aug 9 08:21:55 2013 +0200
Timestamp: 1376029315

Fix 'improving' condition

Because VALUE_NONE is 30002, it happens that
after a check the next move is never an improving
one.

After this patch bench signature is independent from
VALUE_NONE actual value.

bench: 4303194
[/quote]

Danke für den Hinweis. Der Test der Version vom 0808 verläuft bisher ohne meßbare Steigerung (nach ca. 3000 Partien +2 Elo). Da starte ich gerne nochmal neu.
Dauert dann natürlich entsprechend länger. Ergebnis dann hoffentlich Dienstag...

Stefan
[/quote]

So, hier der Zwischenstand von Stockfish 130809 im LS-Testrun. Da 6 Cores laufen, geht es ja zügig voran. Nach gut 3000 Partien +10 Elo (im Vergleich zu Stockfish 130729)!
Also deutlich besser als der Score von Stockfish 130808 nach 3000 Partien, als ich abgebrochen habe (+2 Elo, s.o.).
Langsam wird mir Stockfish unheimlich...Lange wird es so nicht mehr dauern, bis die bisher beste Freeware-Engine Houdini 1.5a überholt wird. Und das im Bullet, was ja eine Schwäche von Stocki und eine Stärke von Houdini ist...
Dennoch wird ja höchstwahrscheinlich wieder der Stockfish-typische Sinkflug des Scores zum Ende des Tests hin einige Elo kosten. Ergo würde ich (mal wieder) ein Plus von schlußendlich 5-7 Elo prognostizieren.
Wäre für eine nur 12 Tage neuere Version ja trotzdem wieder super. Aber warten wir mal das Endergebnis ab. Gerade Stockfish schwankt ja in seinen Scores im Testverlauf stark hin- und her, sodaß 3000 Partien noch keinesfalls mit dem Endergebnis gleichzusetzen sind.
Endergebnis voraussichtlich Dienstag früh. Zeitangabe wie immer ohne Gewähr.

Stefan
Parent - - By Tom Paul Date 2013-08-10 15:27 Edited 2013-08-10 15:34
Author: Marco Costalba
Date: Sat Aug 10 17:11:13 2013 +0200
Timestamp: 1376147473

Fix GrainSize rounding error

The rounding formula is different between
positive and negative scores due to the
GrainSize/2 term that is asymmetric.

So use truncation instead of rounding. This
guarantees that evaluation is rounded to zero
in the same way for both positive and negative
scores.

Found with position's flip

bench: 4634244

Und wieder ohne learning
Parent - - By Stefan Pohl Date 2013-08-10 15:33
Nochmal starte ich den Testlauf jetzt nicht neu, dafür ist er schon zuweit fortgeschritten. Der nächste Stockfish-Test kommt ja bestimmt bald...

Stefan
Parent - - By Tom Paul Date 2013-08-10 15:37 Edited 2013-08-10 15:41
Würde sich auch nicht lohnen, sind bestenfalls 2 ELO, da ist es besser bis zum Dienstag warten und die Dienstagsversion testen, vielleicht wird diese auch 5-7 ELO mehr als die von gestern haben.
Wie ist der Zwischenstand?

Bis zum September (nTCEC) dürfte Stockfish genauso stark wie Komodo sein, es sei denn Komodo 5.1r3 kommt zur nTCEC.
Parent - - By Stefan Pohl Date 2013-08-10 17:33
[quote="Tom Paul"]
Würde sich auch nicht lohnen, sind bestenfalls 2 ELO, da ist es besser bis zum Dienstag warten und die Dienstagsversion testen, vielleicht wird diese auch 5-7 ELO mehr als die von gestern haben.
Wie ist der Zwischenstand?

Bis zum September (nTCEC) dürfte Stockfish genauso stark wie Komodo sein, es sei denn Komodo 5.1r3 kommt zur nTCEC.
[/quote]

Zwischenstand nach 3000 Partien siehe oben. Jetzt mußt du aufs Endergebnis warten, ein bißchen Restspannung will ich ja erhalten.
Und Komodo 5.1r3 wird es wohl nicht geben und selbst wenn: Ich habe alle drei bisherigen 5.1er Versionen getestet und alle lagen in einem 2 Elo-Intervall, also identische Spielstärke. Die älteren beiden Versionen sind aus der LS-Rangliste wieder gelöscht worden und nur noch in der aborted & problems-Sektion bei den gelöschten Versionen aufgelistet.

Stefan
Parent - - By Stefan Pohl Date 2013-08-12 07:45
[quote="Stefan Pohl"]

Zwischenstand nach 3000 Partien siehe oben. Jetzt mußt du aufs Endergebnis warten, ein bißchen Restspannung will ich ja erhalten.
[/quote]

The result of Stockfish 130809 is now online.

http://ls-ratinglist.beepworld.de/

Stefan

(Perhaps you have to clear your browsercache or reload the website)
Parent - - By Patrick Götz (Mod.) Date 2013-08-12 08:58
Danke Stefan!

Wenn man sich diese Zeit vor Augen hält:

41 Stockfish 2.3.1 x64s    2995    4    3 25000   46%  3025   46%
42 Stockfish 2.2.2 x64s    2992    5    5 11000   45%  3030   44%

Wie viele Monate/Tage lagen zwischen den beiden Versionen?

Und diese:
25 Stockfish 3 x64s        3020    5    5 12000   46%  3053   45%
12 Stockfish 130727 x64s   3061    5    5 10000   51%  3054   47%
09 Stockfish 130729 x64s   3068    5    5 11000   52%  3053   47%
08 Stockfish 130809 x64s   3074    5    5 10000   53%  3055   47%


muss man schon beeindruckt sein.

Besonders wenn man feststellt, wie wenig Schachfreunde sich z.Zt. daran beteiligen, weltweit gesehen sind es in den letzten Tagen im Schnitt nur ca. 10-14 Personen mit im Schnitt einen Quad-Core.
Parent - By Stefan Pohl Date 2013-08-13 06:38 Edited 2013-08-13 06:44
[quote="Patrick Götz"]
Danke Stefan!

Wenn man sich diese Zeit vor Augen hält:

41 Stockfish 2.3.1 x64s    2995    4    3 25000   46%  3025   46%
42 Stockfish 2.2.2 x64s    2992    5    5 11000   45%  3030   44%

Wie viele Monate/Tage lagen zwischen den beiden Versionen?

Und diese:
25 Stockfish 3 x64s        3020    5    5 12000   46%  3053   45%
12 Stockfish 130727 x64s   3061    5    5 10000   51%  3054   47%
09 Stockfish 130729 x64s   3068    5    5 11000   52%  3053   47%
08 Stockfish 130809 x64s   3074    5    5 10000   53%  3055   47%

[/quote]

Weitere ältere und wegen möglicher Listenverzerrungen entfernte Stockfishversionen findet man in der aborted &problems Sektion meiner Website. Alle bisherigen Stockfishtests in der LS-Rangliste seit Stockfish 3 (30.04.2013 = 130430) mal aufgelistet. Alle Tests umfaßten natürlich mindestens 10000 Partien, versteht sich; keiner der hier aufgelisteten wurde vorzeitig abgebrochen.

130430: 3020 Elo (Stockfish 3)
130519: 3037 Elo
130601: 3046 Elo
130623: 3054 Elo
130724: 3055 Elo
130727: 3061 Elo
130729: 3068 Elo
130809: 3074 Elo

Also in ca. 100 Tagen insgesamt +54 Elo, also gut 0.5 Elo Zuwachs pro Tag. Das ist auf diesem hohen Ausgangsniveau ein unfaßbarer Schnitt!!!

Stefan
Parent - - By Roland Riener Date 2013-08-10 14:26
Habe mir heute die neueste SF Entwicklungsversion 090813 64 SSE4.2 heruntergeladen und stelle überrascht fest, daß diese bei mir nur auf 1 CPU läuft, im Gegensatz zur Version vom 08.07.13 mit 2 CPU.
Parent - - By Stefan Pohl Date 2013-08-10 15:25 Edited 2013-08-10 15:29
[quote="Roland Riener"]
Habe mir heute die neueste SF Entwicklungsversion 090813 64 SSE4.2 heruntergeladen und stelle überrascht fest, daß diese bei mir nur auf 1 CPU läuft, im Gegensatz zur Version vom 08.07.13 mit 2 CPU.
[/quote]

Seit neuestem ist in Stockfish die default Einstellung für das Kommando Threads = 1. Du mußt über die Engineoptionen in der GUi deiner Wahl die Threads manuell auf die Anzahl deiner CPU Kerne hochsetzen.
Zitat aus dem Changelog vom 2.August:

"Set threads number always to 1 at startup and let the
user explicitly to chose the number of threads. "

Stefan
Parent - - By Roland Riener Date 2013-08-10 16:22
Danke Stefan, das läßt sich machen .... aber nur bis zum nächsten Engine-Wechsel. Die "2" hält sich nicht, ich muß sie wieder neu eingeben.

Mache ich was falsch?
Parent - - By Michael Scheidl Date 2013-08-10 18:03 Edited 2013-08-10 18:06
Welches Interface betrifft das? Eventuell neu einbinden und schon währenddessen in die Settings/Parameter gehen, und diese von vornherein wunschgemäß anpassen. Der Eintrag im Konfigurationsfile für Stockfish (z.B. .uci für Fritz) wäre:

Threads=2

Neu einbinden ist einfacher, denn jedes Interface hat diese Konfigfiles woanders.

P.S. In Arena 2.0.1 bleiben solche "laufenden" Änderungen erhalten, sogar der MultiPV-Modus (auf letzteres muß man aufpassen, sonst spielt eine Engine in einem Turnier sogar in dem Modus. Ich glaube das gibts nur in Arena).
Parent - - By Roland Riener Date 2013-08-11 14:48
Hallo Michael, sehe deine Antwort erst jetzt. Das Verlieren der "threads 2" bezieht sich auf die Fritz 13 Gui.

Das oft gescholtene Aquarium hingegen behält die einmal eingegebene Änderung.
Parent - By Michael Scheidl Date 2013-08-11 15:30
Fritz behält die Settings, die beim ursprünglichen Einbinden ("Installieren") einer UCI-Engine ausgewählt wurden. Man kann eine UCI-Engine mehrmals, mit unterschiedlichen Settings, einbinden. Zur Unterscheidung kann bzw. muß man nur etwas an den Namen anhängen, z.B. "-2T".

Es gibt noch eine andere Möglichkeit, und zwar Speichen/Laden jedweder Settings; siehe Buttons in der betr. Dialogbox. Das ist aber m.E. etwas umständlich und eher nur für cb-native Engines interessant.
Parent - - By Ludwig Burgin Date 2013-08-10 07:13
Hallo Tom

090813 dürfte schon ein paar Elos mehr haben.Spielt wesentlich stärker als seine Vorgänger.

Gruß Ludwig
Parent - - By Patrick Götz (Mod.) Date 2013-08-10 09:20
Das kann ich bis jetzt noch nicht bestätigen:

Zwischenstand:

Games Completed = 230 of 1000 (Avg game length = 28.927 sec)
Settings = Gauntlet/32MB/15000ms+50ms/M 900cp for 6 moves, D 100 moves/PGN:J:\Downloads\LittleBlitzer\fq500n.pgn(500)
Time = 3461 sec elapsed, 11586 sec remaining
1.  Stockfish 080813 64        116.5/230  41-38-151    (L: m=1 t=0 i=0 a=37)  (D: r=120 i=17 f=2 s=0 a=12)  (tpm=259.6 d=14.85 nps=1585852)
2.  Stockfish 090813 64        113.5/230  38-41-151    (L: m=0 t=0 i=0 a=41)  (D: r=120 i=17 f=2 s=0 a=12)  (tpm=258.4 d=14.86 nps=1599306)
Parent - - By Patrick Götz (Mod.) Date 2013-08-10 14:10
Jetzt doch, auch wenn es knapp war:

Games Completed = 1000 of 1000 (Avg game length = 28.941 sec)
Settings = Gauntlet/32MB/15000ms+50ms/M 900cp for 6 moves, D 100 moves/PGN:J:\Downloads\LittleBlitzer\fq500n.pgn(500)
Time = 16066 sec elapsed, 0 sec remaining
1.  Stockfish 080813 64        492.5/1000  178-193-629   
2.  Stockfish 090813 64        507.5/1000  193-178-629  
Parent - - By Tom Paul Date 2013-08-10 14:34
Nach der LS beträgt der Unterschied zwischen Stockfish und Komodo 5.1r2 12 ELO mit der neuesten Version noch weniger.
In irgend einem Thread hier hatte jemand geschrieben, das Stockfish den größten Spielstärkezuwachs durch mehr Bedenkzeit und bessere Hardware bekommt.
Vielleicht ist Stockfish ja schon stärker als Komodo?
Parent - By Tom Paul Date 2013-08-11 13:47
Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board


Hier hatte die neueste Stockfish mit weiß kurzzeitig Schwierigkeiten die Stellung korrekt einzuschätzen (Tiefe 24-27 bei mir)
Parent - By Stefan Pohl Date 2013-08-19 04:07
The results of Mars 1 avx and Gull 2.1 Trap avx are now online.

http://ls-ratinglist.beepworld.de

Stefan

(Perhaps you have to clear your browsercache or reload the website)
Parent - By Stefan Pohl Date 2013-08-21 11:28
The result of Gull 2.2 x64 is now online.

http://ls-ratinglist.beepworld.de

Stefan

(Perhaps you have to clear your browsercache or reload the website)
Parent - - By Stefan Pohl Date 2013-08-24 10:39
The result of Stockfish 4 x64s is now online.

http://ls-ratinglist.beepworld.de

Stefan

(Perhaps you have to clear your browsercache or reload the website)
Parent - - By Jean . . Date 2013-08-24 13:55
Hallo Stefan,

Könnten Sie mir bitte den Download-Link für fq500n.pgn.

Vielen Dank.
Parent - By Stefan Pohl Date 2013-08-25 03:18
[quote="Jean . ."]
Hallo Stefan,

Könnten Sie mir bitte den Download-Link für fq500n.pgn.

Vielen Dank.
[/quote]

Auf meiner Website in der Sektion Settings & Links ist der Link zu finden...Soooo groß ist meine Website ja nun wirklich nicht.

Stefan
Up Topic Hauptforen / CSS-Forum / LS-Rangliste (Sammelthread)
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill